Optimized BLAS and Its Effect on Performance of Parallel Programs
-
摘要: 利用SMP结构的多处理器结点通过高速网络构造高性能并行计算系统是当前的一种发展趋势.为了使BLAS在SMP结点上具有更高的效率,本文讨论了BLAS3的多线程化问题;同时以SUMMA作为并行计算的实例,说明提高结点机程序的性能对并行计算性能的影响.试验结果显示,在一定的条件下,多线程BLAS3在SMP平台上可以获得超线性加速比;结点计算性能的提高的同时必须提高网络有效带宽,才能充分发挥并行计算的效能.Abstract: It is the trend of using SMP board as the compute node of a high performance system. The benefits of multithreading is discussed firstly and the BLAS3 is rewritten to get higher performance on a Dual Pentium II system. To investigate the relation between the performance of a single compute node and the entire parallel system, the SUMMA(Scalable Universal Matrix Multiplication Algorithm) is taken as an instance of our research works afterwards. The result demonstrates that the higher the performance of a SMP compute node is, the more sensitive to the capability of the SAN(System Area Network) the performance of the whole parallel system is.
-
Key words:
- parallel processing /
- linear algebra /
- optimization /
- multithread /
- BLAS /
- SUMMA
-
[1] Dongarra J J, Gustavson F G, Karp A. Implementing linear algebra algorithms for dense matrices on a Vecto pipeline machine[J].SIAM Rev, 1984,26:91~112.[2] Chandrika Kamath, Roy Ho, Dwight P Manley.DXML:A high-performance scientific subroutine library. [3] 李忠泽,陈 瑾,龙 翔,等.基于Pentium Pro的高性能BLAS的设计与实现[J].北京航空航天大学学报,1998,24(4):454~457.[4] Golub G H, Van Loan C F.Matrix computations[M]. 2nd ed. Baltimore:Johns Hopkins University Press, 1989.[5] Cannon L E.A cellular computer to implement the Kalman filter algorithm. Bozeman:Montana State University, 1969.[6] Fox G C, Johnson M A, Lyzenga G A, et al.Solving problems on concurrent processors[M]. Englewood Cliffs:Prentice Hall, 1988.[7] Agarwal R C, Gustavson F, Zubair M. A high-performance matrix multiplication algorithm on a distributed memory parallel computer using overlapped communication[J]. IBM Journal of Research and Development, 1994, 38(6):673~681.[8] Geijin R Van de, Watts J. SUMMA:scalable universal matrix multiplication algorithm. Technical Report of The University of Texas,TR-95-13, 1995. 期刊类型引用(15)
1. 罗飞,王润峰. 基于YOLOv5水下目标检测算法研究与改进. 通信与信息技术. 2024(01): 34-40 . 百度学术
2. 陈宇梁,董绍江,孙世政,闫凯波. 改进YOLOv5s的弱光水下生物目标检测算法. 北京航空航天大学学报. 2024(02): 499-507 . 本站查看
3. 周玺兴,梁翔宇,胡佳宁,曾立华. 基于负压的浅海养殖海参捕捞系统设计与性能研究. 中国农机化学报. 2024(10): 94-99 . 百度学术
4. 杨婷,高武奇,王鹏,李晓艳,吕志刚,邸若海. 自动色阶与双向特征融合的水下目标检测算法. 激光与光电子学进展. 2023(06): 132-143 . 百度学术
5. 贾文娟,张孝薇,闫晨阳,李红志. 海洋牧场生态环境在线监测物联网技术研究. 海洋科学. 2022(01): 83-89 . 百度学术
6. 范刚,张亚,赵河明,李波. 水下机器人定位导航技术发展现状与分析. 兵器装备工程学报. 2022(03): 22-29 . 百度学术
7. 郝琨,王阔,王贝贝. 基于改进Mobilenet-YOLOv3的轻量级水下生物检测算法. 浙江大学学报(工学版). 2022(08): 1622-1632 . 百度学术
8. 高天铭,闫敬,尤康林,张良,林景胜,罗小元. 水下智能识别与自主抓取机器人设计与实现. 控制理论与应用. 2022(11): 2074-2083 . 百度学术
9. 王伟,李琰. 基于GIS的短时交通客流智能协调控制系统设计. 计算机测量与控制. 2021(01): 154-158 . 百度学术
10. 王晓鸣,吴高升. 基于单目视觉的水下机器人相对位姿精确控制. 水下无人系统学报. 2021(03): 299-307 . 百度学术
11. 高云,彭炜,周建慧. 机器人智能抓取未知目标位置深度识别仿真. 计算机仿真. 2021(08): 376-380 . 百度学术
12. 石少炜,石少敏. 基于虚拟现实的机器人工作状态智能监测系统. 自动化与仪器仪表. 2021(12): 172-175+180 . 百度学术
13. 魏哲,焦航. 纱筒搬运机器人的设计. 机械与电子. 2020(08): 76-80 . 百度学术
14. 翟国栋,任聪,王帅,岳中文,潘涛,季如佳. 多尺度特征融合的煤矿救援机器人目标检测模型. 工矿自动化. 2020(11): 54-58 . 百度学术
15. 于红. 水产动物目标探测与追踪技术及应用研究进展. 大连海洋大学学报. 2020(06): 793-804 . 百度学术
其他类型引用(21)
-

计量
- 文章访问数: 2957
- HTML全文浏览量: 162
- PDF下载量: 6
- 被引次数: 36