上海大学计算机体系结构实验四 HPL安装和测试（虚拟机centos7.6环境下保姆级教程！）

本文介绍: 上海大学计算机体系结构实验四 HPL安装和测试（虚拟机 centos7.6环境下保姆级教程！）

CSDN上的安装测试有很多，但在实际安装过程中经常碰到博客的教程缺了中间的某个指令，或者漏了某个配置（写的不完全）导致报错的情况，一波三折下来直接心态搞崩，不过好在最后终于是成功了。

特此我详细记录下本次HPL安装和测试的过程，给自己一个参考，也给其他人一个参考。（本过程仅在我的centos7.6虚拟机上安装成功，若有其他报错问题可以评论区告诉我）

接下来的安装顺序也是按照BLAS-3.8.0-&g t;CBLAS-&g t;MPICH-3.2.1->HPL-2.3来进行。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kvlb0uON-1683801947680)(C:UserslvAppDataRoamingTyporatypora-user-imagesimage-20230511160212939.png)]

检查环境：

gfortran -v 
gcc -v

sudo yum install gcc
sudo yum install gcc-gfortran

wget http://www.netlib.org/blas/blas-3.8.0.tgz
tar -xzf blas-3.8.0.tgz

cd BLAS-3.8.0
make

ar rv libblas.a *.o

sudo cp blas_LINUX.a /usr/local/lib

wget http://www.netlib.org/blas/blast-forum/cblas.tgz
tar -xzf cblas.tgz

cd CBLAS
cp /home/ldw(你的用户名称这里我是ldw)/BLAS-3.8.0/blas_LINUX.a ./

cp /home/ldw(你的用户名称这里我是ldw)/BLAS-3.8.0/libblas.a  testing   
make

vim Makefile.in
BLLIB = /home/ldw(你的用户名称这里我是ldw)/BLAS-3.8.0/blas_LINUX.a

sudo cp lib/cblas_LINUX.a /usr/local/lib

./testing/xzcblat1

wget http://www.mpich.org/static/downloads/3.2.1/mpich-3.2.1.tar.gz
tar xzf mpich-3.2.1.tar.gz

cd mpich-3.2.1/
./configure --disable-cxx --prefix=/home/mpich-install 2>&amp;1 | tee c.txt

make 2>&amp;1 | tee m.txt

sudo make install 2>&amp;1 | tee mi.txt

vim ~/.bashrc
export PATH=/home/mpich-install/bin:$PATH
source ~/.bashrc

which mpicc &amp;&amp; which mpiexec
mkdir machinefile
mpiexec -f machinefile -n 3 hostname &amp;&amp; mpiexec -n 5 -f machinefile ./examples/cpi

wget http://www.netlib.org/benchmark/hpl/hpl-2.3.tar.gz
tar -xzf hpl-2.3.tar.gz

cd hpl-2.3/
cp setup/Make.Linux_PII_CBLAS ./

vim Make.Linux_PII_CBLAS

make arch=Linux_PII_CBLAS

cd bin/Linux_PII_CBLAS
mpirun -np 4 ./xhpl > HPL-Benchmark.txt

cat /proc/cpuinfo

1 修改HPL.dat设置运行参数

在HPL测试中，使用的参数选择与测试的结果有很大的关系。HPL中参数的设定是通过从一个配置文件HPL.dat中读取的，所以在测试前要改写HPL.dat文件，设置需要使用的各种参数，然后再开始运行测试程序。配置文件内容的结构如下：

HPLinpack benchmark input file              //文件头，说明

Innovative Computing Laboratory, University of Tennessee

HPL.out    output file name (if any)         //如果使用文件保留输出结果，设定文件名

6       		device out (6=stdout,7=stderr,file)   //输出方式选择（stdout,stderr或文件）

2     	 		# of problems sizes (N)       //指出要计算的矩阵规格有几种

1960  	2048	Ns                      //每种规格分别的数值

2      			# of NBs               //指出使用几种不同的分块大小

60 80     		NBs                   //分别指出每种大小的具体值

2      			# of process grids (P x Q-l     //指出用几种进程组合方式

2  4     		Ps                 //每对PQ具体的值

2  1   		 	Qs                  

16.0     		threshold              //余数的阈值

1       		# of panel fact           //用几种分解方法

1       		PFACTs (0=left, 1=Crout, 2=Right)  //具体用哪种,0 left,1 crout,2 right

1       		# of recursive stopping criterium  //几种停止递归的判断标准

4       		NBMINs (>= 1)             //具体的标准数值（须不小于1）

1     		  	# of panels in recursion       //递归中用几种分割法

2    		   NDIVs                //这里用一种NDIV值为2，即每次递归分成两块

1     		   # of recursive panel fact.     //用几种递归分解方法

2     		  	RFACTs (0=left, 1=Crout, 2=Right)   //这里每种都用到（左，右，crout分解）

1     		  # of broadcast             //用几种广播方法

3       BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)  //指定具体哪种（有1-ring,1-ring Modified,2-ring,2ring Modified,Long以及long-Modified）

1       # of lookahead depth   //用几种向前看的步数

1       DEPTHs (>=0)       //具体步数值（须大于等于0）

2       SWAP (0=bin-exch,1=long,2=mix) //哪种交换算法（bin-exchange，long或者二者混合）

64      swapping threshold   //采用混合的交换算法时使用的阈值

0       L1 in (0=transposed,1=no-transposed) form   //L1是否用转置形式

0 U  in (0=transposed,1=no-transposed) form  //U是否用转置形式表示

1       Equilibration (0=no,1=yes)        //是否采用平衡状态

8       memory alignment in double (> 0)   //指出程序运行时内存分配中的采用的对齐方式

要得到调试出高的性能，必须考虑内存大小，网络类型以及拓扑结构，调试上面的参数，直到得出最高性能。

  本次实验需要对以下三组参数进行设置：

2       		# of problems sizes (N)        //指出要计算的矩阵规格有几种

1960  2048		Ns                      //每种规格分别的数值指出要计算的矩阵规格有2种，规格是1960，2048

2       		# of NBs               //指出使用几种不同的分块大小

60 80    		 NBs                   //分别指出每种大小的具体值指出使用2种不同的分块大小，大小为60，80

2       		# of process grids (P x Q-l     //指出用几种进程组合方式

2  4    		 Ps                  //每对PQ具体的值

2  1    		Qs   

指出用2种进程组合方式，分别为（p＝2，q=2） 和（p＝4，q=1）

注：p＝2，q=2时需要的进程数是p×q＝2×2＝4，运行时mpirun命令行中指定的进程数必须大于等于4

以上3组每组有两种情况，组合后一共有8种情况，将得到8个性能测试值，经过不断的调试将会得出一个最大的性能值，这就是得到的最高性能值。

  以下是其中一个性能测试值，规格为2048，分块是60，p＝2，q=2时，运行时间为：56.14，运算速度为0.8165 Gflops。PASSED代表结果符合要求。

============================================================================

T/V         N   NB   P   Q        Time       Gflops

----------------------------------------------------------------------------

W13R2C4     2048  60   2   2        56.14      8.165e-01

----------------------------------------------------------------------------

||Ax-b||_oo / ( eps * ||A||_1  * N     ) =     0.0175089 ...... PASSED

||Ax-b||_oo / ( eps * ||A||_1  * ||x||_1  ) =     0.0035454 ...... PASSED

||Ax-b||_oo / ( eps * ||A||_oo * ||x||_oo ) =     0.0007503 ...... PASSED

============================================================================

CPU个数	N	NB	P	Q	Time	Gflops	参与运算主机名
1	1960	60	1	1	0.66	7.6447	Ldw@master
2	1960	60	1	2	0.34	14.800	Ldw@master
3	1960	60	1	3	0.25	20.259	Ldw@master
4	1960	60	2	2	0.2	24.91	Ldw@master

https://blog.csdn.net/no1xiaoqianqian/article/details/129223686?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-129223686-blog-51442603.235%5Ev32%5Epc_relevant_increate_t0_download_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-129223686-blog-51442603.235%5Ev32%5Epc_relevant_increate_t0_download_v2&utm_relevant_index=2

https://blog.csdn.net/sishuiliunian0710/article/details/20493101?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168377439916800215023273%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168377439916800215023273&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-2-20493101-null-null.142^v86^control,239^v2^insert_chatgpt&utm_term=%E5%AE%89%E8%A3%85hpl&spm=1018.2226.3001.4187
https://blog.csdn.net/kingdomkitty/article/details/80258364?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168379618616800192282030%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168379618616800192282030&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-80258364-null-null.142^v87^control,239^v2^insert_chatgpt&utm_term=%E5%AE%89%E8%A3%85mpich&spm=1018.2226.3001.4187

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

上海大学 计算机 体系结构 实验四 HPL安装和测试（虚拟机 centos7.6环境下保姆级教程！）

一. 实验 环境

二. 环境 搭建

1、安装配置GCC和GFo rt r an（这很重要，后面可能有人会出现G77不存在的报错，需要 修改为GFo rtran）

2、下载安装BLAS-3.8.0（用来做矩阵计算 或者 向量 计算的库）

2.1首先进入 主目录，一般是/home/(你的usr 名称)页面，一般点击 下图的主目录 即可。

2.2 直接在主目录 右键 打开 终端，通过 wget 指令联网（虚拟机要能够 联网）下载BLAS-3.8.0，然后 解压在主目录 即可。

2.3 输入下面两条指令 编译 生成 b las _LINUX.a文件：make命令

2.4 链接.o 文件 生成 lib b las.a文件

2.5 复制一份b las _LINUX.a和lib b las.a库文件到系统/usr/local/lib 目录下（后续安装hpl 配置 环境时需要 用到）

3、安装CBLAS（是BLAS的C语言 接口）

3.1 回到主目录 右键 打开 终端，输入 指令 下载 cblas.tgz并解压

3.2 进入CBLS文件夹下，使用 绝对路径将处于BLAS-3.8.0文件夹下的blas_LINUX.a库文件拷贝到CBLS文件夹下

3.3 编译CBLS，CBLAS安装目录下的lib 目录中产生一个静态 链接库文件 cblas_LINUX.

3.4 修改 Makefile.in 文件中的 BLLIB字段

3.5 复制一份cblas_LINUX.a库文件到系统/usr/local/lib目录下（后续安装hpl 配置环境时需要用到）

3.6 测试 运行（h pl安装完成后可以 返回进行测试）

4、安装MPICH-3.2.1（用于 并行运算的工具）

4.1 回到主目录 右键 打开 终端，输入指令 下载并解压 mpich-3.2.1.tar.gz

4.2 输入下面两条指令 进入 mpich文件夹下并设置安装路径

4.3 编译

4.4 安装

4.5 配置环境变量

4.6 查看 前面 工作 是否成功

5、安装HPL-2.3

5.1 查看/usr/local/lib目录下是否 存在blas_LINUX.a和cblas_LINUX.a文件，若没有，请仔细阅读上文的步骤2和3的结尾 部分，需要 复制一份进去。

5.2 回到主目录右键 打开 终端，输入指令下载并解压hpl测试包

5.3 进入hpl-2.3文件夹，将setup文件夹下的Make.Linux_PII_CBLAS文件复制到hpl-2.3文件夹下(手动 进入 setup文件夹复制也行)。

5.4 配置环境参数（这一步极其重要，配错了就GG）

5.5 编译

5.6 运行测试，将测试结果 写入到HPL-Benc hmark.txt文件中。

至此hpl安装成功！可以返回到步骤3进行CBLAS的二次测试

三、hpl的测试

3.1 查看 cpu 详细 参数：

3.2 进行性能测试

3.3 完成上述测试后比较和分析上面的测试结果，特别是如何 能够得到高的性能测试值

发表回复取消回复

上海大学计算机体系结构实验四 HPL安装和测试（虚拟机centos7.6环境下保姆级教程！）

一. 实验环境

二. 环境搭建

1、安装配置GCC和GFortran（这很重要，后面可能有人会出现G77不存在的报错，需要修改为GFortran）

2、下载安装BLAS-3.8.0（用来做矩阵计算或者向量计算的库）

2.1首先进入主目录，一般是/home/(你的usr名称)页面，一般点击下图的主目录即可。

2.2 直接在主目录右键打开终端，通过wget指令联网（虚拟机要能够联网）下载BLAS-3.8.0，然后解压在主目录即可。

2.3 输入下面两条指令编译生成blas_LINUX.a文件：make命令

2.4 链接.o文件生成libblas.a文件

2.5 复制一份blas_LINUX.a和libblas.a库文件到系统/usr/local/lib目录下（后续安装hpl配置环境时需要用到）

3、安装CBLAS（是BLAS的C语言接口）

3.1 回到主目录右键打开终端，输入指令下载cblas.tgz并解压

3.2 进入CBLS文件夹下，使用绝对路径将处于BLAS-3.8.0文件夹下的blas_LINUX.a库文件拷贝到CBLS文件夹下

3.3 编译CBLS，CBLAS安装目录下的lib目录中产生一个静态链接库文件 cblas_LINUX.

3.4 修改 Makefile.in 文件中的 BLLIB字段

3.5 复制一份cblas_LINUX.a库文件到系统/usr/local/lib目录下（后续安装hpl配置环境时需要用到）

3.6 测试运行（hpl安装完成后可以返回进行测试）

4、安装MPICH-3.2.1（用于并行运算的工具）

4.1 回到主目录右键打开终端，输入指令下载并解压mpich-3.2.1.tar.gz

4.2 输入下面两条指令进入mpich文件夹下并设置安装路径

4.3 编译

4.4 安装

4.5 配置环境变量

4.6 查看前面工作是否成功

5、安装HPL-2.3

5.1 查看/usr/local/lib目录下是否存在blas_LINUX.a和cblas_LINUX.a文件，若没有，请仔细阅读上文的步骤2和3的结尾部分，需要复制一份进去。

5.2 回到主目录右键打开终端，输入指令下载并解压hpl测试包

5.3 进入hpl-2.3文件夹，将setup文件夹下的Make.Linux_PII_CBLAS文件复制到hpl-2.3文件夹下(手动进入setup文件夹复制也行)。

5.4 配置环境参数（这一步极其重要，配错了就GG）

5.5 编译

5.6 运行测试，将测试结果写入到HPL-Benchmark.txt文件中。

至此hpl安装成功！可以返回到步骤3进行CBLAS的二次测试

三、hpl的测试

3.1 查看cpu详细参数：

3.2 进行性能测试

3.3 完成上述测试后比较和分析上面的测试结果，特别是如何能够得到高的性能测试值

相关文章

发表回复 取消回复

上海大学计算机体系结构实验四 HPL安装和测试（虚拟机 centos7.6环境下保姆级教程！）

1、安装配置GCC和GFo rt r an（这很重要，后面可能有人会出现G77不存在的报错，需要修改为GFo rtran）

2.1首先进入主目录，一般是/home/(你的usr 名称)页面，一般点击下图的主目录即可。

2.2 直接在主目录右键打开终端，通过 wget 指令联网（虚拟机要能够联网）下载BLAS-3.8.0，然后解压在主目录即可。

2.3 输入下面两条指令编译生成 b las _LINUX.a文件：make命令

2.4 链接.o 文件生成 lib b las.a文件

2.5 复制一份b las _LINUX.a和lib b las.a库文件到系统/usr/local/lib 目录下（后续安装hpl 配置环境时需要用到）

3.1 回到主目录右键打开终端，输入指令下载 cblas.tgz并解压

3.3 编译CBLS，CBLAS安装目录下的lib 目录中产生一个静态链接库文件 cblas_LINUX.

3.5 复制一份cblas_LINUX.a库文件到系统/usr/local/lib目录下（后续安装hpl 配置环境时需要用到）

3.6 测试运行（h pl安装完成后可以返回进行测试）

4.1 回到主目录右键打开终端，输入指令下载并解压 mpich-3.2.1.tar.gz

4.2 输入下面两条指令进入 mpich文件夹下并设置安装路径

5.3 进入hpl-2.3文件夹，将setup文件夹下的Make.Linux_PII_CBLAS文件复制到hpl-2.3文件夹下(手动进入 setup文件夹复制也行)。

5.6 运行测试，将测试结果写入到HPL-Benc hmark.txt文件中。

3.1 查看 cpu 详细参数：

发表回复取消回复