openMP简记
openMP
介绍
OpenMP(Open Multi-Processing)是一套支持跨平台共享内存方式的多线程并发的编程API,使用C,C++和Fortran语言;可以在大多数的处理器体系和操作系统中运行,包括Solaris, AIX, HP-UX, GNU/Linux, Mac OS X 和 Microsoft Windows。包括一套编译器指令、库和一些能够影响运行行为的环境变量。支持OpenMP的编译器包括Sun Studio和Intel Compiler,以及开放源码的GCC、LLVM和Open64编译器。
OpenMP提供了对并行算法的高层的抽象描述,程序员通过在原始码中加入专用的pragma来指明自己的意图,由此编译器可以自动将程序进行并行化,并在必要之处加入同步互斥以及通信。当选择忽略这些pragma,或者编译器不支持OpenMP时,程序又可退化为通常的程序(一般为串行),程式码仍然可以正常运作,只是不能利用多线程来加速程序执行。
混合并行编程模型构建的应用程序可以同时使用OpenMP和MPI。
基础语法
在C/C++中,OpenMP被实现在库omp.h
中,实现并行时需要包含。进行并行执行的代码片段需要使用预编译指令进行相应的标记,被指令标记的部分代码片段将由主线程生成一系列的子线程来执行,并由运行时环境将线程分配给不同的处理器。在并行化的代码运行结束后,子线程join到主线程中,并由主线程继续执行程序。
其基础语法(预编译指令格式)如下:
其中,directive是主指令(必选),有12种:
parallel 代表接下来的代码块将被多个线程并行各执行一遍。
critical 其后的代码块为临界区,任意时刻只能被一个线程执行。
single 之后的程式将只会在一个线程(未必是主线程)中被执行,不会被并行执行。
master 指定由主线程来执行接下来的程式。
barrier 线程在此等待,直到所有的线程都执行到此barrier,用来同步所有线程。
for 用在for循环之前,由多个线程把for循环并行化执行,循环变量只能是整型。
ordered 指定在接下来的代码块中,被并行化的 for循环将依序执行(sequential loop)。
flush 所有线程对所有共享对象具有相同的内存视图(view of memory)。
atomic 内存位置将会原子更新(Specifies that a memory location that will be updated atomically)。
threadprivate 指定一个变量是线程局部存储(thread local storage)。
sections 将接下来的代码块包含将被并行执行的section块。
而clause是可选的子项,有13个:
copyin 让threadprivate的变量的值和主线程的值相同。
copyprivate 不同线程中的变量在所有线程中共享。
default Specifies the behavior of unscoped variables in a parallel region.
firstprivate 对于线程局部存储的变量,其初值是进入并行区之前的值。
if 判断条件,可用来决定是否要并行化。
lastprivate 在一个循环并行执行结束后,指定变量的值为循环体在顺序最后一次执行时取得的值,或者#pragma sections在中,按文本顺序最后一个section中执行取得的值。
nowait 忽略barrier的同步等待。
num_threads 设定线程数量的数量。默认值为当前计算机硬件支持的最大并发数。一般就是CPU的内核数目。超线程被操作系统视为独立的CPU内核。
ordered 使用于 for,可以在将循环并行化的时候,将程式中有标记 directive ordered 的部份依序执行。
reduction Specifies that one or more variables that are private to each thread are the subject of a reduction operation at the end of the parallel region.
schedule 设定for循环的并行化方法;有 dynamic、guided、runtime、static 四种方法。
schedule(static, chunk_size) 把chunk_size数目的循环体的执行,静态依序指定给各线程。
schedule(dynamic, chunk_size) 把循环体的执行按照chunk_size(缺省值为1)分为若干组(即chunk),每个等待的线程获得当前一组去执行,执行完后重新等待分配新的组。
schedule(guided, chunk_size) 把循环体的执行分组,分配给等待执行的线程。最初的组中的循环体执行数目较大,然后逐渐按指数方式下降到chunk_size。
schedule(runtime) 循环的并行化方式不在编译时静态确定,而是推迟到程序执行时动态地根据环境变量OMP_SCHEDULE 来决定要使用的方法。
private 指定变量为线程局部存储。
shared 指定变量为所有线程共享。
库函数
OpenMP定义了20多个库函数:
在后续并行区域设置线程数。此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。说明:此函数只能在串行代码部分调用。
返回当前线程数目。说明:如果在串行代码中调用此函数,返回值为1。
- 返回程序的最大可用线程数量。在程序中此处遇到未使用 num_threads() 子句指定的活动并行区域时可使用。说明:可以在串行或并行区域调用,通常这个最大数量由omp_set_num_threads()或OMP_NUM_THREADS环境变量决定.
- 返回当前线程id.id从1开始顺序编号,主线程id是0.
- 返回程序可用的处理器数.
- 启用或禁用可用线程数的动态调整。(缺省情况下启用动态调整.)此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.如果 _Dynamic_threads 的值为非零值,启用动态调整;否则,禁用动态调整.
确定在程序中此处是否启用了动态线程调整.启用了动态线程调整时返回非零值;否则,返回零值.
确定线程是否在并行区域的动态范围内执行.如果在活动并行区域的动态范围内调用,则返回非零值;否则,返回零值.活动并行区域是指 IF 子句求值为 TRUE 的并行区域.
- 启用或禁用嵌套并行操作.此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域._Nested 的值为非零值时启用嵌套并行操作;否则,禁用嵌套并行操作.缺省情况下,禁用嵌套并行操作.
确定在程序中此处是否启用了嵌套并行操作.启用嵌套并行操作时返回非零值;否则,返回零值.
互斥锁操作 嵌套锁操作 功能
初始化一个(嵌套)互斥锁。
结束一个(嵌套)互斥锁的使用并释放内存。
获得一个(嵌套)互斥锁.
释放一个(嵌套)互斥锁.
试图获得一个(嵌套)互斥锁,并在成功时放回真(true),失败是返回假(false)。
获取wall clock time,返回一个double的数,表示从过去的某一时刻经历的时间,一般用于成对出现,进行时间比较. 此函数得到的时间是相对于线程的,也就是每一个线程都有自己的时间。
得到clock ticks的秒数。
条件编译
可以在不破坏串行代码结构的前提下,通过条件编译来引入omp库和方法。示例如下:
Linux环境
配置
设置环境变量。需要在增加环境变量
export OMP_NUM_THREADS=并行线程数
。此处并行的线程数应符合自己电脑的cpu核心数。设置编译选项。必须在编译时增加
-fopenmp
选项。例如:
基本试例
vim test.c
编写C代码如下:
执行效果如下:
编译运行gcc -fopenmp test.c - o test && ./test