记录 | CUDA编程中声明内联函数的方法

互联网 1 年前 0 3

本文介绍: CUDA编程中声明内联函数的方法

下面将 say_hello() 声明为内联函数：

#include &lt;cstdio&gt;
#include &lt;cuda_runtime.h&gt;

__device__ __inline__ void say_hello(){
    printf("Hello, world!n");
}

__global__ void kernel(){
    say_hello();
}

int main(){
    kernel<<<1, 1&gt;&gt;&gt;();
    cudaDeviceSynchronize();
    return 0;
}

需要注意的点：
● inline 在 C++ 中的效果是声明一个函数为 weak 符号(弱符号)，和性能优化意义上的内联无关；
● 优化意义上的内联指把函数体直接放到调用者那里去；
● 因此 CUDA 编译器提供了一个 “私货” 关键字：__inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。GCC 编译器相应的私货则是 __attribute__(("inline")) ；
● 注意声明为 __inline__ 不一定就保证内联了，如果函数太大，编译器可能会放弃内联化。因此 CUDA 还提供了 __forceinline__ 这个关键字来强制一个函数为内联。GCC 也有相应的 __attribute__(("always_inline")) ；
● 此外，还有 __noinline__ 来禁止内联优化；

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

opencv中使用cuda加速图像处理

opencv中使用cuda加速图像处理

互联网 1 年前 5

java hello world

java hello world

java 1 年前 2

pytorch调用gpu训练的流程以及示例

pytorch调用gpu训练的流程以及示例

互联网 1 年前 3

CUDA计时

互联网 1 年前 4

windows用mingw(g++)编译opencv，opencv_contrib，并install安装

windows用mingw(g++)编译opencv，opencv_contrib，并install安装

互联网 1 年前 6

C++：Mac/Xcode 创建项目hello word！

C++：Mac/Xcode 创建项目hello word！

xcode 1 年前 4

JVM之GC垃圾回收

互联网 1 年前 4

行为型设计模式—中介者模式

互联网 1 年前 5

发表回复取消回复