代码之家 › 专栏 › 技术社区 › asmo_192

CUDA(Libtorch)和OpenGL互操作的怪异行为

libtorch cuda opengl c++

asmo_192 · 技术社区 · 1 年前

我正在尝试编写函数,将OpenGL纹理转换为PyTorch张量,然后返回到C++应用程序中。为了测试它是否有效,我在张量中添加了128,基本上使图像变亮,然后在四边形上渲染得到的纹理。它基本上是有效的,但我正在经历一种奇怪的行为,其中部分纹理不受影响。

This 是原始纹理,并且 this 是将128添加到张量中的每个元素之后的纹理。注意,像1/4的图像不受此操作的影响

这些是代码的相关部分。 textureColorbuffer 使用格式GL_RGB(如果我理解正确的话,它是每个通道的比特深度8)。这就是我调用函数并添加到张量的地方:

cudaGraphicsGLRegisterImage(&cudaResource, textureColorbuffer, GL_TEXTURE_2D, cudaGraphicsMapFlagsNone);
torch::Tensor tensor = resourceToTensor(cudaResource, WIDTH, HEIGHT);
tensor = tensor + static_cast<unsigned char>(128);
tensorToResource(tensor, cudaResource, WIDTH, HEIGHT);

这些是已使用的函数:

torch::Tensor resourceToTensor(cudaGraphicsResource* cudaResource, int width, int height) {
    CUDA_CHECK_ERROR(cudaGraphicsMapResources(1, &cudaResource, 0));
    cudaArray* textureArray;
    CUDA_CHECK_ERROR(cudaGraphicsSubResourceGetMappedArray(&textureArray, cudaResource, 0, 0));

    unsigned char* devicePtr;
    size_t size = width * height * 3 * sizeof(unsigned char);
    CUDA_CHECK_ERROR(cudaMalloc(&devicePtr, size));

    CUDA_CHECK_ERROR(cudaMemcpyFromArray(devicePtr, textureArray, 0, 0, size, cudaMemcpyDeviceToDevice));
    auto options = torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCUDA);
    torch::Tensor tensor = torch::from_blob(devicePtr, { height, width, 3 }, options);

    CUDA_CHECK_ERROR(cudaGraphicsUnmapResources(1, &cudaResource, 0));

    torch::Tensor clonedTensor = tensor.clone();

    CUDA_CHECK_ERROR(cudaFree(devicePtr));
    return clonedTensor;
}

void tensorToResource(torch::Tensor tensor, cudaGraphicsResource* cudaResource, int width, int height) {
    tensor = tensor.to(torch::kCUDA);

    CUDA_CHECK_ERROR(cudaGraphicsMapResources(1, &cudaResource, 0));
    cudaArray* textureArray;
    CUDA_CHECK_ERROR(cudaGraphicsSubResourceGetMappedArray(&textureArray, cudaResource, 0, 0));

    const unsigned char* devicePtr = tensor.data_ptr<unsigned char>();
    size_t size = width * height * 3 * sizeof(unsigned char);
    CUDA_CHECK_ERROR(cudaMemcpyToArray(textureArray, 0, 0, devicePtr, size, cudaMemcpyDeviceToDevice));

    CUDA_CHECK_ERROR(cudaGraphicsUnmapResources(1, &cudaResource, 0));
}

有人知道这可能是什么原因吗?我是否在缓冲区和数组的大小上犯了错误?

1 回复 | 直到 1 年前

Dmitry Negoda 1 年前

在CUDA中,不支持3字节图像像素。尝试

size_t size = width * height * 4 * sizeof(unsigned char);

这是文档摘录:

推荐文章

AstralHex · 矩阵乘法代码工作不正常

9 月前

Baba Dan Constantin · SSE4.1在矩阵4x4乘法上比SSE3慢?

9 月前

Giogre · 为包含许多数值字段的简单“struct”重载比较运算符

9 月前

einpoklum · 定义一个并不真正提供now()函数的std::chrono Clock是“合法的”吗?

9 月前

Fishie · 作为类成员的智能指针是否仍然自动释放?[关闭]

9 月前

Die4Toast · 递归调用成员箭头运算符->

9 月前

Angle.Bracket · 如何用C++将UTF-8文件名写入MS Windows控制台?

9 月前

Anka HanÄ±m · 关于结构和动态数组地址的问题

9 月前

Adam Barnes · 我如何定义一个基于constexpr函数返回值进行限制的概念?

9 月前

user2138149 · 为什么我不能获取包含多个元素的结构体中某些元素的地址?[副本]

9 月前