留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于嵌入式CPU+GPU异构平台的遥感图像滤波加速

谭鹏源 薛长斌 周莉

谭鹏源, 薛长斌, 周莉. 基于嵌入式CPU+GPU异构平台的遥感图像滤波加速[J]. 空间科学学报, 2024, 44(1): 95-102. doi: 10.11728/cjss2024.01.2023-0033
引用本文: 谭鹏源, 薛长斌, 周莉. 基于嵌入式CPU+GPU异构平台的遥感图像滤波加速[J]. 空间科学学报, 2024, 44(1): 95-102. doi: 10.11728/cjss2024.01.2023-0033
TAN Pengyuan, XUE Changbin, ZHOU Li. Acceleration of Remote Sensing Image Filtering Based on Embedded CPU+GPU Heterogeneous Platform (in Chinese). Chinese Journal of Space Science, 2024, 44(1): 95-102 doi: 10.11728/cjss2024.01.2023-0033
Citation: TAN Pengyuan, XUE Changbin, ZHOU Li. Acceleration of Remote Sensing Image Filtering Based on Embedded CPU+GPU Heterogeneous Platform (in Chinese). Chinese Journal of Space Science, 2024, 44(1): 95-102 doi: 10.11728/cjss2024.01.2023-0033

基于嵌入式CPU+GPU异构平台的遥感图像滤波加速

doi: 10.11728/cjss2024.01.2023-0033 cstr: 32142.14.cjss2024.01.2023-0033
基金项目: 中国科学院国防科技重点实验室基金项目资助(CXJJ-20S017)
详细信息
    作者简介:
    • 谭鹏源:男, 1996年9月出生于广西壮族自治区钦州市. 现为中国科学院国家空间科学中心硕士研究生, 主要研究方向为遥感图像并行处理. E-mail: tanpengyuan19@mails.ucas.ac.cn
    通讯作者:
    • 男, 1972年5月出生于辽宁省锦州市. 现为中国科学院国家空间科学中心研究员, 博士生导师, 主要研究方向为空间在轨精密过程控制技术、星上数据管理技术及航天系统工程等. E-mail: xuechangbin@nssc.ac.cn
  • 中图分类号: V19, TP391

Acceleration of Remote Sensing Image Filtering Based on Embedded CPU+GPU Heterogeneous Platform

  • 摘要: 针对遥感图像在轨实时处理提出一种基于嵌入式CPU + GPU异构平台的遥感图像滤波加速设计方法. 以加速拉普拉斯滤波为例, 利用GPU的并行计算特点, 通过数据划分及数据映射的方法对算法进行并行设计; 利用GPU的向量单元和缓存等硬件资源, 通过采取向量化和向量重组以及工作组调优方法进一步提高了算法的运行速度. 在嵌入式开发板上验证了加速设计的可行性和高效性. 实验结果表明, 相比于单CPU的串行实现, 在增加GPU并行处理后的拉普拉斯滤波获得了4.08~16.92倍的加速比. 进一步利用GPU硬件资源优化性能后, 加速比可达15.38~56.41倍.

     

  • 图  1  Mali GPU Midgard架构

    Figure  1.  Mali GPU Midgard architecture

    图  2  二维索引空间

    Figure  2.  Two-dimensional NDRange

    图  3  两种常见的拉普拉斯模板

    Figure  3.  Two common types of Laplacian templates

    图  4  拉普拉斯模板滑动卷积

    Figure  4.  Laplacian template sliding convolution

    图  5  拉普拉斯滤波内核向量化示例

    Figure  5.  Example of vectoring the Laplacian filtering kernel

    图  6  向量加载冗余

    Figure  6.  Redundancy in vector loading

    图  7  相邻行目标向量的计算存在重复使用的数据

    Figure  7.  Calculation of two target vectors in adjacent rows involves duplicated data

    图  8  不同工作组大小下最坏形状(深色条纹)和最优形状(浅色条纹)对应的内核执行时间

    Figure  8.  Kernel execution times corresponding to worst (dark stripes) and optimal (light stripes) shapesfor different workgroup sizes

    图  9  拉普拉斯滤波GPU版本相对于CPU版本的加速比

    Figure  9.  Speedup of the Laplacian filtering GPU version relative to its CPU counterpart

    图  10  不同优化方法在GPU上获得的性能

    Figure  10.  Performance obtained on the GPU through various optimization methods

    图  11  图像滤波加速比

    Figure  11.  Speedup of image filtering

  • [1] 韦玉春, 汤国安, 杨昕, 等. 遥感数字图像处理教程[M]. 北京: 科学出版社, 2007: 174-184

    WEI Yuchun, TANG Guoan, YANG Xin, et al. Remote Sensing Digital Image Processing Course[M]. Beijing: Science Press, 2007: 174-184
    [2] KOSMIDIS L, RODRIGUEZ I, JOVER-ALVAREZ A, et al. GPU4S: Major project outcomes, lessons learnt and way forward[C]//2021 Design, Automation & Test in Europe Conference & Exhibition (DATE). Grenoble, France: IEEE, 2021: 1314-1319
    [3] XIAO H, GUO B Y, ZHANG H Y, et al. A parallel algorithm of image mean filtering based on OpenCL[J]. IEEE Access, 2021, 9: 65001-65016 doi: 10.1109/ACCESS.2021.3068772
    [4] XIAO H, XIAO S Y, MA G, et al. Image Sobel edge extraction algorithm accelerated by OpenCL[J]. The Journal of Supercomputing, 2022, 78(14): 16236-16265 doi: 10.1007/s11227-022-04404-8
    [5] PANG Y L, JIANG S, CHENG B W, et al. Design and implement of median filter toward remote sensing images based on FPGA[C]//2021 IEEE 14th International Conference on ASIC (ASICON). Kunming, China: IEEE, 2021: 1-4
    [6] HARRIS P. The Mali GPU: An Abstract Machine, Part 3-The Midgard Shader Core[OL]. (2014-03-12)[2023-02-10]. https://community.arm.com/arm-community-blogs/b/graphics-gaming-and-vr-blog/posts/the-mali-gpu-an-abstract-machine-part-3--the-midgard-shader-core
    [7] Khronos OpenCL Working Group. The OpenCL Specification V1.2[EB/OL]. (2011-11-14)[2013-02-10]. https://registry.khronos.org/OpenCL/specs/opencl-1.2.pdf
    [8] 周浔. 工业射线图像增强算法的研究[D]. 广州: 华南理工大学, 2020

    ZHOU Xun. Research on Industrial Ray Image Enhancement Algorithm[D]. Guangzhou: South China University of Technology, 2020
    [9] SEO S, LEE J, JO G, et al. Automatic OpenCL work-group size selection for multicore CPUs[C]//Proceedings of the 22nd International Conference on Parallel Architectures and Compilation Techniques. Edinburgh, UK: IEEE, 2013: 387-397
    [10] USAMENTIAGA R. Real-time filtering on parallel SIMD architectures for automated quality inspection[J]. Journal of Real-Time Image Processing, 2021, 18(1): 127-141 doi: 10.1007/s11554-020-00954-3
    [11] LI K, YUAN L, ZHANG Y Q, et al. Reducing redundancy in data organization and arithmetic calculation for stencil computations[C]//Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. St. Louis, Missouri: ACM, 2021: 84
    [12] 董钰山. 面向SMP的模板计算访存优化研究[D]. 长沙: 国防科学技术大学, 2015

    DONG Yushan. Optimizations of Memory-access for Stencil Computations on Shared-memory Multi-core Processor[D]. Changsha: National University of Defense Technology, 2015
    [13] JIANG S Q, RAN L H, CAO T, et al. Profiling and optimizing deep learning inference on mobile GPUs[C]//Proceedings of the 11th ACM SIGOPS Asia-Pacific Workshop on Systems. Tsukuba, Japan: ACM, 2020: 75-81
  • 加载中
图(11)
计量
  • 文章访问数:  497
  • HTML全文浏览量:  164
  • PDF下载量:  79
  • 被引次数: 

    0(来源:Crossref)

    0(来源:其他)

出版历程
  • 收稿日期:  2023-03-02
  • 修回日期:  2023-04-26
  • 网络出版日期:  2023-07-27

目录

    /

    返回文章
    返回