深度神经网络加速:cuDNN 与 TensorRT
知识小课

深度神经网络加速:cuDNN 与 TensorRT

  • 深度学习

内容精简:主讲CUDA核心并行运算操作; 知识前沿:涵盖当下主流的深度学习模型加速工具;氛围活跃:与数百位同学交流学习

¥599.9
本课程包括
  • 10小时24分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
课程合作品牌
深蓝学院
你将收获
  • 掌握CUDA并行计算系统的分析、开发、调试与优化方法
  • 熟悉CUDA的基本概念以及主流的并行运算
  • 了解cuDNN与TensorRT两个深度学习模型加速的主流工具
  • 具备动手实践深度学习模型的加速的能力

数千家企业正在使用三节课企业版学习

无限制学习5000+门课程,200+精选学习专题

免费申请体验>
课程介绍

深度学习算法商业化落地时都需要进行加速,尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA,cuDNN以及TensorRT的官方文档,但对于入门者并不友好,学习效率比较低。因此,我们制作了这门课程,希望大家通过这门课程的学习,能够具备CUDA编程操作能力,使用cuDNN、TensorRT这两个当下热门的深度神经网络加速工具。

适合人群
  • 人工智能领域的算法或者开发工程师,尤其是工作涉及深度学习的模型
  • 希望学习并行计算系统的科研工作者以及工程师
讲师介绍
专注人工智能与自动驾驶的学习平台
擅长领域:
  • 人工智能认知与应用
  • 深度学习
  • 机器学习
  • 计算机视觉
  • 自然语言处理(NLP)
1. 学院在2017年6月孵化于中国科学院自动化研究所,是国内领先的人工智能与机器人教育平台。目前70%师资力量来自企业一线的资深工程师,主要师资来自中国、新加坡、美国、德国等国家。 2. 学院始终致力于优质教研体系的探索、高质量课程体系的研发。以国际顶级院校的课程质量为标准,结合国内企业实际需求,学院在人工智能、机器人、自动驾驶等领域陆续推出了40余门高品质的课程。这使得学院在课程研发方面始终保持“人无我有、同课我优”的领先优势。 3. 学院重视服务体系建设,为学生建立了一个高度依赖性的交互式学习社群。此项服务体系确保学生在学习过程中得到全方位的支持与帮助,使得用户在学习过程中获得最佳的学习体验和成果。
高级研究员
擅长领域:
  • 自然语言处理(NLP)
腾讯高级研究员
擅长领域:
  • 深度学习
课程大纲
共0节 时长0分钟 全部收起
第1章 CUDA C编程 及GPU基本知识
共7节 | 58分钟
  • 第1节 学习认识GPU以及如何使用CUDA
    9分钟
  • 第2节 GPU编程
    3分钟
  • 第3节 GPU编程与CUDA
    1分钟
  • 第4节 CUDA编程并行计算整体流程
    5分钟
  • 第5节 线程块:可扩展的集合体
    4分钟
  • 第6节 线程块id&线程id
    8分钟
  • 第7节 并行计算实例:向量相加
    27分钟
第2章 CUDA C编程:矩阵乘法
共5节 | 1小时10分钟
  • 第1节 为什么矩阵乘法适合GPU实现
    10分钟
  • 第2节 sec2 矩阵乘法GPU基础实现
    9分钟
  • 第3节 矩阵乘法GPU进阶实现
    40分钟
  • 第4节 实践
    9分钟
  • 第5节 作业
    2分钟
第3章 CUDA C编程:CUDA Stream and Envet
共6节 | 53分钟
  • 第1节 sec1 CUDA Stream介绍
    18分钟
  • 第2节 CUDA Stream为什么有效
    11分钟
  • 第3节 CUDA Stream默认流的表现
    6分钟
  • 第4节 CUDA Event
    3分钟
  • 第5节 CUDA 同步操作
    7分钟
  • 第6节 NVVP
    7分钟
第4章 CUDA C编程:卷积实现与cudnn、cublas
共4节 | 1小时26分钟
  • 课程回顾
    8分钟
  • 第1节 cuBLAS
    38分钟
  • 第2节 cuDNN
    28分钟
  • 第3节 实践卷积神经网络
    12分钟
第5章 TensorRT介绍
共6节 | 58分钟
  • 第1节 TensorRT是什么
    8分钟
  • 第2节 TensorRT优化策略
    7分钟
  • 第3节 TensorRT组成与基本使用流程
    13分钟
  • 第4节 TensorRT Demo
    9分钟
  • 第5节 编译TRT git源码sampleMNIST
    9分钟
  • 第6节 TensorRT进阶
    12分钟
第6章 TensorRT plugin用法
共5节 | 1小时4分钟
  • 第1节 TensorRT Plugin介绍
    7分钟
  • 第2节 Static Shape Plugin
    35分钟
  • 第3节 Dynamic Shape Plugin
    11分钟
  • 第4节 PluginCreator注册
    5分钟
  • 第5节 sec5 Debug Plugin
    7分钟
第7章 TensorRT INT8量化加速
共3节 | 1小时8分钟
  • 第1节 TensorRT FP16优化
    5分钟
  • 第2节 TensorRT INT8量化算法
    50分钟
  • 第3节 TensorRT大规模上线
    13分钟
第8章 TensorRT 转换 ONNX 模型
共8节 | 1小时40分钟
  • 第1节 如何白嫖GPU服务器
    9分钟
  • 第2节 ONNX 介绍
    15分钟
  • 第3节 背景知识
    10分钟
  • 第4节 TRT转换模型的主要痛点
    6分钟
  • 第5节 onnx-parser & onnx-graphsurgen
    12分钟
  • 第6节 实践上:Transformer模型优化 解决不支持的算子
    24分钟
  • 第7节 实践下:Transformer模型优化 合并LayerNorm算子
    11分钟
  • 第8节 polygraphy
    13分钟
第9章 模型推理经验
共5节 | 1小时5分钟
  • 第1节 转换方式比较
    15分钟
  • 第2节 TRT如何测试并调优
    8分钟
  • 第3节 CUDA与TRT的调试建议
    14分钟
  • 第4节 CUDA与TRT的调试建议并行思维锻炼
    11分钟
  • 第5节 模型可以加速到什么程度
    18分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。