大模型训练与推理加速实战：基于CUDA计算平台（Python版）_温浩_9787121505430

本书深入探讨深度学习模型训练和推理加速的前沿技术，尤其是在 NVIDIA CUDA（Compute Unified Device Architecture）平台上的应用与优化。本书从大模型训练的挑战和分布式训练，到 CUDA 加速推理技术，再到端侧推理的优化部署，系统地介绍如何利用 CUDA 平台加速大模型的训练与推理过程，并结合具体案例深入讲解数据并行、模型并行、任务调度、负载均衡等技术。本书共 10 章，首先介绍大模型训练面临的计算复杂性、内存带宽和数据传输瓶颈等问题，并讲解基于NCCL（NVIDIA Collective Communications Library）的优化方法；然后，通过深入浅出的讲解，展示如何使用 TensorRT 进行推理加速，并探讨多模型并行推理架构、混合精度训练与推理等优化策略；最后，详细阐述端侧推理加速，特别是在移动设备和边缘设备中的应用，强调模型量化、裁剪等技术在推理加速中的重要作用。

你还可能感兴趣

大模型训练与推理加速实战：基于CUDA计算平台（Python版）

我要评论