AIGC与智能体开发实战:基于开源大模型+Serverless API
定 价:79 元
- 作者:韩泽耀 孙国梁 张寅
- 出版时间:2025/11/1
- ISBN:9787115685254
- 出 版 社:人民邮电出版社
- 中图法分类:TP18
- 页码:244
- 纸张:
- 版次:01
- 开本:小16开
本书聚焦 AIGC 与智能体编程开发实战,围绕开源大模型与API调用展开。本书分为10章,从基础理论到实际开发,全面讲解基于开源大模型与Serverless API的智能应用开发。第1~3章介绍Serverless API、大模型应用架构和开发环境搭建;第 4~6 章以流行的开源模型(如DeepSeek、Stable Diffusion、Whisper 等)为基础,逐步指导读者掌握文本生成、图像生成、语音处理的 API 开发技能;第 7、8 章深入多模态应用开发,如视频生成与跨模态交互;第9、10 章讲述 AI Agent、检索增强生成(RAG)与微调技术的高阶实践,以及企业案例与未来趋势。
本书以实战为核心,案例丰富、通俗易懂,适合对 AIGC 与智能体编程开发感兴趣,具备基础编程知识的开发者、创业者以及技术爱好者快速上手并应用于实际工作或教学中。
1.首创性与系统性:首次系统化讲解“开源大模型+AIGC+Serverless API”的开发实战,这在市场上具有独特性,能够满足读者对这一新兴结合领域系统知识的需求。
2.实用性强:理论与实践紧密结合,案例真实、代码详尽,以实战为核心,读者可以快速上手并将所学应用于实际工作或教学中,对于提升读者的实操能力具有很强的帮助。
3.受众广泛:适合多层次读者,从初学者到资深开发者均可快速掌握,无论是人工智能开发者、软件工程师、高校师生,还是企业技术人员、AI技术初学者等,都能从书中获得相应的知识和技能。
4.市场优势显著:填补了市场上关于AIGC应用开发实战专著的空白,具有较强的市场竞争优势,能够在竞争激烈的市场中脱颖而出。
5.配套资源丰富:提供视频、配套PPT、代码及开发环境配置指南,为读者的学习提供了便利和支持,增强了读者的学习体验。
韩泽耀
浙江大学信息与电子工程学系微电子系统设计专业博士,《AIGC从入门到实战》作者。曾在硕博连读期间入选清华大学计算机系EDA课题组、中国科学院高速高性能FX型处理机课题组。曾就职于华为技术有限公司、上海交通大学、阿尔卡特朗讯、贝尔实验室等。在无线通信系统、信号处理、算法设计与实现等领域拥有二十余年产业化研发经验,同时具备人工智能教育方向的一线创业与产品化实践经历。目前致力于算法应用创新与AI编程开发,重点推进AI Infra x AIGC/Al Agent的工程化实践与应用生态协同发展。
孙国梁
沐曦集成电路(上海)股份有限公司首席产品官、高级副总裁,清华大学车辆及运载学院机械工程博士。人工智能、芯片设计、电子系统及智算中心建设专家,拥有数十项个人发明专利与二十年系统及芯片开发经验。具备大型算力芯片、GPU算力集群、人工智能项目及电子系统设计的深厚技术积累,以及丰富国内外市场运作经验,曾主导多项国内外大型标杆性项目并取得圆满成功。
张寅
浙江大学计算机科学与技术学院教授,博士生导师。主要从事数据智能、多智能体、AIGC技术与系统领域的研究。
第 1章
快速入门 AIGC 与 Serverless API 开发 / 1
1.1 AIGC 演进与开源大模型生态 / 2
1.1.1 AIGC:智能时代的内容生产革命 / 2
1.1.2 AIGC 的发展历程 / 3
1.1.3 AIGC/UGC/PGC 三类常见内容生成对比分析 / 3
1.1.4 主流 AIGC 技术类别与典型大模型简介 / 4
1.1.5 部署开源大模型及输出 API 对开发者的意义 / 7
1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10
1.2.1 Serverless 的定义与特征剖析 / 10
1.2.2 Serverless API 与传统架构的对比分析 / 11
1.2.3 OpenAI 兼容 API 的定义与核心要素 / 13
1.2.4 OpenAI 兼容 API 的典型落地路径 / 13
1.3 开源大模型与 Serverless API 架构融合的实际意义 / 14
1.3.1 Serverless API 架构解决开源大模型部署难题 / 15
1.3.2 开源生态与 Serverless API 的协同效应 / 15
1.3.3 国内外主流开源大模型 Token/API 服务平台 / 16
1.4 基于 API 调用开发在大模型编程开发中的层级 / 17
1.4.1 大模型应用开发的层次架构 / 17
1.4.2 API 层级调用架构在应用开发场景中的对比图示 / 19
1.4.3 API 调用开发的平台和入口 / 20
1.5 本章小结 / 22
第 2 章
快速理解 AIGC 与 API 开发的基础技术栈 / 23
2.1 快速入门 HTTP 协议中的 RESTful API / 24
2.1.1 RESTful API 和 CRUD(增删改查)的对应关系 / 24
2.1.2 HTTP requests 库和兼容 OpenAI SDK 调用方式对比 / 26
2.2 标准化的 API 调用流程以及简单错误快速处理 / 28
2.2.1 API 调用的基础规范与流程 / 28
2.2.2 API 调用简单代码示例 / 29
2.2.3 常见 API 错误与快速排错技巧 / 29
2.3 常见 AIGC API 的调用参数讲解 / 32
2.3.1 API 调用请求常用参数快速解析 / 32
2.3.2 常见 API 响应数据基础字段介绍 / 35
2.4 AI 辅助开发工具与平台快速认知 / 36
2.4.1 AI 辅助开发工具和平台的作用 / 36
2.4.2 AI 辅助编码类工具 / 37
2.4.3 AI 辅助平台类工具 / 38
2.5 本章小结 / 38
第 3 章
初步设置和使用 API 之实战入门 / 40
3.1 注册与登录以及如何获得 API Key / 41
3.1.1 Gitee AI 平台介绍 / 41
3.1.2 注册 Gitee AI 账号 / 42
3.1.3 创建 API 密钥 / 43
3.1.4 使用 API 密钥获取 Token / 44
3.2 开始使用 Serverless API / 45
3.2.1 选择模型和创建访问令牌 / 46
3.2.2 测试模型 API / 48
3.2.3 查看 API 文档和示例代码 / 50
3.2.4 cURL 命令行工具的常见用法举例 / 51
3.3 常见问题与解决方案 / 53
3.3.1 账号和访问问题 / 53
3.3.2 算力券和资源包问题 / 54
3.4 本章小结 / 54
第 4 章
基于 Serverless API 实现大模型编程初步 / 56
4.1 目标:调用模型接口,得到返回的交互结果 / 57
4.2 步骤:配置环境、安装库与获取 API Key / 57
4.2.1 创建项目并安装依赖 / 58
4.2.2 获取 Gitee Serverless API 的 API Key / 58
4.2.3 API Key 的 3 种管理方式 / 58
4.3 过程:核心代码(包括错误示例)详解 / 59
4.4 成功:正确示例及代码演示 / 60
4.5 改进:生成中文响应结果 / 65
4.6 精进:简练中文回馈内容 / 66
4.7 本章小结 / 66
第 5 章
多种模态 API 原子能力初级实战 / 68
5.1 开发环境配置与依赖库安装 / 69
5.1.1 Python 环境配置 / 70
5.1.2 安装必要的依赖库 / 71
5.1.3 配置 API 访问凭证 / 73
5.2 实现 Instruct 与 Chat 的文本生成 Hello World / 75
5.2.1 Instruct 模型与 Chat 模型的区别 / 75
5.2.2 使用 Instruct 模型生成 Hello World / 76
5.2.3 使用 Chat 模型生成 Hello World / 79
5.2.4 Instruct 与 Chat 模型的选择建议 / 81
5.3 实现 Stable Diffusion 的文生图 Hello World / 82
5.3.1 Gitee AI 平台的 Stable Diffusion 模型简介 / 82
5.3.2 配置 Stable Diffusion API / 83
5.3.3 使用 Stable Diffusion 生成第 一张图像 / 83
5.3.4 调整生成参数提升图像质量 / 86
5.4 实现 Whisper 的语音识别 Hello World / 87
5.4.1 Gitee AI 平台的 Whisper 模型简介 / 87
5.4.2 配置语音识别 API / 87
5.4.3 使用 Gitee AI 平台的 Whisper API 进行语音识别 / 87
5.4.4 使用本地音频文件进行语音识别 / 90
5.4.5 实时语音识别 / 92
5.5 本章小结 / 95
第 6 章
多种模态 API 调用及编排进阶实战 / 96
6.1 实现 DeepSeek+Stable Diffusion 的图像生成优化 / 97
6.1.1 DeepSeek 模型优化机制 / 97
6.1.2 API 编排实现协同 AIGC 图像生成 / 99
6.1.3 参数优化与问题排查 / 103
6.2 实现 Wan2.1-T2V 的文生视频 / 104
6.2.1 视频生成模型简介 / 104
6.2.2 使用 Wan2.1-T2V 生成视频 / 105
6.2.3 视频生成参数调优 / 111
6.3 实现 Hunyuan3D-2 的图生 3D / 111
6.3.1 Hunyuan 3D 生成模型简介 / 111
6.3.2 使用 Hunyuan3D-2 生成 3D 模型 / 111
6.3.3 使用 Open3D 查看和处理 3D 模型 / 116
6.4 API 调用常见错误与调试进阶 / 118
6.4.1 常见错误类型 / 119
6.4.2 API 调用调试技巧 / 119
6.4.3 实现请求重试和错误处理 / 120
6.4.4 API 调用性能优化 / 123
6.5 本章小结 / 124
第 7 章
辅助生成代码、打造多种形态及践行 Vibe Coding / 126
7.1 主流开源代码辅助生成大模型 / 127
7.1.1 回顾开源大语言模型的发展与意义 / 127
7.1.2 DeepSeek-V3/R1 模型回顾 / 128
7.1.3 CodeGeeX 模型详解 / 128
7.1.4 新一代开源 Coder 与数学 / 证明模型的发展 / 129
7.1.5 模型性能对比与选择建议 / 130
7.2 用文本 / 代码生成大模型 API 构建不同生成形态的工具 / 132
7.2.1 文本 / 代码生成工具的基本架构 / 132
7.2.2 智能对话工具的实现(命令行) / 132
7.2.3 文本摘要工具的实现(Web 网页端) / 134
7.2.4 文本续写工具的实现(API) / 136
7.3 AI 代码辅助工具实战 / 140
7.3.1 AI 代码辅助工具概述 / 140
7.3.2 GitHub Copilot 使用实战 / 141
7.3.3 Cline AI 代码助手使用实战 / 143
7.3.4 Trae AI 代码助手使用实战 / 144
7.3.5 Cursor 编译器使用实战 / 145
7.3.6 通义灵码代码助手使用实战 / 146
7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置与实践 / 148
7.4.1 VSCode 中 AI 编程助手的选择 / 148
7.4.2 VSCode 中配置 Cline 第三方 API 的详细步骤 / 148
7.4.3 实用 VSCode 扩展组合推荐 / 150
7.4.4 常见问题与解决方案 / 150
7.5 如何提升 AI 代码生成的质量 / 151
7.5.1 面向代码生成的提示词工程技巧 / 151
7.5.2 行业案例分析 / 153
7.6 本章小结 / 154
第 8 章
图像生成与视觉识别 API 开发进阶实战 / 156
8.1 图像生成、图像识别、图像理解、图像处理技术简介 / 157
8.1.1 图像生成技术简介 / 157
8.1.2 图像识别技术简介 / 158
8.1.3 图像描述 / 理解和视觉问答技术简介 / 159
8.1.4 图像增强及图像超分技术简介 / 159
8.2 基于 Gitee 平台的 Serverless-API 实现图片生成及风格迁移 / 160
8.2.1 Serverless 架构在图像处理中的应用 / 161
8.2.2 基于 Gitee 平台 Stable Diffusion 的图像生成 API 实现 / 161
8.2.3 Kolors 中文图像生成 API 实现 / 166
8.2.4 基于 Kolors 的图像风格迁移 API 实现 / 169
8.3 通过图像识别和图像理解技术构建应用 / 173
8.3.1 InternVL 图像理解 / 173
8.3.2 3 个 AI 1.0 时代的图像识别开源项目 / 174
8.4 Real-ESRGAN 图像超分模型与传统 PIL 构建应用 / 177
8.4.1 两者在实现和解决问题上的差别和关系 / 177
8.4.2 用 Real-ESRGAN 大模型实现超分的应用 / 179
8.4.3 传统基于 PIL 实现的图像处理开源项目 / 180
8.5 本章小结 / 184
第 9 章
音频处理与视频生成 API 进阶开发实战 / 186
9.1 音频识别模型和语音合成模型解析 / 187
9.1.1 音频识别技术的发展与原理 / 187
9.1.2 Whisper 语音识别模型解析 / 187
9.1.3 Fish Speech 语音合成模型解析 / 188
9.1.4 ChatTTS 语音合成模型解析 / 188
9.1.5 语音识别、语音合成模型对比与选择建议 / 189
9.2 Serverless API 实现音频识别与语音合成 / 190
9.2.1 Serverless 架构在音频处理中的应用 / 190
9.2.2 基于 Whisper 的音频识别 API 实现 / 191
9.2.3 基于 ChatTTS、Fish Speech 的语音合成 API 实现 / 196
9.3 视频生成模型解析与 API 实现 / 200
9.3.1 视频生成技术的发展与原理 / 200
9.3.2 Wan2.1-T2V 模型解释 / 200
9.3.3 基于 Wan2.1-T2V 的视频生成 API 实现 / 200
9.4 音视频 API 的实际应用案例 / 204
9.4.1 基于录音 +Whisper+GUI 实现实时会议转录系统 / 204
9.4.2 基于 Whisper+ChatTTS/Fish Speech 实现多语言配音系统 / 209
9.4.3 基于 Wan2.1-T2V 实现节日祝福语视频生成器 / 213
9.5 本章小结 / 217
第 10 章
跨模态开发与应用集成实战 / 219
10.1 多模态大模型概述 / 220
10.1.1 多模态大模型定义和特点 / 220
10.1.2 多模态大模型的主要架构 / 220
10.1.3 主流多模态大模型对比 / 222
10.2 跨模态数据处理与融合技术 / 223
10.2.1 跨模态数据处理的关键技术 / 223
10.2.2 Python 实现跨模态数据处理与融合 / 225
10.3 基于跨模态大模型的应用开发 / 228
10.3.1 跨模态应用场景分析 / 228
10.3.2 多模态 RAG 系统 / 229
10.3.3 应用开发实战案例 / 230
10.4 多模态大模型应用的挑战与展望 / 235
10.4.1 当前面临的挑战 / 236
10.4.2 未来发展趋势 / 236
10.4.3 实践建议 / 237
10.5 本章小结 / 237
附录 A
“兴智杯”全国人工智能创新应用大赛参赛报名及算力获取 / 238
A1 获取和兑换“兴智杯”大赛算力券 / 239
A1.1 “兴智杯”大赛简介 / 239
A1.2 算力券的获取方式 / 239
A1.3 算力券的兑换流程 / 239
A2 “兴智杯”大赛使用算力券购买 Serverless API / 241
A2.1 沐曦模型资源包介绍 / 241
A2.2 购买沐曦模型资源包的详细步骤 / 242
A2.3 查看购买记录和资源使用情况 / 244