AIGC与智能体开发实战：基于开源大模型+Serverless API_韩泽耀孙国梁张寅_9787115685254

本书聚焦 AIGC 与智能体编程开发实战，围绕开源大模型与API调用展开。本书分为10章，从基础理论到实际开发，全面讲解基于开源大模型与Serverless API的智能应用开发。第1~3章介绍Serverless API、大模型应用架构和开发环境搭建；第 4~6 章以流行的开源模型（如DeepSeek、Stable Diffusion、Whisper 等）为基础，逐步指导读者掌握文本生成、图像生成、语音处理的 API 开发技能；第 7、8 章深入多模态应用开发，如视频生成与跨模态交互；第9、10 章讲述 AI Agent、检索增强生成（RAG）与微调技术的高阶实践，以及企业案例与未来趋势。本书以实战为核心，案例丰富、通俗易懂，适合对 AIGC 与智能体编程开发感兴趣，具备基础编程知识的开发者、创业者以及技术爱好者快速上手并应用于实际工作或教学中。

第 1章快速入门 AIGC 与 Serverless API 开发 / 1 1.1 AIGC 演进与开源大模型生态 / 2 1.1.1 AIGC：智能时代的内容生产革命 / 2 1.1.2 AIGC 的发展历程 / 3 1.1.3 AIGC/UGC/PGC 三类常见内容生成对比分析 / 3 1.1.4　主流 AIGC 技术类别与典型大模型简介 / 4 1.1.5　部署开源大模型及输出 API 对开发者的意义 / 7 1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10 1.2.1 Serverless 的定义与特征剖析 / 10 1.2.2 Serverless API 与传统架构的对比分析 / 11 1.2.3 OpenAI 兼容 API 的定义与核心要素 / 13 1.2.4 OpenAI 兼容 API 的典型落地路径 / 13 1.3 开源大模型与 Serverless API 架构融合的实际意义 / 14 1.3.1 Serverless API 架构解决开源大模型部署难题 / 15 1.3.2　开源生态与 Serverless API 的协同效应 / 15 1.3.3　国内外主流开源大模型 Token/API 服务平台 / 16 1.4 基于 API 调用开发在大模型编程开发中的层级 / 17 1.4.1　大模型应用开发的层次架构 / 17 1.4.2 API 层级调用架构在应用开发场景中的对比图示 / 19 1.4.3 API 调用开发的平台和入口 / 20 1.5 本章小结 / 22 第 2 章快速理解 AIGC 与 API 开发的基础技术栈 / 23 2.1 快速入门 HTTP 协议中的 RESTful API / 24 2.1.1 RESTful API 和 CRUD（增删改查）的对应关系 / 24 2.1.2 HTTP requests 库和兼容 OpenAI SDK 调用方式对比 / 26 2.2 标准化的 API 调用流程以及简单错误快速处理 / 28 2.2.1 API 调用的基础规范与流程 / 28 2.2.2 API 调用简单代码示例 / 29 2.2.3　常见 API 错误与快速排错技巧 / 29 2.3 常见 AIGC API 的调用参数讲解 / 32 2.3.1 API 调用请求常用参数快速解析 / 32 2.3.2　常见 API 响应数据基础字段介绍 / 35 2.4 AI 辅助开发工具与平台快速认知 / 36 2.4.1 AI 辅助开发工具和平台的作用 / 36 2.4.2 AI 辅助编码类工具 / 37 2.4.3 AI 辅助平台类工具 / 38 2.5 本章小结 / 38 第 3 章初步设置和使用 API 之实战入门 / 40 3.1 注册与登录以及如何获得 API Key / 41 3.1.1 Gitee AI 平台介绍 / 41 3.1.2　注册 Gitee AI 账号 / 42 3.1.3　创建 API 密钥 / 43 3.1.4　使用 API 密钥获取 Token / 44 3.2 开始使用 Serverless API / 45 3.2.1　选择模型和创建访问令牌 / 46 3.2.2　测试模型 API / 48 3.2.3　查看 API 文档和示例代码 / 50 3.2.4 cURL 命令行工具的常见用法举例 / 51 3.3 常见问题与解决方案 / 53 3.3.1　账号和访问问题 / 53 3.3.2　算力券和资源包问题 / 54 3.4 本章小结 / 54 第 4 章基于 Serverless API 实现大模型编程初步 / 56 4.1 目标：调用模型接口，得到返回的交互结果 / 57 4.2 步骤：配置环境、安装库与获取 API Key / 57 4.2.1　创建项目并安装依赖 / 58 4.2.2　获取 Gitee Serverless API 的 API Key / 58 4.2.3 API Key 的 3 种管理方式 / 58 4.3 过程：核心代码（包括错误示例）详解 / 59 4.4 成功：正确示例及代码演示 / 60 4.5 改进：生成中文响应结果 / 65 4.6 精进：简练中文回馈内容 / 66 4.7 本章小结 / 66 第 5 章多种模态 API 原子能力初级实战 / 68 5.1 开发环境配置与依赖库安装 / 69 5.1.1 Python 环境配置 / 70 5.1.2　安装必要的依赖库 / 71 5.1.3　配置 API 访问凭证 / 73 5.2 实现 Instruct 与 Chat 的文本生成 Hello World / 75 5.2.1 Instruct 模型与 Chat 模型的区别 / 75 5.2.2　使用 Instruct 模型生成 Hello World / 76 5.2.3　使用 Chat 模型生成 Hello World / 79 5.2.4 Instruct 与 Chat 模型的选择建议 / 81 5.3 实现 Stable Diffusion 的文生图 Hello World / 82 5.3.1 Gitee AI 平台的 Stable Diffusion 模型简介 / 82 5.3.2　配置 Stable Diffusion API / 83 5.3.3　使用 Stable Diffusion 生成第一张图像 / 83 5.3.4　调整生成参数提升图像质量 / 86 5.4 实现 Whisper 的语音识别 Hello World / 87 5.4.1 Gitee AI 平台的 Whisper 模型简介 / 87 5.4.2　配置语音识别 API / 87 5.4.3　使用 Gitee AI 平台的 Whisper API 进行语音识别 / 87 5.4.4　使用本地音频文件进行语音识别 / 90 5.4.5　实时语音识别 / 92 5.5 本章小结 / 95 第 6 章多种模态 API 调用及编排进阶实战 / 96 6.1 实现 DeepSeek+Stable Diffusion 的图像生成优化 / 97 6.1.1 DeepSeek 模型优化机制 / 97 6.1.2 API 编排实现协同 AIGC 图像生成 / 99 6.1.3　参数优化与问题排查 / 103 6.2 实现 Wan2.1-T2V 的文生视频 / 104 6.2.1　视频生成模型简介 / 104 6.2.2　使用 Wan2.1-T2V 生成视频 / 105 6.2.3　视频生成参数调优 / 111 6.3 实现 Hunyuan3D-2 的图生 3D / 111 6.3.1 Hunyuan 3D 生成模型简介 / 111 6.3.2　使用 Hunyuan3D-2 生成 3D 模型 / 111 6.3.3　使用 Open3D 查看和处理 3D 模型 / 116 6.4 API 调用常见错误与调试进阶 / 118 6.4.1　常见错误类型 / 119 6.4.2 API 调用调试技巧 / 119 6.4.3　实现请求重试和错误处理 / 120 6.4.4 API 调用性能优化 / 123 6.5 本章小结 / 124 第 7 章辅助生成代码、打造多种形态及践行 Vibe Coding / 126 7.1 主流开源代码辅助生成大模型 / 127 7.1.1　回顾开源大语言模型的发展与意义 / 127 7.1.2 DeepSeek-V3/R1 模型回顾 / 128 7.1.3 CodeGeeX 模型详解 / 128 7.1.4　新一代开源 Coder 与数学 / 证明模型的发展 / 129 7.1.5　模型性能对比与选择建议 / 130 7.2 用文本 / 代码生成大模型 API 构建不同生成形态的工具 / 132 7.2.1　文本 / 代码生成工具的基本架构 / 132 7.2.2　智能对话工具的实现（命令行） / 132 7.2.3　文本摘要工具的实现（Web 网页端） / 134 7.2.4　文本续写工具的实现（API） / 136 7.3 AI 代码辅助工具实战 / 140 7.3.1 AI 代码辅助工具概述 / 140 7.3.2 GitHub Copilot 使用实战 / 141 7.3.3 Cline AI 代码助手使用实战 / 143 7.3.4 Trae AI 代码助手使用实战 / 144 7.3.5 Cursor 编译器使用实战 / 145 7.3.6　通义灵码代码助手使用实战 / 146 7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置与实践 / 148 7.4.1 VSCode 中 AI 编程助手的选择 / 148 7.4.2 VSCode 中配置 Cline 第三方 API 的详细步骤 / 148 7.4.3　实用 VSCode 扩展组合推荐 / 150 7.4.4　常见问题与解决方案 / 150 7.5 如何提升 AI 代码生成的质量 / 151 7.5.1　面向代码生成的提示词工程技巧 / 151 7.5.2　行业案例分析 / 153 7.6 本章小结 / 154 第 8 章图像生成与视觉识别 API 开发进阶实战 / 156 8.1 图像生成、图像识别、图像理解、图像处理技术简介 / 157 8.1.1　图像生成技术简介 / 157 8.1.2　图像识别技术简介 / 158 8.1.3　图像描述 / 理解和视觉问答技术简介 / 159 8.1.4　图像增强及图像超分技术简介 / 159 8.2 基于 Gitee 平台的 Serverless-API 实现图片生成及风格迁移 / 160 8.2.1 Serverless 架构在图像处理中的应用 / 161 8.2.2　基于 Gitee 平台 Stable Diffusion 的图像生成 API 实现 / 161 8.2.3 Kolors 中文图像生成 API 实现 / 166 8.2.4　基于 Kolors 的图像风格迁移 API 实现 / 169 8.3 通过图像识别和图像理解技术构建应用 / 173 8.3.1 InternVL 图像理解 / 173 8.3.2 3 个 AI 1.0 时代的图像识别开源项目 / 174 8.4 Real-ESRGAN 图像超分模型与传统 PIL 构建应用 / 177 8.4.1　两者在实现和解决问题上的差别和关系 / 177 8.4.2　用 Real-ESRGAN 大模型实现超分的应用 / 179 8.4.3　传统基于 PIL 实现的图像处理开源项目 / 180 8.5 本章小结 / 184 第 9 章音频处理与视频生成 API 进阶开发实战 / 186 9.1 音频识别模型和语音合成模型解析 / 187 9.1.1　音频识别技术的发展与原理 / 187 9.1.2 Whisper 语音识别模型解析 / 187 9.1.3 Fish Speech 语音合成模型解析 / 188 9.1.4 ChatTTS 语音合成模型解析 / 188 9.1.5　语音识别、语音合成模型对比与选择建议 / 189 9.2 Serverless API 实现音频识别与语音合成 / 190 9.2.1 Serverless 架构在音频处理中的应用 / 190 9.2.2　基于 Whisper 的音频识别 API 实现 / 191 9.2.3　基于 ChatTTS、Fish Speech 的语音合成 API 实现 / 196 9.3 视频生成模型解析与 API 实现 / 200 9.3.1　视频生成技术的发展与原理 / 200 9.3.2 Wan2.1-T2V 模型解释 / 200 9.3.3　基于 Wan2.1-T2V 的视频生成 API 实现 / 200 9.4 音视频 API 的实际应用案例 / 204 9.4.1　基于录音 +Whisper+GUI 实现实时会议转录系统 / 204 9.4.2　基于 Whisper+ChatTTS/Fish Speech 实现多语言配音系统 / 209 9.4.3　基于 Wan2.1-T2V 实现节日祝福语视频生成器 / 213 9.5 本章小结 / 217 第 10 章跨模态开发与应用集成实战 / 219 10.1 多模态大模型概述 / 220 10.1.1　多模态大模型定义和特点 / 220 10.1.2　多模态大模型的主要架构 / 220 10.1.3　主流多模态大模型对比 / 222 10.2 跨模态数据处理与融合技术 / 223 10.2.1　跨模态数据处理的关键技术 / 223 10.2.2 Python 实现跨模态数据处理与融合 / 225 10.3 基于跨模态大模型的应用开发 / 228 10.3.1　跨模态应用场景分析 / 228 10.3.2　多模态 RAG 系统 / 229 10.3.3　应用开发实战案例 / 230 10.4 多模态大模型应用的挑战与展望 / 235 10.4.1　当前面临的挑战 / 236 10.4.2　未来发展趋势 / 236 10.4.3　实践建议 / 237 10.5　本章小结 / 237 附录 A “兴智杯”全国人工智能创新应用大赛参赛报名及算力获取 / 238 A1　获取和兑换“兴智杯”大赛算力券 / 239 A1.1 “兴智杯”大赛简介 / 239 A1.2　算力券的获取方式 / 239 A1.3　算力券的兑换流程 / 239 A2 “兴智杯”大赛使用算力券购买 Serverless API / 241 A2.1　沐曦模型资源包介绍 / 241 A2.2　购买沐曦模型资源包的详细步骤 / 242 A2.3 查看购买记录和资源使用情况 / 244

你还可能感兴趣

我要评论