发现课程

专家讲师成为讲师企业版全球版

大语言模型架构实战：深入探索主流GPT（Decoder-only）架构

¥69

立即购买

大语言模型架构实战：深入探索主流GPT（Decoder-only）架构

掌握运行环境搭建、模型选型与下载，解析分词器、模型架构及其运行流程

￥69

立即购买

加入收藏

本课程包括

2小时40分钟的视频随时观看
可在APP随时观看
结业证书

你将收获

能够独立配置大语言模型的运行环境，完成模型下载与加载
理解分词器与模型架构的关键组件，掌握自回归生成的基本流程
具备使用 transformers 库进行基础调用和调试的能力

浏览相关主题

课程介绍

你是否曾思考过：

软件工程师想转型AI，但面对复杂的大模型不知从何入手？如何用自己熟悉的代码功底，快速搞懂GPT、LLaMA这类模型的内部运作？

AI算法工程师或大模型开发者，想真正理解自回归生成的核心逻辑，搞清楚模型如何一个字一个字生成回答？

中大型企业的技术或业务人员，需要评估或落地大模型，但不清楚它的运行成本、环境要求和基本调用流程？

如果你属于以上任何一种情况，这门课会帮你从零开始，搭建环境、下载模型、理解架构，并亲手跑通自回归生成的完整流程。

本课程围绕“环境准备”和“核心机制”两大模块展开，并结合实操演示：

环境准备

讲解操作系统（Ubuntu 22.04/24.04 或 Windows WSL2）、Python 3.11~3.13、Miniconda、PyTorch 2.6以上（GPU版）及Hugging Face transformers库的安装要求。

介绍硬件选择（如英伟达RTX 4090、A100、H100或华为910系列）。

演示通过国外社区（huggingface.co、hf-mirror.com）或国内社区（modelscope.cn）进行模型选型和下载（如git clone）。

核心机制

分词器：将句子切分为token（分词）、token转为数字id（编码）、数字id转回文字（解码）。了解subword分词、约15万词汇量、支持119种语言等特点。

模型架构：讲解Embedding向量化层、位置编码、Decoder-Only模块（内含多头注意力机制MHA和前馈网络）、生成层。

自回归生成流程：演示加载分词器和模型、构建消息列表、套聊天模板、分词编码、调用模型生成、结果解码的全过程。

为了帮助你更直观理解Decoder-Only架构的优势，这里对比三种主流Transformer架构：

Decoder-Only（解码型）：核心能力是通用生成加理解全覆盖，代表模型有GPT系列、LLaMA、Qwen等，适用场景为当代大模型主流，适合对话、写作、代码等通用任务。

Encoder-Only（编码型）：核心能力是文本理解与判别，代表模型有BERT、RoBERTa等，适用场景为分类、情感分析、实体识别等传统NLP任务。

Encoder-Decoder（编码器-解码器）：核心能力是定向生成，如翻译或摘要，代表模型有T5、BART等，适用场景为有明确输入输出映射的专用任务。

本课程适合以下学员群体：

想要转型AI的资深软件工程师

具备编程基础，希望切入大模型领域。Decoder-Only架构逻辑清晰，代码量相对精简，适合通过写代码彻底搞懂大模型的运作机制。

AI算法工程师与大模型开发者

已从事或立志成为大模型算法专家。需要掌握自回归生成的核心逻辑，理解当前主流大模型（如GPT、LLaMA、Qwen、DeepSeek等）的底座架构，提升面试和实际工作能力。

中大型企业的技术负责人或AI应用落地人员

需要评估大模型的能力边界、运行成本和硬件要求，为团队技术选型或产品规划提供依据。通过课程了解模型如何部署、调用和生成结果，从而更有效地与开发团队协作，推动内部AI应用落地。

通过本课程，学员将：

能够独立配置大语言模型的运行环境，完成模型下载与加载

理解分词器与Decoder-Only架构的关键组件，掌握自回归生成的基本流程

具备使用transformers库进行基础调用和调试的能力，为进一步微调或应用开发打下基础

适合人群

有一定Python基础，希望了解大语言模型底层运行机制和自回归生成流程的开发者
需要学习如何搭建大模型软硬件环境（Linux/WSL2、PyTorch、GPU配置）并实际下载、加载模型的AI从业者
对Hugging Face和ModelScope社区不熟悉，想通过实操掌握分词器、模型调用与解码环节的技术学习者

讲师介绍

李晓华查看讲师主页

美国金门大学博士/北京大学硕士

擅长领域:

AIGC办公提效
大语言模型
DeepSeek
人工智能认知与应用
数据思维
AIGC行业应用
自然语言处理(NLP)
深度学习
机器学习
计算机视觉

技术老兵，在一线从事项目开发和团队管理近15年；精通人工智能算法及应用；线上教学视频每年的播放量在1000万人次以上；累计培养付费学员数万人；在企业培训方面，每年培训至少80家大型央企、国企和外企（如：中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等）；学术大会公开演讲累计数百场（线上+线下）；深刻理解学员和企业存在的问题，擅长引导学员思考，对症下药；所有培训秉承【听得懂+学得会+用得上】的原则，短期内迅速提升实战能力！

课程大纲

共0节时长0分钟全部收起

课程附件

图文

第一章大语言模型运行环境

28分钟

第二章大语言模型模型选择和下载

共2节 | 49分钟