大语言模型架构实战:深入探索主流GPT(Decoder-only)架构

大语言模型架构实战:深入探索主流GPT(Decoder-only)架构

掌握运行环境搭建、模型选型与下载,解析分词器、模型架构及其运行流程

¥69
本课程包括
  • 2小时40分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 能够独立配置大语言模型的运行环境,完成模型下载与加载
  • 理解分词器与模型架构的关键组件,掌握自回归生成的基本流程
  • 具备使用 transformers 库进行基础调用和调试的能力
浏览相关主题
课程介绍

你是否曾思考过:

软件工程师想转型AI,但面对复杂的大模型不知从何入手?如何用自己熟悉的代码功底,快速搞懂GPT、LLaMA这类模型的内部运作?

AI算法工程师或大模型开发者,想真正理解自回归生成的核心逻辑,搞清楚模型如何一个字一个字生成回答?

中大型企业的技术或业务人员,需要评估或落地大模型,但不清楚它的运行成本、环境要求和基本调用流程?

如果你属于以上任何一种情况,这门课会帮你从零开始,搭建环境、下载模型、理解架构,并亲手跑通自回归生成的完整流程。

本课程围绕“环境准备”和“核心机制”两大模块展开,并结合实操演示:

环境准备

讲解操作系统(Ubuntu 22.04/24.04 或 Windows WSL2)、Python 3.11~3.13、Miniconda、PyTorch 2.6以上(GPU版)及Hugging Face transformers库的安装要求。

介绍硬件选择(如英伟达RTX 4090、A100、H100或华为910系列)。

演示通过国外社区(huggingface.cohf-mirror.com)或国内社区(modelscope.cn)进行模型选型和下载(如git clone)。

核心机制

分词器:将句子切分为token(分词)、token转为数字id(编码)、数字id转回文字(解码)。了解subword分词、约15万词汇量、支持119种语言等特点。

模型架构:讲解Embedding向量化层、位置编码、Decoder-Only模块(内含多头注意力机制MHA和前馈网络)、生成层。

自回归生成流程:演示加载分词器和模型、构建消息列表、套聊天模板、分词编码、调用模型生成、结果解码的全过程。

为了帮助你更直观理解Decoder-Only架构的优势,这里对比三种主流Transformer架构:

Decoder-Only(解码型):核心能力是通用生成加理解全覆盖,代表模型有GPT系列、LLaMA、Qwen等,适用场景为当代大模型主流,适合对话、写作、代码等通用任务。

Encoder-Only(编码型):核心能力是文本理解与判别,代表模型有BERT、RoBERTa等,适用场景为分类、情感分析、实体识别等传统NLP任务。

Encoder-Decoder(编码器-解码器):核心能力是定向生成,如翻译或摘要,代表模型有T5、BART等,适用场景为有明确输入输出映射的专用任务。

本课程适合以下学员群体:

想要转型AI的资深软件工程师

具备编程基础,希望切入大模型领域。Decoder-Only架构逻辑清晰,代码量相对精简,适合通过写代码彻底搞懂大模型的运作机制。

AI算法工程师与大模型开发者

已从事或立志成为大模型算法专家。需要掌握自回归生成的核心逻辑,理解当前主流大模型(如GPT、LLaMA、Qwen、DeepSeek等)的底座架构,提升面试和实际工作能力。

中大型企业的技术负责人或AI应用落地人员

需要评估大模型的能力边界、运行成本和硬件要求,为团队技术选型或产品规划提供依据。通过课程了解模型如何部署、调用和生成结果,从而更有效地与开发团队协作,推动内部AI应用落地。

通过本课程,学员将:

能够独立配置大语言模型的运行环境,完成模型下载与加载

理解分词器与Decoder-Only架构的关键组件,掌握自回归生成的基本流程

具备使用transformers库进行基础调用和调试的能力,为进一步微调或应用开发打下基础

适合人群
  • 有一定Python基础,希望了解大语言模型底层运行机制和自回归生成流程的开发者
  • 需要学习如何搭建大模型软硬件环境(Linux/WSL2、PyTorch、GPU配置)并实际下载、加载模型的AI从业者
  • 对Hugging Face和ModelScope社区不熟悉,想通过实操掌握分词器、模型调用与解码环节的技术学习者
讲师介绍
美国金门大学博士/北京大学硕士
擅长领域:
  • AIGC办公提效
  • 大语言模型
  • DeepSeek
  • 人工智能认知与应用
  • 数据思维
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • 机器学习
  • 计算机视觉
技术老兵,在一线从事项目开发和团队管理近15年;精通人工智能算法及应用;线上教学视频每年的播放量在1000万人次以上;累计培养付费学员数万人;在企业培训方面,每年培训至少80家大型央企、国企和外企(如:中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等);学术大会公开演讲累计数百场(线上+线下);深刻理解学员和企业存在的问题,擅长引导学员思考,对症下药;所有培训秉承【听得懂+学得会+用得上】的原则,短期内迅速提升实战能力!
课程大纲
共0节 时长0分钟 全部收起
课程附件
图文
第一章 大语言模型运行环境
28分钟
第二章 大语言模型模型选择和下载
共2节 | 49分钟
  • 操作演示(上)
    26分钟
  • 操作演示(下)
    23分钟
第三章 大语言模型分词器
34分钟
第四章 大语言模型模型架构
29分钟
第五章 大语言模型自回归式生成
19分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。