你是否曾思考过:
软件工程师想转型AI,但面对复杂的大模型不知从何入手?如何用自己熟悉的代码功底,快速搞懂GPT、LLaMA这类模型的内部运作?
AI算法工程师或大模型开发者,想真正理解自回归生成的核心逻辑,搞清楚模型如何一个字一个字生成回答?
中大型企业的技术或业务人员,需要评估或落地大模型,但不清楚它的运行成本、环境要求和基本调用流程?
如果你属于以上任何一种情况,这门课会帮你从零开始,搭建环境、下载模型、理解架构,并亲手跑通自回归生成的完整流程。
本课程围绕“环境准备”和“核心机制”两大模块展开,并结合实操演示:
环境准备
讲解操作系统(Ubuntu 22.04/24.04 或 Windows WSL2)、Python 3.11~3.13、Miniconda、PyTorch 2.6以上(GPU版)及Hugging Face transformers库的安装要求。
介绍硬件选择(如英伟达RTX 4090、A100、H100或华为910系列)。
演示通过国外社区(huggingface.co、hf-mirror.com)或国内社区(modelscope.cn)进行模型选型和下载(如git clone)。
核心机制
分词器:将句子切分为token(分词)、token转为数字id(编码)、数字id转回文字(解码)。了解subword分词、约15万词汇量、支持119种语言等特点。
模型架构:讲解Embedding向量化层、位置编码、Decoder-Only模块(内含多头注意力机制MHA和前馈网络)、生成层。
自回归生成流程:演示加载分词器和模型、构建消息列表、套聊天模板、分词编码、调用模型生成、结果解码的全过程。
为了帮助你更直观理解Decoder-Only架构的优势,这里对比三种主流Transformer架构:
Decoder-Only(解码型):核心能力是通用生成加理解全覆盖,代表模型有GPT系列、LLaMA、Qwen等,适用场景为当代大模型主流,适合对话、写作、代码等通用任务。
Encoder-Only(编码型):核心能力是文本理解与判别,代表模型有BERT、RoBERTa等,适用场景为分类、情感分析、实体识别等传统NLP任务。
Encoder-Decoder(编码器-解码器):核心能力是定向生成,如翻译或摘要,代表模型有T5、BART等,适用场景为有明确输入输出映射的专用任务。
本课程适合以下学员群体:
想要转型AI的资深软件工程师
具备编程基础,希望切入大模型领域。Decoder-Only架构逻辑清晰,代码量相对精简,适合通过写代码彻底搞懂大模型的运作机制。
AI算法工程师与大模型开发者
已从事或立志成为大模型算法专家。需要掌握自回归生成的核心逻辑,理解当前主流大模型(如GPT、LLaMA、Qwen、DeepSeek等)的底座架构,提升面试和实际工作能力。
中大型企业的技术负责人或AI应用落地人员
需要评估大模型的能力边界、运行成本和硬件要求,为团队技术选型或产品规划提供依据。通过课程了解模型如何部署、调用和生成结果,从而更有效地与开发团队协作,推动内部AI应用落地。
通过本课程,学员将:
能够独立配置大语言模型的运行环境,完成模型下载与加载
理解分词器与Decoder-Only架构的关键组件,掌握自回归生成的基本流程
具备使用transformers库进行基础调用和调试的能力,为进一步微调或应用开发打下基础
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。