AI大模型核心技术全景解析
知识小课

AI大模型核心技术全景解析

  • 大语言模型

从Tokenization到Transformer:掌握GPT、DeepSeek等前沿技术的原理与实践

¥199
本课程包括
  • 5小时49分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 深入理解大模型核心技术​​
  • 提升独立完成NLP项目的能力
  • 掌握AI前沿应用场景
  • 优化AI部署与成本控制​​
课程介绍

你是否面临这些AI技术挑战?

  • 面对大模型技术快速发展,难以系统掌握从基础到前沿的核心原理?

  • 在NLP任务中,对分词、注意力机制等关键技术理解不深入,影响模型效果?

  • 缺乏对GPT、DeepSeek等主流模型的实践指导,难以高效调参和应用?

这些问题直接关系到AI项目的开发效率与效果,而本课程将帮你系统解决这些问题​。

本课程由互联网大厂高级算法工程师“数知客”导师亲授,她拥有:

  • 智能体、广告算法、搜索推荐等多领域实战经验

  • 5项发明专利及北京市人工智能中级职称

  • 畅销书《基于NLP内容理解》作者,人民邮电出版社专家顾问

课程三大核心模块

1. 大模型基础技术解析

  • Tokenization原理与实践:BPE、WordPiece、SentencePiece算法对比

  • Transformer架构详解:Self-Attention、多头注意力机制实现

  • 位置编码演进:从绝对位置编码到RoPE的数学推导

2. 生成模型调优与应用

  • GPT技术原理:预训练、微调与提示工程实践

  • 生成参数调优:Top-K、Top-P采样及Temperature参数联合调控

  • 行业场景适配:代码生成、创意写作、对话系统的Prompt设计技巧

3. 前沿模型架构剖析

  • DeepSeek-V3混合专家模型(MoE):稀疏激活与动态路由实现

  • 逻辑推理优化:奖励模型与排序模型的协同训练方法

  • 开源生态实践:Qwen模型的中文优化与多模态扩展

无论你是算法工程师、技术负责人,还是AI研究者,这门课程都将通过代码实现、参数调优案例,帮助你掌握大模型技术的核心方法论与落地工具。

现在加入,完成从理论到实战的跨越,真正掌握驱动AI革命的核心技术!

适合人群
  • 算法工程师
  • 技术负责人
  • AI研究者
讲师介绍
知名大厂高级工程师
擅长领域:
  • 人工智能认知与应用
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • DeepSeek
2020年5月-至今 大厂商业策略团队高级算法工程师 生成式广告触发-基于query增强的结构化触发 角色:项目负责 人 项目背景:挖掘用户行为意图等相关特征,基于大模型做用户理解,并通过 Query 改写,Query 推荐等方式触 发广告 目标:触发游戏,医美,医疗等多个行业的广告收入。 策略效果: 评价指标:-1/0/1 & G:S:B * 主要提升点:1 分比例显著提高:通过模型筛选,规则筛选等方式,显著提高训练样本的 1 分比例,降 低-1 分比例。使得生成query 能在保留相关性的基础上具有更高的商业价值。Good 比例显著提高,Bad 比例 下降。 线上收益: a) 通用场景(40%小流量实验):pv +0.25%、charge +6.62%、CTR1 -3.87%、ACP +10.16% b) 游戏场景场景(30%小流量实验) :pv -0.917%、charge +10.4%、CTR1 -0.731%、ACP +11.716% 工作内容: a) 基于检索增强+结构化两种方式进行数据增强理解 b) 构造百万级样本使用eirne 1.5B 进行全参数sft c) 通过相关性+后验点击等相关指标进行样本优化 d) 通过rank排序的方式进行反馈调优以及偏好对齐 e) 基于业务背景探索构造前缀树进行限定生成以及风控安全控制 f) 模型评估BLEU和ROUGE等指标,最终上线 商业智能体 项目背景:在商业广告平台落地场景中,采用了基于文心EB4.0的多智能体架构,支持客户趋于无限的自然语言表 达,彻底放弃剧本编排,多槽位指令解析准确率、平响达到成熟系统的标准(准确率达到98.5%,平响只有1.5s,95分 位值3.3s),在智能助手、JarvisBot、销售Bot均成功落地,并取得显著的收益。 目标:是通过多智能体,商家,用户等智能体进行广告营销 线上收益: a) 通用场景(40%小流量实验):show + 8.05%,click +8.00%,charge +6.64%,cv +4.9%,tcharge +6.53%。经过显著性分析,所有指标均效果显著。 工作内容: a) 对话数据筛选和清洗,过滤语气词、索要联系方式等无效对话。 b) 在Prompt中增加人工标注的业务示例,从对话中筛选核心的经营业务。 c) 引入客户的业务描述,确保提取的业
课程大纲
共0节 时长0分钟 全部收起
先导课
4分钟
第一章 分词
33分钟
第二章 自注意力机制
10分钟
第三章 Transformer原理以及实现
33分钟
第四章 GPT技术原理与应用解析
共5节 | 41分钟
  • 4.1 GPT技术概述
    12分钟
  • 4.2 GPT的工作原理
    7分钟
  • 4.3 GPT的实现技术
    13分钟
  • 4.4 GPT的应用场景
    2分钟
  • 4.5 GPT的实践指南
    7分钟
第五章 Top-K采样原理详解
共5节 | 20分钟
  • 5.1 Top-K采样概述
    7分钟
  • 5.2 Top-K采样的数学原理
    2分钟
  • 5.3 Top-K采样的关键参数
    4分钟
  • 5.4 Top-K采样的优缺点分析
    3分钟
  • 5.5 Top-K采样的实际应用
    5分钟
第六章 Top-p采样原理与应用
共6节 | 23分钟
  • 6.1 Top-p采样概述
    5分钟
  • 6.2 Top-p采样的工作原理
    3分钟
  • 6.3 Top-p采样的参数设置
    4分钟
  • 6.4 Top-p采样的优势与局限性
    3分钟
  • 6.5 Top-p采样与其他采样方法的比较
    4分钟
  • 6.6 Top-p采样的实际应用案例
    4分钟
第七章 Prompt撰写方法与技巧
共5节 | 28分钟
  • 7.1 Prompt基础概念
    7分钟
  • 7.2 Prompt设计原则
    5分钟
  • 7.3 结构化Prompt技巧
    4分钟
  • 7.4 行业场景应用
    8分钟
  • 7.5 进阶优化策略
    3分钟
第八章 Temperature参数解析与应用指南
共5节 | 20分钟
  • 8.1 Temperature参数基础概念
    7分钟
  • 8.2 参数作用机制
    4分钟
  • 8.3 不同温度值效果对比
    3分钟
  • 8.4 参数应用场景指南
    3分钟
  • 8.5 实战调参技巧
    3分钟
第九章 GPT生成参数调优
共5节 | 24分钟
  • 9.1 参数调优策略
    6分钟
  • 9.2 实际调优步骤
    7分钟
  • 9.3 典型应用场景与参数组合
    3分钟
  • 9.4 常见问题与解决方案
    5分钟
  • 9.5 总结与最佳实践
    4分钟
第十章 手把手带你从零推导旋转位置编码RoPE
19分钟
第十一章 DeepSeek-R1 技术全景解析
26分钟
第十二章 DeepSeek-v3 中MOE架构解析
共5节 | 34分钟
  • 12.1 MOE发展历程
    7分钟
  • 12.2 MOE核心原理
    6分钟
  • 12.3 DeepSeek-V3中的MOE实现
    11分钟
  • 12.4 MOE关键技术挑战
    4分钟
  • 12.5 MOE模型性能优势
    6分钟
第十三章 不同模型的对比
13分钟
第十四章 qwen架构解读
20分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。