专家讲师成为讲师企业版全球版

多模态大模型架构原理：构建智能系统的核心技术

¥69

立即购买

多模态大模型架构原理：构建智能系统的核心技术

深入解析视觉语言、音频语言、全模态（T+I+V+A）大模型架构，掌握OCR/ASR/TTS核心技术，揭秘豆包手机与具身智能背后的AI引擎

￥69

立即购买

加入收藏

本课程包括

3小时19分钟的视频随时观看
可在APP随时观看
结业证书

你将收获

理解多模态定义、核心目标与通用四件套架构
熟练解析视觉、音频、全模态大模型结构与典型模型
掌握 OCR/ASR/TTS 多模态应用，理解终端与具身智能底层实现

浏览相关主题

课程介绍

你是否曾思考：

多模态大模型如何实现文本、图像、音频、视频的统一理解与交互？

视觉语言、音频语言、全模态模型的架构差异与设计逻辑是什么？

豆包手机、具身智能等产品，底层依靠哪些多模态技术支撑？

如果这些问题让你感到紧迫，这门课正是为你设计！多模态是 AI 下一代主流形态，掌握其架构原理，是理解与开发新一代智能系统的关键。

本课程围绕基础认知、架构拆解、技术拓展、产业落地四大主线展开：

基础认知：明晰多模态定义、核心目标与通用架构四件套；
架构拆解：逐讲图文、音频、全模态大模型的结构与典型模型；
技术拓展：掌握基于多模态的 OCR、ASR、TTS 核心技术；
产业落地：揭秘豆包手机与具身智能背后的 AI 引擎实现。

讲师背景：资深企业内训讲师

李晓华老师深耕一线，拥有近15年项目开发与团队管理实战经验，精通人工智能算法及应用，对AI技术落地业务场景有着深刻且独到的理解；教育背景深厚，兼具扎实学术功底与前沿国际视野；深谙学员与企业核心痛点，擅长引导学员思考、对症下药，所有培训均秉承“听得懂 + 学得会 + 用得上”核心原则，助力学员短期内快速提升AI实战能力，让技术真正落地业务、创造价值。

通过本课程，学员将：

体系认知：建立多模态大模型完整知识框架，理解统一表征与跨模态对齐逻辑；
架构精通：吃透视觉、音频、全模态大模型架构，掌握主流开源模型实现思路；
产业落地：掌握 OCR/ASR/TTS 多模态拓展能力，理解终端与具身智能底层技术。

立即加入学习，系统吃透多模态大模型原理，构建 AI 系统核心技术竞争力！

适合人群

大模型开发者、算法工程师、AI 产品经理，需要理解多模态技术的从业者
深度学习、NLP、CV 方向学习者，希望系统掌握多模态架构原理的技术人员
智能终端、具身智能、多模态交互产品研发与设计人员

讲师介绍

李晓华查看讲师主页

美国金门大学博士/北京大学硕士

擅长领域:

AIGC办公提效
大语言模型
DeepSeek
数据思维
AIGC行业应用

技术老兵，在一线从事项目开发和团队管理近15年；精通人工智能算法及应用；线上教学视频每年的播放量在1000万人次以上；累计培养付费学员数万人；在企业培训方面，每年培训至少80家大型央企、国企和外企（如：中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等）；学术大会公开演讲累计数百场（线上+线下）；深刻理解学员和企业存在的问题，擅长引导学员思考，对症下药；所有培训秉承【听得懂+学得会+用得上】的原则，短期内迅速提升实战能力！

课程大纲

共0节时长0分钟全部收起

第一章多模态大模型综合概述

21分钟

第二章视觉语言多模态大模型

共5节 | 2小时6分钟

第一节经典模型

28分钟
第二节实操演示（一）

29分钟
第三节实操演示（二）

28分钟
第四节实操演示（三）

28分钟
第五节实操演示（四）

13分钟

第三章音频语言多模态大模型

16分钟

第四章全模态大模型（T+I+V+A）

6分钟

第五章基于多模态的OCR/ASR/TTS

9分钟

第六章豆包手机背后的大模型

12分钟

第七章具身智能背后的大模型

9分钟

附件

图文

购课须知

课程有效期：

自购买课程之日起 365 天，部分参与营销活动产品以活动规则为准，请同学在有效期内学习、观看课程。

上课模式：

课程采取录播模式，请注意自学课无班级微信群、班主任带班及助教批改服务。

注：自学课不支持退款，确保你是真的需要再进行报名，报完名之后还请认真学习。

点击下载
三节课App 微信扫码
关注三节课公众号