多模态大模型架构原理:构建智能系统的核心技术

多模态大模型架构原理:构建智能系统的核心技术

深入解析视觉语言、音频语言、全模态(T+I+V+A)大模型架构,掌握OCR/ASR/TTS核心技术,揭秘豆包手机与具身智能背后的AI引擎

¥69
本课程包括
  • 3小时35分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 理解多模态定义、核心目标与通用四件套架构
  • 熟练解析视觉、音频、全模态大模型结构与典型模型
  • 掌握 OCR/ASR/TTS 多模态应用,理解终端与具身智能底层实现
浏览相关主题
课程介绍

你是否曾思考:

多模态大模型如何实现文本、图像、音频、视频的统一理解与交互?

视觉语言、音频语言、全模态模型的架构差异与设计逻辑是什么?

豆包手机、具身智能等产品,底层依靠哪些多模态技术支撑?

如果这些问题让你感到紧迫,这门课正是为你设计!多模态是 AI 下一代主流形态,掌握其架构原理,是理解与开发新一代智能系统的关键。

本课程围绕基础认知、架构拆解、技术拓展、产业落地四大主线展开:

  • 基础认知:明晰多模态定义、核心目标与通用架构四件套;

  • 架构拆解:逐讲图文、音频、全模态大模型的结构与典型模型;

  • 技术拓展:掌握基于多模态的 OCR、ASR、TTS 核心技术;

  • 产业落地:揭秘豆包手机与具身智能背后的 AI 引擎实现。

讲师背景:资深企业内训讲师

李晓华老师深耕一线,拥有近15年项目开发与团队管理实战经验,精通人工智能算法及应用,对AI技术落地业务场景有着深刻且独到的理解;教育背景深厚,兼具扎实学术功底与前沿国际视野;深谙学员与企业核心痛点,擅长引导学员思考、对症下药,所有培训均秉承“听得懂 + 学得会 + 用得上”核心原则,助力学员短期内快速提升AI实战能力,让技术真正落地业务、创造价值。

通过本课程,学员将:

  1. 体系认知:建立多模态大模型完整知识框架,理解统一表征与跨模态对齐逻辑;

  2. 架构精通:吃透视觉、音频、全模态大模型架构,掌握主流开源模型实现思路;

  3. 产业落地:掌握 OCR/ASR/TTS 多模态拓展能力,理解终端与具身智能底层技术。

立即加入学习,系统吃透多模态大模型原理,构建 AI 系统核心技术竞争力!

适合人群
  • 大模型开发者、算法工程师、AI 产品经理,需要理解多模态技术的从业者
  • 深度学习、NLP、CV 方向学习者,希望系统掌握多模态架构原理的技术人员
  • 智能终端、具身智能、多模态交互产品研发与设计人员
讲师介绍
美国金门大学博士/北京大学硕士
擅长领域:
  • AIGC办公提效
  • 大语言模型
  • DeepSeek
  • 人工智能认知与应用
  • 数据思维
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • 机器学习
  • 计算机视觉
技术老兵,在一线从事项目开发和团队管理近15年;精通人工智能算法及应用;线上教学视频每年的播放量在1000万人次以上;累计培养付费学员数万人;在企业培训方面,每年培训至少80家大型央企、国企和外企(如:中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等);学术大会公开演讲累计数百场(线上+线下);深刻理解学员和企业存在的问题,擅长引导学员思考,对症下药;所有培训秉承【听得懂+学得会+用得上】的原则,短期内迅速提升实战能力!
课程大纲
共0节 时长0分钟 全部收起
第一章 多模态大模型综合概述
21分钟
第二章 视觉语言多模态大模型
共5节 | 2小时6分钟
  • 第一节 经典模型
    28分钟
  • 第二节 实操演示(一)
    29分钟
  • 第三节 实操演示(二)
    28分钟
  • 第四节 实操演示(三)
    28分钟
  • 第五节 实操演示(四)
    13分钟
第三章 音频语言多模态大模型
31分钟
第四章 全模态大模型(T+I+V+A)
6分钟
第五章 基于多模态的OCR/ASR/TTS
9分钟
第六章 豆包手机背后的大模型
12分钟
第七章 具身智能背后的大模型
9分钟
附件
图文
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。