吃透多模态大模型基础知识
¥119

吃透多模态大模型基础知识

分层研学多模态,零基础直达工程落地

¥119
本课程包括
  • 1小时22分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 搭建多模态全链路知识框架:吃透从基础认知、架构原理、数据调优、评测部署到应用落地的完整知识体系,建立多模态能力边界的清晰认知,扫清入门常见误区。
  • 掌握多模态核心技术与调优方法:精通视觉 Token 化、跨模态对齐、四大主流架构核心逻辑,熟练运用 LoRA/QLoRA 轻量化微调方案,跑通多模态标准训练全流程。
  • 具备多模态生产级部署与评测能力:学会搭建多模态专属评测基准与自动化评测脚本,精准探测模型能力边界;掌握生产级部署全链路、架构选型与轻量化 Serving 落地方法。
  • 落地多模态真实业务应用:能独立从 0 跑通图文问答应用,搭建可交互的多模态平台;掌握多模态智能体设计逻辑,攻克复杂文档、长图、多图交叉对比等前沿场景落地难题。
浏览相关主题
课程介绍

你是否是零基础,想要系统搭建多模态大模型知识框架,却找不到本土化、成体系的入门路径?

你是否具备大语言模型基础,想要深耕多模态核心技术,却卡在跨模态融合、架构原理的认知盲区?

你是否聚焦项目落地,想要把多模态能力集成到业务系统,却不懂从 0 搭建完整的推理、部署、应用全流程?

如果这些问题困扰你,本课程正是为你设计!课程以「认知入门→原理拆解→技术落地→前沿进阶」为核心主线,通过 9 大章节循序渐进,完整覆盖多模态大模型从基础原理到生产级落地的全链路知识,所有内容立足中文场景,兼顾理论深度与实操性,帮你从零吃透多模态核心技术,落地真实业务应用。

本课程围绕九大章节分层授课,核心内容如下:

  • 基础认知模块破冰篇 + 视觉篇,帮你建立多模态能力边界认知,扫清入门常见误区,吃透视觉 Token 化、CLIP 模型、跨模态对齐训练机制的底层核心逻辑;

  • 架构与调优模块架构篇 + 炼丹篇,拆解双塔、连接器、交叉注意力、原生统一四大主流多模态架构,详解投影层核心作用,教你多模态专属数据格式、LoRA/QLoRA 轻量化微调方案,跑通最小微调闭环;

  • 评测与部署模块评测篇 + 部署篇,教你搭建多模态专属评测基准,分析核心量化指标,跑通最小自动化评测脚本;同时梳理生产级部署全链路,提供资源规划、架构选型、模型性能观测与轻量化 Serving 的落地思路;

  • 实战与进阶模块实战篇 + 进化篇 + 前沿篇,带你基于开源库跑通首个视觉语言模型,基于 Gradio 构建最小可交互图像问答平台;进阶掌握多模态智能体设计逻辑,打通图像感知、工具调用与工作流的综合协同;同时攻克票据 / 复杂版面 OCR、长图切割、多图交叉对比归纳等前沿场景难题。

本课程所有知识点均配套对应的实操逻辑,从基础原理到代码实操,从模型调优到生产部署,形成完整的学习闭环,帮你真正吃透多模态大模型技术,实现从入门到落地的能力跃迁。你,准备好开启多模态全链路学习了吗?

适合人群
  • 零基础多模态学习者:计划系统搭建多模态大模型完整知识框架,依托本土化学习资源夯实理论基础,立足中文场景完成从入门到进阶学习的新手。
  • 大语言模型开发人员:具备大语言模型基础认知,希望纵向深耕 VLM、MLLM 核心原理,补齐多模态跨模态融合技术短板的研发从业者。
  • 多模态工程落地实践者:聚焦业务项目落地需求,目标将识图、文档解析、截图识别等多模态能力集成至自有业务系统与智能 Agent 的开发人员。
讲师介绍
500强企业算法专家、中国科学院大学博士
擅长领域:
  • DeepSeek
  • AIGC办公提效
  • 大语言模型
  • AIGC行业应用
  • 人工智能认知与应用
  • 自然语言处理(NLP)
  • 数据挖掘与分析
  • 数字化战略
  • 深度学习
  • 机器学习
苏嘉昊,中国科学院大学博士,高级职称资深研究员,中国计算机学会高级会员。现任世界500强企业高级算法专家,兼任清华、北大、国科大等高校讲座导师。 深耕人工智能领域14年,长期专注于大语言模型、深度学习、推荐系统等核心方向,兼具前沿技术研究能力与复杂业务场景落地经验。曾主导多项重大AI产品与项目从0到1、从技术验证到业务落地,累计创造经济效益超10亿元。 长期为世界500强及政府机构提供AI培训与技术咨询,授课理论实战结合、深入浅出,广受学员认可,能够帮助学员快速建立系统认知并提升实战能力。
课程大纲
共0节 时长0分钟 全部收起
第一章:破冰篇:多模态大模型全景概览
9分钟
第二章:视觉篇:编码器与跨模态对齐
10分钟
第三章:架构篇:多模态生成核心路线
10分钟
第四章:炼丹篇:数据构建与高效微调
10分钟
第五章:评测篇:核心指标与基准测试
7分钟
第六章:部署篇:推理服务化与架构选型
9分钟
第七章:实战篇:从 0 跑通图文问答应用
9分钟
第八章:进化篇:构建多模态智能体
9分钟
第九章:前沿篇:复杂文档与多图场景挑战
8分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。