掌握大语言模型部署:从理论到实践的全面指南

掌握大语言模型部署:从理论到实践的全面指南

大模型全栈开发系列:掌握llama.cpp、Ollama、LM Studio及SGLang的部署与调用流程

¥69
本课程包括
  • 1小时26分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 为后续学习多卡推理、分布式部署、负载均衡等更复杂的生产环境打下基础。
  • 能够在 Ubuntu 系统下完成 pip install vllm 安装,并使用 nohup vllm serve 命令启动带 API Key、内存利用率控制的 HTTP 后台服务。
  • 理解为什么需要部署(客户端算力不足 → 中央服务器 + API)、部署的三层要求(服务化、工程化、规模化)。
  • 熟悉transformers、Ollama/LM Studio与vLLM / SGLang三大主流技术栈的定位
浏览相关主题
课程介绍

你是否曾思考过:

本地跑大模型总是卡顿或显存不足,如何选择适合自己硬件的部署方案?

transformers、llama.cpp、vLLM 这些工具分别适合什么场景,怎样少走弯路?

想把模型封装成 HTTP 服务供其他人调用,却不知从哪入手?

如果这些问题让你感到困扰,这门课正是为你设计的!大模型不只有“调用API”一条路,掌握部署才能按需控制成本、保护数据隐私。

本课程围绕“技术栈分层选型与实战部署”两大主线展开:

技术栈原理:从为什么需要部署(客户端算力不足→中央服务器+API)出发,对比三大技术栈——transformers(全流程瑞士军刀)、llama.cpp / Ollama / LM Studio(CPU及边缘设备轻量部署)、vLLM / SGLang(GPU高性能推理),并给出 vLLM 与 SGLang 的差异对比(vLLM 侧重内存效率,SGLang 侧重上下文复用)。

工具实战:基于 Ubuntu 系统,演示 vLLM 的完整部署流程——pip install vllm 安装,用 nohup vllm serve Qwen3-0.6B --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.6 --api-key abc12345678 启动后台服务,支持并发调用。

选型指南:明确各工具定位——边缘设备选 llama.cpp,个人极简体验选 Ollama/LM Studio,生产级高并发选 vLLM/SGLang,帮助你在不同算力、成本、性能要求下做出合理选择。

讲师背景

李晓华博士,大模型全栈开发系列课程讲师。PPT 系统梳理了从部署原理到三个技术栈的完整图谱,并提供了可直接运行的命令示例,聚焦解决“模型文件→服务化接口”这一核心痛点。

通过本课程,学员将:

清晰选型:掌握 transformers、llama.cpp/Ollama/LM Studio、vLLM/SGLang 的适用场景,不再被工具搞晕;

动手部署:能在 Ubuntu 下用 vLLM 快速启动一个带 API Key 的大模型 HTTP 服务,理解 --gpu-memory-utilization 等关键参数的作用;

工程化思维:理解大模型部署的核心要求(服务化、工程化、规模化),为后续多卡、分布式等进阶场景打下基础。

“大模型的关键不止于训练,更在于稳定高效的部署。” 你准备好把你的模型跑起来了吗?

适合人群
  • 需要将自己训练或下载的大语言模型封装成 API 服务,供内部或外部调用的AI 开发工程师 与 算法工程师
  • 希望在本地或服务器上部署开源大模型,构建基于 LLM 的应用后端的后端工程师
  • 对 LLM 推理部署感兴趣,想从零了解主流部署工具并动手实践的研究人员
  • 需要评估不同部署方案(CPU vs GPU、边缘 vs 云端、性能 vs 成本)的选型依据的技术负责人
讲师介绍
美国金门大学博士/北京大学硕士
擅长领域:
  • AIGC办公提效
  • 大语言模型
  • DeepSeek
  • 人工智能认知与应用
  • 数据思维
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • 机器学习
  • 计算机视觉
技术老兵,在一线从事项目开发和团队管理近15年;精通人工智能算法及应用;线上教学视频每年的播放量在1000万人次以上;累计培养付费学员数万人;在企业培训方面,每年培训至少80家大型央企、国企和外企(如:中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等);学术大会公开演讲累计数百场(线上+线下);深刻理解学员和企业存在的问题,擅长引导学员思考,对症下药;所有培训秉承【听得懂+学得会+用得上】的原则,短期内迅速提升实战能力!
课程大纲
共0节 时长0分钟 全部收起
第一章 大模型部署原理
12分钟
第二章 技术栈1——transformers
14分钟
第三章 技术栈2——llama.cpp / Ollama / LM Studio
14分钟
第四章 技术栈3——vLLM / SGLang
9分钟
第五章 大模型部署和调用流程(上)
14分钟
第五章 大模型部署和调用流程(下)
24分钟
相关资料
图文
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。