掌握大语言模型部署：从理论到实践的全面指南-李晓华-知识小课

发现课程

专家讲师成为讲师企业版全球版

掌握大语言模型部署：从理论到实践的全面指南

¥69

立即购买

你将收获

为后续学习多卡推理、分布式部署、负载均衡等更复杂的生产环境打下基础。
能够在 Ubuntu 系统下完成 pip install vllm 安装，并使用 nohup vllm serve 命令启动带 API Key、内存利用率控制的 HTTP 后台服务。
理解为什么需要部署（客户端算力不足 → 中央服务器 + API）、部署的三层要求（服务化、工程化、规模化）。
熟悉transformers、Ollama/LM Studio与vLLM / SGLang三大主流技术栈的定位

浏览相关主题

课程介绍

你是否曾思考过：

本地跑大模型总是卡顿或显存不足，如何选择适合自己硬件的部署方案？

transformers、llama.cpp、vLLM 这些工具分别适合什么场景，怎样少走弯路？

想把模型封装成 HTTP 服务供其他人调用，却不知从哪入手？

如果这些问题让你感到困扰，这门课正是为你设计的！大模型不只有“调用API”一条路，掌握部署才能按需控制成本、保护数据隐私。

本课程围绕“技术栈分层选型与实战部署”两大主线展开：

技术栈原理：从为什么需要部署（客户端算力不足→中央服务器+API）出发，对比三大技术栈——transformers（全流程瑞士军刀）、llama.cpp / Ollama / LM Studio（CPU及边缘设备轻量部署）、vLLM / SGLang（GPU高性能推理），并给出 vLLM 与 SGLang 的差异对比（vLLM 侧重内存效率，SGLang 侧重上下文复用）。

工具实战：基于 Ubuntu 系统，演示 vLLM 的完整部署流程——pip install vllm 安装，用 nohup vllm serve Qwen3-0.6B --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.6 --api-key abc12345678 启动后台服务，支持并发调用。

选型指南：明确各工具定位——边缘设备选 llama.cpp，个人极简体验选 Ollama/LM Studio，生产级高并发选 vLLM/SGLang，帮助你在不同算力、成本、性能要求下做出合理选择。

讲师背景

李晓华博士，大模型全栈开发系列课程讲师。PPT 系统梳理了从部署原理到三个技术栈的完整图谱，并提供了可直接运行的命令示例，聚焦解决“模型文件→服务化接口”这一核心痛点。

通过本课程，学员将：

清晰选型：掌握 transformers、llama.cpp/Ollama/LM Studio、vLLM/SGLang 的适用场景，不再被工具搞晕；

动手部署：能在 Ubuntu 下用 vLLM 快速启动一个带 API Key 的大模型 HTTP 服务，理解 --gpu-memory-utilization 等关键参数的作用；

工程化思维：理解大模型部署的核心要求（服务化、工程化、规模化），为后续多卡、分布式等进阶场景打下基础。

“大模型的关键不止于训练，更在于稳定高效的部署。” 你准备好把你的模型跑起来了吗？

适合人群

需要将自己训练或下载的大语言模型封装成 API 服务，供内部或外部调用的AI 开发工程师与算法工程师
希望在本地或服务器上部署开源大模型，构建基于 LLM 的应用后端的后端工程师
对 LLM 推理部署感兴趣，想从零了解主流部署工具并动手实践的研究人员
需要评估不同部署方案（CPU vs GPU、边缘 vs 云端、性能 vs 成本）的选型依据的技术负责人

讲师介绍

李晓华查看讲师主页

美国金门大学博士/北京大学硕士

擅长领域:

AIGC办公提效
大语言模型
DeepSeek
人工智能认知与应用
数据思维
AIGC行业应用
自然语言处理(NLP)
深度学习
机器学习
计算机视觉

技术老兵，在一线从事项目开发和团队管理近15年；精通人工智能算法及应用；线上教学视频每年的播放量在1000万人次以上；累计培养付费学员数万人；在企业培训方面，每年培训至少80家大型央企、国企和外企（如：中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等）；学术大会公开演讲累计数百场（线上+线下）；深刻理解学员和企业存在的问题，擅长引导学员思考，对症下药；所有培训秉承【听得懂+学得会+用得上】的原则，短期内迅速提升实战能力！

课程大纲

共0节时长0分钟全部收起

第一章大模型部署原理

12分钟

第二章技术栈1——transformers

14分钟

第三章技术栈2——llama.cpp / Ollama / LM Studio

14分钟

第四章技术栈3——vLLM / SGLang

9分钟

第五章大模型部署和调用流程（上）

14分钟

第五章大模型部署和调用流程（下）

24分钟