你是否曾思考过:
本地跑大模型总是卡顿或显存不足,如何选择适合自己硬件的部署方案?
transformers、llama.cpp、vLLM 这些工具分别适合什么场景,怎样少走弯路?
想把模型封装成 HTTP 服务供其他人调用,却不知从哪入手?
如果这些问题让你感到困扰,这门课正是为你设计的!大模型不只有“调用API”一条路,掌握部署才能按需控制成本、保护数据隐私。
本课程围绕“技术栈分层选型与实战部署”两大主线展开:
技术栈原理:从为什么需要部署(客户端算力不足→中央服务器+API)出发,对比三大技术栈——transformers(全流程瑞士军刀)、llama.cpp / Ollama / LM Studio(CPU及边缘设备轻量部署)、vLLM / SGLang(GPU高性能推理),并给出 vLLM 与 SGLang 的差异对比(vLLM 侧重内存效率,SGLang 侧重上下文复用)。
工具实战:基于 Ubuntu 系统,演示 vLLM 的完整部署流程——pip install vllm 安装,用 nohup vllm serve Qwen3-0.6B --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.6 --api-key abc12345678 启动后台服务,支持并发调用。
选型指南:明确各工具定位——边缘设备选 llama.cpp,个人极简体验选 Ollama/LM Studio,生产级高并发选 vLLM/SGLang,帮助你在不同算力、成本、性能要求下做出合理选择。
讲师背景
李晓华博士,大模型全栈开发系列课程讲师。PPT 系统梳理了从部署原理到三个技术栈的完整图谱,并提供了可直接运行的命令示例,聚焦解决“模型文件→服务化接口”这一核心痛点。
通过本课程,学员将:
清晰选型:掌握 transformers、llama.cpp/Ollama/LM Studio、vLLM/SGLang 的适用场景,不再被工具搞晕;
动手部署:能在 Ubuntu 下用 vLLM 快速启动一个带 API Key 的大模型 HTTP 服务,理解 --gpu-memory-utilization 等关键参数的作用;
工程化思维:理解大模型部署的核心要求(服务化、工程化、规模化),为后续多卡、分布式等进阶场景打下基础。
“大模型的关键不止于训练,更在于稳定高效的部署。” 你准备好把你的模型跑起来了吗?
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。