大模型评测技术:如何判断一个模型到底好不好?
¥119

大模型评测技术:如何判断一个模型到底好不好?

从指标、基准到安全攻防,全面拆解大模型性能评估方法

¥119
本课程包括
  • 1小时9分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 建立大模型评测的系统性认知框架——理解为什么单一分数无法定义模型好坏,掌握“内在评测+外在评测+多维雷达图”的完整评测方法论;
  • 深入理解复杂推理与知识利用的评测方法——区分闭卷与开卷问答、评估思维链推理质量、验证多步逻辑的严密性与代码生成的执行正确性;
  • 掌握大模型作为评委(LLM-as-a-Judge)的技术架构——理解无参考文本评估、三段式提示词设计、加权平均优化、位置偏置消除等核心技术要点;
  • 熟悉主流评测基线(MMLU/C-Eval/AGIEval/IFEval)与全栈工具链——能够根据业务场景灵活调用评测基准,建立专属的自动化防劣化评测流水线;
  • 理解安全防御与人类对齐的关键评测方法——掌握幻觉检测、偏见量化、对抗性测试、红队攻击模拟等技术,守住模型上线的安全红线。
浏览相关主题
课程介绍

你是否曾思考过:

随便聊两句觉得模型变聪明了,但一上真实业务就翻车,主观感受为什么总是不靠谱?一个在写诗上得高分的模型,数学推理可能一塌糊涂,单一分数如何掩盖了致命短板?模型压缩后推理速度变快了,但准确率暴跌,如何在速度、成本与可用性之间找到最佳平衡?如果这些问题让你感到困惑,这门课正是为你设计的!评测绝不是训练完成后的附属工作,而是决定模型能否走向线上的核心验收标准。凭感觉判断模型好坏,在真实工程落地中极不稳定。

本课程围绕“评测基础入门→经典统计指标→知识利用与复杂推理→大模型做评委→主流评测基线→安全防御与人类对齐→幻觉检测与红队测试”七大模块展开:

  • 评测基础入门:理解为什么凭感觉判断不靠谱,区分内在评测(困惑度PPL检验语言基本功)与外在评测(翻译、问答、分类等真实任务表现),构建全景能力雷达图拒绝“盲人摸象”,建立“内外兼修双向把关”的系统评测认知。

  • 大模型经典评测统计指标:掌握困惑度与交叉熵的代数关联、分类任务的混淆矩阵与F1分数、机器翻译的BLEU与摘要生成的ROUGE、代码生成的Pass@k无偏估计、开放生成的盲测与两两对比机制、Elo等级分系统动态更新逻辑、全景雷达图构建等核心统计指标。

  • 知识利用与复杂推理测评:区分闭卷问答(内部参数化知识提取)与开卷问答(外部检索增强融合),掌握数学推理的多步逻辑验证、代码生成的中间过程有效性测试、思维链提示机制激发推理潜能、中间推理步骤逻辑严谨性的量化评估、结构化数据输出要求等核心评测方法。

  • 大模型做评委(LLM-as-a-Judge):理解无参考文本评估的系统级需求,掌握评价指标体系的多维度选取逻辑、三段式结构化解构评分提示词、思维链技术在评分中的应用、绝对评分机制的区分度缺陷与加权平均优化、盲测对战与两两比较机制、胜者裁决与Elo等级分动态更新、裁判模型的位置偏置与长度偏置、候选项位置互换消除偏置的代数机制。

  • 主流评测基线大盘点:覆盖MMLU(五十七个学科综合知识)、C-Eval(中文特有知识与特性任务)、AGIEval(高难度认知压力测试)、IFEval(指令遵循能力评估)、OpenCompass全栈评测工具链等主流基准,理解从静态数据集到动态评测系统的演进与本地化基准需求。

  • 安全防御与人类对齐评测:掌握有用性/诚实性/无害性(3H)原则的数学映射、事实性偏离与模型幻觉的底层归因、内在幻象与外在幻象的结构化特征区分、对抗性问题诱导与真实性测试基准、社会伦理底线与偏见生成的系统性风险、专属数据集在偏见量化中的应用、盲测竞技场在安全稳健性评估中的价值。

  • 幻觉检测与红队测试:深入TruthfulQA与HaluEval等幻觉评测基准,拆解同一问题两种幻象的表现形式,掌握CrowS-Pairs与Winogender等偏见量化数据集,理解红队测试(Red Teaming)的目标与思路,识别越狱、提示泄露与有害提示词三类攻击,了解红队模型训练的自动化攻击直觉流程。

讲师背景

苏嘉昊博士,500强企业算法专家,中国科学院大学博士。拥有超过14年的人工智能技术研发与团队管理经验,带领团队打造多款现象级AI产品,累计用户突破3亿,并被央视和人民日报多次报道。在人工智能顶级国际会议如WWW、AAAI、IJCAI上发表论文30余篇,兼具扎实的理论研究能力与丰富的工程落地经验。长期为字节、阿里、百度、腾讯、美团、滴滴、京东、360、中国联通、国家电网、青岛啤酒等知名企业及政府单位提供AI培训与战略咨询。擅长将复杂的AI技术体系拆解为通俗、清晰、可执行的学习内容,课程兼顾前沿趋势、业务理解与落地实操。

通过本课程,你将收获:

  1. 建立大模型评测的系统性认知框架——理解为什么单一分数无法定义模型好坏,掌握“内在评测+外在评测+多维雷达图”的完整评测方法论;

  2. 掌握经典与前沿评测统计指标——熟练运用困惑度、BLEU/ROUGE、Pass@k、Elo等级分等核心指标,精准量化模型在各维度上的真实能力;

  3. 深入理解复杂推理与知识利用的评测方法——区分闭卷与开卷问答、评估思维链推理质量、验证多步逻辑的严密性与代码生成的执行正确性;

  4. 掌握大模型作为评委(LLM-as-a-Judge)的技术架构——理解无参考文本评估、三段式提示词设计、加权平均优化、位置偏置消除等核心技术要点;

  5. 熟悉主流评测基线(MMLU/C-Eval/AGIEval/IFEval)与全栈工具链——能够根据业务场景灵活调用评测基准,建立专属的自动化防劣化评测流水线;

  6. 理解安全防御与人类对齐的关键评测方法——掌握幻觉检测、偏见量化、对抗性测试、红队攻击模拟等技术,守住模型上线的安全红线。

适合人群
  • 需要为业务场景选型合适的大模型,理解评测指标背后的含义,能够读懂模型评测报告,并基于评测结果做出产品决策,避免被单一分数误导。
  • 日常需要评估模型微调效果、对比不同基座模型的能力差异、验证模型上线前的安全性。本课程提供从基础指标到高阶评测方法的完整工具箱。
  • 计划将大模型引入业务系统,需要建立模型上线前的验收标准和持续监控机制,防范幻觉、偏见、安全风险,守住红线。
  • 希望系统了解如何评估自己调优或部署的模型效果,而非仅凭几次对话测试就下结论,为模型迭代提供客观数据支撑。
讲师介绍
500强企业算法专家、中国科学院大学博士
擅长领域:
  • DeepSeek
  • AIGC办公提效
  • 大语言模型
  • AIGC行业应用
  • 数字化战略
苏嘉昊,中国科学院大学博士,高级职称资深研究员,中国计算机学会高级会员。现任世界500强企业高级算法专家,兼任清华、北大、国科大等高校讲座导师。 深耕人工智能领域14年,长期专注于大语言模型、深度学习、推荐系统等核心方向,兼具前沿技术研究能力与复杂业务场景落地经验。曾主导多项重大AI产品与项目从0到1、从技术验证到业务落地,累计创造经济效益超10亿元。 长期为世界500强及政府机构提供AI培训与技术咨询,授课理论实战结合、深入浅出,广受学员认可,能够帮助学员快速建立系统认知并提升实战能力。
课程大纲
共0节 时长0分钟 全部收起
第1课 评测基础入门
9分钟
第2课 大模型经典评测统计指标
11分钟
第3课 知识利用与复杂推理测评
10分钟
第4课 大模型做评委LLM-as-a-Judge
11分钟
第5课 主流评测基线Benchmarks大盘点
10分钟
第6课 安全防御与人类对齐评测
10分钟
第7课 守住红线:幻觉检测、对齐与红队测试(Red Teaming)
9分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。