你是否曾思考过:
随便聊两句觉得模型变聪明了,但一上真实业务就翻车,主观感受为什么总是不靠谱?一个在写诗上得高分的模型,数学推理可能一塌糊涂,单一分数如何掩盖了致命短板?模型压缩后推理速度变快了,但准确率暴跌,如何在速度、成本与可用性之间找到最佳平衡?如果这些问题让你感到困惑,这门课正是为你设计的!评测绝不是训练完成后的附属工作,而是决定模型能否走向线上的核心验收标准。凭感觉判断模型好坏,在真实工程落地中极不稳定。
本课程围绕“评测基础入门→经典统计指标→知识利用与复杂推理→大模型做评委→主流评测基线→安全防御与人类对齐→幻觉检测与红队测试”七大模块展开:
评测基础入门:理解为什么凭感觉判断不靠谱,区分内在评测(困惑度PPL检验语言基本功)与外在评测(翻译、问答、分类等真实任务表现),构建全景能力雷达图拒绝“盲人摸象”,建立“内外兼修双向把关”的系统评测认知。
大模型经典评测统计指标:掌握困惑度与交叉熵的代数关联、分类任务的混淆矩阵与F1分数、机器翻译的BLEU与摘要生成的ROUGE、代码生成的Pass@k无偏估计、开放生成的盲测与两两对比机制、Elo等级分系统动态更新逻辑、全景雷达图构建等核心统计指标。
知识利用与复杂推理测评:区分闭卷问答(内部参数化知识提取)与开卷问答(外部检索增强融合),掌握数学推理的多步逻辑验证、代码生成的中间过程有效性测试、思维链提示机制激发推理潜能、中间推理步骤逻辑严谨性的量化评估、结构化数据输出要求等核心评测方法。
大模型做评委(LLM-as-a-Judge):理解无参考文本评估的系统级需求,掌握评价指标体系的多维度选取逻辑、三段式结构化解构评分提示词、思维链技术在评分中的应用、绝对评分机制的区分度缺陷与加权平均优化、盲测对战与两两比较机制、胜者裁决与Elo等级分动态更新、裁判模型的位置偏置与长度偏置、候选项位置互换消除偏置的代数机制。
主流评测基线大盘点:覆盖MMLU(五十七个学科综合知识)、C-Eval(中文特有知识与特性任务)、AGIEval(高难度认知压力测试)、IFEval(指令遵循能力评估)、OpenCompass全栈评测工具链等主流基准,理解从静态数据集到动态评测系统的演进与本地化基准需求。
安全防御与人类对齐评测:掌握有用性/诚实性/无害性(3H)原则的数学映射、事实性偏离与模型幻觉的底层归因、内在幻象与外在幻象的结构化特征区分、对抗性问题诱导与真实性测试基准、社会伦理底线与偏见生成的系统性风险、专属数据集在偏见量化中的应用、盲测竞技场在安全稳健性评估中的价值。
幻觉检测与红队测试:深入TruthfulQA与HaluEval等幻觉评测基准,拆解同一问题两种幻象的表现形式,掌握CrowS-Pairs与Winogender等偏见量化数据集,理解红队测试(Red Teaming)的目标与思路,识别越狱、提示泄露与有害提示词三类攻击,了解红队模型训练的自动化攻击直觉流程。
讲师背景
苏嘉昊博士,500强企业算法专家,中国科学院大学博士。拥有超过14年的人工智能技术研发与团队管理经验,带领团队打造多款现象级AI产品,累计用户突破3亿,并被央视和人民日报多次报道。在人工智能顶级国际会议如WWW、AAAI、IJCAI上发表论文30余篇,兼具扎实的理论研究能力与丰富的工程落地经验。长期为字节、阿里、百度、腾讯、美团、滴滴、京东、360、中国联通、国家电网、青岛啤酒等知名企业及政府单位提供AI培训与战略咨询。擅长将复杂的AI技术体系拆解为通俗、清晰、可执行的学习内容,课程兼顾前沿趋势、业务理解与落地实操。
通过本课程,你将收获:
建立大模型评测的系统性认知框架——理解为什么单一分数无法定义模型好坏,掌握“内在评测+外在评测+多维雷达图”的完整评测方法论;
掌握经典与前沿评测统计指标——熟练运用困惑度、BLEU/ROUGE、Pass@k、Elo等级分等核心指标,精准量化模型在各维度上的真实能力;
深入理解复杂推理与知识利用的评测方法——区分闭卷与开卷问答、评估思维链推理质量、验证多步逻辑的严密性与代码生成的执行正确性;
掌握大模型作为评委(LLM-as-a-Judge)的技术架构——理解无参考文本评估、三段式提示词设计、加权平均优化、位置偏置消除等核心技术要点;
熟悉主流评测基线(MMLU/C-Eval/AGIEval/IFEval)与全栈工具链——能够根据业务场景灵活调用评测基准,建立专属的自动化防劣化评测流水线;
理解安全防御与人类对齐的关键评测方法——掌握幻觉检测、偏见量化、对抗性测试、红队攻击模拟等技术,守住模型上线的安全红线。
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。