AI大模型评估与优化实战
知识小课

AI大模型评估与优化实战

  • 大语言模型

大模型研发:从指标体系到性能诊断,全面提升模型效能

¥99
本课程包括
  • 2小时19分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 掌握AIGC内容质量与安全性的完整评估指标体系
  • 获得行业评估模板:从电商产品图检测到医疗问诊验证
  • 规避常见风险:多模态内容违规、跨文化合规问题
  • 建立标准化评估流程:从数据预处理到风险评估的全链路方案
课程介绍

你是否面临这些内容生成困境?

  • 面对海量AIGC生成内容,难以系统评估其质量与安全性?

  • 在多模态内容生成场景中,缺乏科学的评估指标体系?

  • 因不熟悉行业合规要求,导致生成内容存在违规风险?

这些问题直接影响AIGC应用的可靠性与合规性。构建科学的评估体系是保障AIGC健康发展的关键,但如何系统化实施仍是许多企业的难题。

本课程由互联网大厂高级算法工程师数知客导师亲授,她拥有:

  • 北京市人工智能中级职称认证

  • 《基于NLP内容理解》等畅销书作者经验

  • 人民邮电出版社专家顾问资质

课程三大核心模块

1. AIGC内容质量评估体系

  • 基础质量指标:准确性、逻辑连贯性、技术合规性的评估方法与实操

  • 内容价值指标:创新性、实用性、情感倾向的多维度量化评估

  • 多模态扩展指标:视觉质量、跨模态一致性的技术实现方案

2. AIGC安全性评估技术

  • 多模态内容分析:文本、图像、视频的深度伪造检测技术

  • 违规内容识别:仇恨言论、虚假信息、成人内容的智能识别

  • 风险评估体系:法律风险、用户体验、传播影响的量化评估

3. 行业应用实战案例

  • 电商场景:产品图生成评估(FID指标应用)

  • 金融场景:报告生成合规性验证(语义一致性检测)

  • 医疗场景:问诊模型准确性评估(循证医学验证)

  • 教育场景:辅导系统知识点覆盖度评估

无论你是刚入门、需要掌握模型评估基础的初学者,还是有一定经验、想深入学习调优方法的中级分析师,或是需要理解评估结果以提升决策能力的技术管理者,这门课都将为你提供从理论方法到实战应用的完整解决方案,你不仅能掌握模型评估与优化的核心技能,更能建立系统的技术思维。

现在就加入,开启你的模型评估与优化实战之旅,让模型应用更精准、决策更科学!

适合人群
  • AIGC研发工程师
  • 内容安全审核负责人
  • 设计AIGC应用流程和评估标准的产品人员
讲师介绍
知名大厂高级工程师
擅长领域:
  • 人工智能认知与应用
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • DeepSeek
2020年5月-至今 大厂商业策略团队高级算法工程师 生成式广告触发-基于query增强的结构化触发 角色:项目负责 人 项目背景:挖掘用户行为意图等相关特征,基于大模型做用户理解,并通过 Query 改写,Query 推荐等方式触 发广告 目标:触发游戏,医美,医疗等多个行业的广告收入。 策略效果: 评价指标:-1/0/1 & G:S:B * 主要提升点:1 分比例显著提高:通过模型筛选,规则筛选等方式,显著提高训练样本的 1 分比例,降 低-1 分比例。使得生成query 能在保留相关性的基础上具有更高的商业价值。Good 比例显著提高,Bad 比例 下降。 线上收益: a) 通用场景(40%小流量实验):pv +0.25%、charge +6.62%、CTR1 -3.87%、ACP +10.16% b) 游戏场景场景(30%小流量实验) :pv -0.917%、charge +10.4%、CTR1 -0.731%、ACP +11.716% 工作内容: a) 基于检索增强+结构化两种方式进行数据增强理解 b) 构造百万级样本使用eirne 1.5B 进行全参数sft c) 通过相关性+后验点击等相关指标进行样本优化 d) 通过rank排序的方式进行反馈调优以及偏好对齐 e) 基于业务背景探索构造前缀树进行限定生成以及风控安全控制 f) 模型评估BLEU和ROUGE等指标,最终上线 商业智能体 项目背景:在商业广告平台落地场景中,采用了基于文心EB4.0的多智能体架构,支持客户趋于无限的自然语言表 达,彻底放弃剧本编排,多槽位指令解析准确率、平响达到成熟系统的标准(准确率达到98.5%,平响只有1.5s,95分 位值3.3s),在智能助手、JarvisBot、销售Bot均成功落地,并取得显著的收益。 目标:是通过多智能体,商家,用户等智能体进行广告营销 线上收益: a) 通用场景(40%小流量实验):show + 8.05%,click +8.00%,charge +6.64%,cv +4.9%,tcharge +6.53%。经过显著性分析,所有指标均效果显著。 工作内容: a) 对话数据筛选和清洗,过滤语气词、索要联系方式等无效对话。 b) 在Prompt中增加人工标注的业务示例,从对话中筛选核心的经营业务。 c) 引入客户的业务描述,确保提取的业
课程大纲
共0节 时长0分钟 全部收起
先导课
4分钟
第一章 AIGC内容质量评估体系全解读
27分钟
第二章 模型评估指标
共3节 | 32分钟
  • 2.1 传统机器学习模型
    20分钟
  • 2.2 生成式模型
    8分钟
  • 2.3 推荐、排序模型
    4分钟
第三章 BLEU
19分钟
第四章 ROUGE
16分钟
第五章 AIGC内容安全性评估
28分钟
第六章 生成式模型内容评估典型案例
14分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。