从“脏数据”到“金数据”:数据采集、清洗及处理实战课
知识小课

从“脏数据”到“金数据”:数据采集、清洗及处理实战课

  • 大数据系统

解锁数据价值:掌握高效数据处理全流程

¥99.9
本课程包括
  • 2小时49分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 掌握从数据采集、清洗到增强的全流程技术栈
  • 熟练使用自动化工具和脚本
  • 输出可直接应用于工作的数据处理模板
课程介绍

从“脏数据”到“金数据”:数据采集、清洗及处理实战课

解锁数据价值:掌握高效数据处理全流程

你是否曾面临这些挑战?

  • 数据来源杂乱无章,如何从海量信息中精准采集有效数据?

  • 数据质量参差不齐,如何通过清洗和增强技术提升数据价值?

  • 面对异常值和缺失数据,如何科学处理并保证分析结果的可靠性?

如果这些问题困扰着你,这门实战课程将为你提供系统化的解决方案!数据不仅是资源,更是驱动决策的“黄金”。掌握数据处理的完整方法论,你将不再是数据的被动使用者,而是能够主动挖掘数据价值的专家。

课程亮点

围绕“方法论+工具+案例”三大核心,构建数据处理的完整能力闭环:

1. 升维方法论:覆盖数据处理全生命周期

  • 数据采集:详解公开数据集获取、网络爬虫技术、传感器采集等5大方法,确保数据来源合法且高效。

  • 数据清洗:针对缺失值、异常值、重复数据等问题,提供规则校验、统计特征分析、自动化脚本等解决方案。

  • 数据增强:文本与图像数据的多样化增强技术(如同义词替换、回译、几何变换等),解决数据稀缺和类别不平衡问题。

2. 降维工具:实战驱动的技术栈

  • 工具链:掌握Pandas、OpenRefine、Spark等工具的高效应用,实现从数据清洗到增强的自动化流程。

  • 算法应用:学习K-means聚类、IQR异常检测、3σ原则等算法,精准识别和处理数据中的噪声与矛盾。

  • 案例实战:通过电商、医疗、教育领域的真实案例(如医疗对话数据标注、学生成绩归一化),落地方法论。

3. 场景化赋能:从理论到落地

  • 文本数据增强:基于规则和预训练模型(如BERT、GPT),生成多样化的高质量文本数据。

  • 图像数据增强:通过旋转、裁剪、色彩调整等技术,提升模型对视觉变化的鲁棒性。

  • 异常值处理:结合IQR和3σ原则,解决数据冲突和逻辑矛盾,确保分析结果可信。

课程大纲速览

  • Part 1 数据采集与标注:公开数据集、网络爬虫、传感器采集、标注规范

  • Part 2 数据清洗基础:重复值处理、冲突数据解决(如值域矛盾、逻辑矛盾)

  • Part 3 数据增强技术:文本同义词替换、回译;图像几何变换、色彩调整

  • Part 4 数据集构建实战:电商、医疗、教育领域案例

  • Part 5 工具与优化:Pandas、OpenRefine、Spark的应用与性能提升

加入我们

现在是时候投资自己,掌握数据提炼的"炼油术"了!

适合人群
  • 数据工程师、分析师:系统化提升数据处理能力
  • AI工程师:解决训练数据不足和质量问题
  • 业务负责人:理解数据治理全流程,高效协同技术团队
讲师介绍
知名大厂高级工程师
擅长领域:
  • 人工智能认知与应用
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • DeepSeek
2020年5月-至今 大厂商业策略团队高级算法工程师 生成式广告触发-基于query增强的结构化触发 角色:项目负责 人 项目背景:挖掘用户行为意图等相关特征,基于大模型做用户理解,并通过 Query 改写,Query 推荐等方式触 发广告 目标:触发游戏,医美,医疗等多个行业的广告收入。 策略效果: 评价指标:-1/0/1 & G:S:B * 主要提升点:1 分比例显著提高:通过模型筛选,规则筛选等方式,显著提高训练样本的 1 分比例,降 低-1 分比例。使得生成query 能在保留相关性的基础上具有更高的商业价值。Good 比例显著提高,Bad 比例 下降。 线上收益: a) 通用场景(40%小流量实验):pv +0.25%、charge +6.62%、CTR1 -3.87%、ACP +10.16% b) 游戏场景场景(30%小流量实验) :pv -0.917%、charge +10.4%、CTR1 -0.731%、ACP +11.716% 工作内容: a) 基于检索增强+结构化两种方式进行数据增强理解 b) 构造百万级样本使用eirne 1.5B 进行全参数sft c) 通过相关性+后验点击等相关指标进行样本优化 d) 通过rank排序的方式进行反馈调优以及偏好对齐 e) 基于业务背景探索构造前缀树进行限定生成以及风控安全控制 f) 模型评估BLEU和ROUGE等指标,最终上线 商业智能体 项目背景:在商业广告平台落地场景中,采用了基于文心EB4.0的多智能体架构,支持客户趋于无限的自然语言表 达,彻底放弃剧本编排,多槽位指令解析准确率、平响达到成熟系统的标准(准确率达到98.5%,平响只有1.5s,95分 位值3.3s),在智能助手、JarvisBot、销售Bot均成功落地,并取得显著的收益。 目标:是通过多智能体,商家,用户等智能体进行广告营销 线上收益: a) 通用场景(40%小流量实验):show + 8.05%,click +8.00%,charge +6.64%,cv +4.9%,tcharge +6.53%。经过显著性分析,所有指标均效果显著。 工作内容: a) 对话数据筛选和清洗,过滤语气词、索要联系方式等无效对话。 b) 在Prompt中增加人工标注的业务示例,从对话中筛选核心的经营业务。 c) 引入客户的业务描述,确保提取的业
课程大纲
共0节 时长0分钟 全部收起
数据处理01
17分钟
数据处理02
17分钟
k-mean异常值处理
14分钟
异常检测:四分位距法(IQR)-
9分钟
异常值处理
7分钟
内容完整性处理
13分钟
内容重复理解01
21分钟
内容重复理解02
20分钟
文本数据增强01
18分钟
文本数据增强02
19分钟
图像数据增强
13分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。