语音识别经典项目实战剖析
体系课

语音识别经典项目实战剖析

  • 计算机视觉

实践解析语音识别领域必读论文算法

¥299.9
本课程包括
  • 5小时4分钟的视频随时观看
  • 课程包含 5 道测试题
  • 可在APP随时观看
  • 结业证书
你将收获
  • 了解seq2seq序列网络模型
  • 学习LAS模型语音识别实战
  • 掌握starganvc2变声器论文原理和源码实战
  • 掌握语音分离ConvTasnet模型
  • 掌握语音合成tacotron最新版实战

数千家企业正在使用三节课企业版学习

无限制学习5000+门课程,200+精选学习专题

免费申请体验>
课程介绍

语音识别是深度学习中的经典算法项目,为此我们邀请到了在深度学习领域深耕多年的唐宇迪老师,采用通俗易懂的方式解读语音分析领域必备论文,帮助学员深入理解语音识别领域四大核心模块:语音识别、语音分离、语音转换、语音合成。每个模块从论文原理解读、架构解析到实战演示项目实际流程细节,从零开始轻松掌握语音识别核心算法模型。

本节课包括seq2seq序列网络模型、LAS模型语音识别实战、starganvc2变声器论文原理解读、变声器源码实战、语音分离ConvTasnet模型、ConvTasnet语音分离实战、语音合成tacotron最新版实战。完成之后不但可以掌握语音识别领域核心算法构建方法,还可以将学到的内容熟练应用于实际项目中。

适合人群
  • Python工程师、AI工程师
  • 人工智能、深度学习方向的技术人员
  • 对语音识别感兴趣的技术人员
讲师介绍
同济大学硕士,华东理工大学博士
擅长领域:
  • 人工智能认知与应用
  • 自然语言处理(NLP)
  • 机器学习
著有《跟着迪哥学Python数据分析与机器学习实战》,联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师,开展线下与直播培训百余场,具有丰富的授课经验。
课程大纲
共0节 时长0分钟 全部收起
一、seq2seq序列网络模型
共5节 | 21分钟
  • 1.序列网络模型概述分析
    5分钟
  • 2.工作原理概述
    2分钟
  • 3.注意力机制的作用
    3分钟
  • 4.加入Attention的序列模型整体架构
    5分钟
  • 5.TeacherForcing的作用与训练策略
    4分钟
二、LAS模型语音识别实战
共9节 | 52分钟
  • 1.数据源与环境配置
    6分钟
  • 2.语料表制作方法
    4分钟
  • 3.制作json标注数据
    6分钟
  • 4.声音数据处理模块解读
    7分钟
  • 5.Pack与Pad操作解析
    7分钟
  • 6.编码器模块整体流程
    5分钟
  • 7.加入注意力机制
    5分钟
  • 8.计算得到每个输出的Attention得分
    6分钟
  • 9.解码器与训练过程演示
    5分钟
三、starganvc2变声器论文原理解读
共7节 | 37分钟
  • 1.论文整体思路与架构解读
    5分钟
  • 2.VCC2016输入数据
    4分钟
  • 3.语音特征提取
    8分钟
  • 4.生成器模型架构分析
    3分钟
  • 5.InstanceNorm的作用解读
    5分钟
  • 6.AdaIn的目的与效果
    3分钟
  • 7.判别器模块分析
    8分钟
四、starganvc2变声器源码实战
共11节 | 57分钟
  • 1.数据与项目文件解读
    5分钟
  • 2.环境配置与工具包安装
    5分钟
  • 3.数据预处理与声音特征提取
    9分钟
  • 4.生成器构造模块解读
    6分钟
  • 5.下采样与上采样操作
    5分钟
  • 6.starganvc2版本标签输入分析
    4分钟
  • 7.生成器前向传播维度变化
    5分钟
  • 8.判别器模块解读
    5分钟
  • 9.论文损失函数
    5分钟
  • 10.源码损失计算流程
    4分钟
  • 11.测试模块——生成转换语音
    6分钟
五、语音分离ConvTasnet模型
共6节 | 23分钟
  • 1.语音分离任务分析
    2分钟
  • 2.经典语音分离模型概述
    5分钟
  • 3.DeepClustering论文解读
    4分钟
  • 4.TasNet编码器结构分析
    6分钟
  • 5.DW卷积的作用与效果
    2分钟
  • 6.基于Mask得到分离结果
    4分钟
六、ConvTasnet语音分离实战
共8节 | 40分钟
  • 1.数据准备与环境配置
    8分钟
  • 2.训练任务所需参数介绍
    5分钟
  • 3.DataLoader定义
    3分钟
  • 4.采样数据特征编码
    5分钟
  • 5.编码器特征提取
    4分钟
  • 6.构建更大的感受区域
    7分钟
  • 7.解码得到分离后的语音
    5分钟
  • 8.测试模块所需参数
    3分钟
七、语音合成技术
共2节 | 10分钟
  • 1.语音合成技术概述
    4分钟
  • 2.网络计算流程分析
    6分钟
八、语音合成tacotron最新版实战
共12节 | 1小时4分钟
  • 1.语音合成项目所需环境配置
    6分钟
  • 2.所需数据集介绍
    3分钟
  • 3.路径配置与整体流程解读
    6分钟
  • 4.Dataloader构建数据与标签
    8分钟
  • 5.编码层要完成的任务
    5分钟
  • 6.得到编码特征向量
    5分钟
  • 7.解码器输入准备
    5分钟
  • 8.解码器流程梳理
    5分钟
  • 9.注意力机制应用方法
    5分钟
  • 10.得到加权的编码向量
    5分钟
  • 11.模型输出结果
    6分钟
  • 12.损失函数与预测
    4分钟
课后测试
共5题
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。