徐葳

大数据专家

课程

51

学员

2634

课程被收藏

203

专注于大数据技术研究与开发,拥有多年一线互联网大厂软件研发经验。曾主导开发海外舆情监控系统、数据采集平台、OLAP数据分析平台、数据仓库、PB级数据检索系统等。

针对大数据生态圈中的数据采集、离线数据计算、实时数据计算、海量数据查询等技术领域有一定见解。曾为移动研究院、中移在线、中国联通、中信银行、平安银行等企业多次进行大数据技术企培。

免费联系讲师

专注于大数据技术研究与开发,拥有多年一线互联网大厂软件研发经验。曾主导开发海外舆情监控系统、数据采集平台、OLAP数据分析平台、数据仓库、PB级数据检索系统等。

针对大数据生态圈中的数据采集、离线数据计算、实时数据计算、海量数据查询等技术领域有一定见解。曾为移动研究院、中移在线、中国联通、中信银行、平安银行等企业多次进行大数据技术企培。

讲师简介

著有《Flink入门与实战》畅销书。 专注于大数据技术研究与开发,拥有多年一线互联网大厂软件研发经验。 曾主导开发海外舆情监控系统、数据采集平台、OLAP数据分析平台、数据仓库、PB级数据检索系统等。 针对大数据生态圈中的数据采集、离线数据计算、实时数据计算、海量数据查询等技术领域有一定见解。 曾为移动研究院、中移在线、中国联通、中信银行、平安银行等企业多次进行大数据技术企培。

出版书籍

Flink入门与实战

本书旨在帮助读者从零开始快速掌握Flink的基本原理与核心功能。本书首先介绍了Flink的基本原理和安装部署,并对Flink中的一些核心API进行了详细分析。然后配套对应的案例分析,分别使用Java代码和Scala代码实现案例。最后通过两个项目演示了Flink在实际工作中的一些应用场景,帮助读者快速掌握Flink开发。

学员评价

学习 Flink 的 Transform 操作能够显著提升数据处理和流计算的能力。通过掌握 Map、FlatMap、Filter、KeyBy、Reduce 和 Window 等关键操作,你可以实现复杂的数据转换和实时分析。Flink 提供了高性能、低延迟的分布式数据处理框架,适用于大规模数据处理任务。深入理解和应用这些变换操作,有助于优化数据管道,提高系统的鲁棒性和扩展性,从而更有效地处理企业级数据流和批处理需求。

━━ 秦同学​

通过实现不同类型的Source,可以将数据从各种外部系统(如Kafka、文件系统、数据库等)引入Flink。这不仅扩展了数据处理的范围,还能根据具体需求自定义Source,满足特定场景下的数据接入要求。同时,Flink对Source的并行处理能力显著提升了数据吞吐量和处理效率,为实时流处理奠定了坚实基础。

━━ 薛同学​

学习Flink Connector让我深刻体会到数据流处理的强大和灵活性。通过接入不同的数据源和数据汇,Flink能够轻松实现实时数据处理和分析。尽管初期配置可能有些复杂,但一旦掌握其工作原理和常用模式后,可以极大提升数据处理效率。实际应用中,看到数据流实时变动带来的业务价值,成就感满满。同时,这也提醒我不断学习更新,跟上技术的发展步伐。

━━ 潘同学​

学习 Apache Flink 的 Watermark 概念让我深刻理解了如何处理流数据中的时间延迟问题。Watermark 是一种特殊的事件,用于标记流中某个时间点之前的数据已经到达,从而使系统能够进行有界计算。通过设置合适的 Watermark,可以有效地平衡延迟和准确性,提高实时数据处理的效率。这一机制在处理乱序事件时尤为重要,让我对流处理框架有了更全面的认识,并增强了实际应用中的数据可靠性。

━━ 夏同学​

状态后端(State Backend)决定了任务的状态存储方式,主要有内存状态后端、FsStateBackend和RocksDBStateBackend三种。内存状态后端适用于小规模状态数据,速度快但不持久化;FsStateBackend将状态存储在文件系统中,有较好的持久化能力;RocksDBStateBackend使用嵌入式RocksDB数据库,适合大规模状态数据且支持增量检查点。通过对比和实践不同状态后端的优缺点和使用场景,可以有效提高Flink作业的性能和可靠性。

━━ 白同学​

学习Flink状态管理让我深刻体会到其在流处理中的重要性。Flink通过状态存储和快照机制,确保了数据处理的高效性和可靠性。掌握如何使用键控状态、操作状态以及状态后端,有助于构建更强大、更健壮的数据处理应用。此外,理解一致性检查点和故障恢复策略,提高了对系统容错性的认识。总体而言,Flink的状态管理为开发实时流处理应用提供了坚实的基础,让我受益匪浅。

━━ 江同学​

成为三节课认证讲师

与7万+名世界级导师与本土行业专家一起,触达海内外17,000+中大型企业

立即申请