玩转python网络爬虫

玩转python网络爬虫

从零基础到精通,打造高效数据抓取技能

玩转python网络爬虫
¥599.9
本课程包括
  • 21小时37分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
课程合作品牌
讯达学院
你将收获
  • 掌握 Python 网络爬虫的基本原理和常用框架,能够独立搭建和优化爬虫项目
  • 熟悉 HTTP 协议、HTML 解析、数据存储等核心技术,提升 Web 开发和数据处理能力
  • 学会应对动态网页、反爬机制等复杂场景,积累实战经验,解决实际工作中的数据获取难题
浏览相关主题
课程介绍

在当今数字化时代,数据已成为企业决策、学术研究和技术创新的核心驱动力。然而,海量的数据分散在互联网的各个角落,如何高效地获取和利用这些数据,成为了一个亟待解决的问题。网络爬虫技术应运而生,它像一把神奇的钥匙,能够帮助我们打开数据宝藏的大门。本课程《Python 网络爬虫实战精讲》正是为了满足广大数据爱好者和专业人士的需求,从零基础开始,逐步深入,带你玩转 Python 网络爬虫。

课程内容丰富全面,涵盖了从基础的 Python 编程、HTTP 协议知识,到高级的 Scrapy 框架应用、分布式爬虫部署等多个层面。通过大量实战案例,如爬取起点小说网、京东销量数据、链家租房信息等,让学员在实践中掌握技术要点,积累项目经验。同时,课程还深入讲解了如何应对常见的反爬虫策略,如字体反爬、验证码识别等,确保学员能够应对各种复杂的网络环境。

学习这门课程,你将开启一段精彩的数据探索之旅。不仅可以掌握强大的数据抓取技能,还能提升自己的编程思维和问题解决能力。无论是为了个人兴趣拓展,还是为了职业发展加分,这门课程都将是你的不二之选。让我们一起踏上这场充满挑战与收获的旅程,解锁网络爬虫的奥秘,挖掘数据背后的价值吧!

适合人群
  • 对 Python 编程感兴趣,希望拓展数据获取能力的初学者
  • 想要深入学习网络爬虫技术,用于数据挖掘、分析或商业应用的技术人员
  • 从事市场调研、数据分析、新媒体运营等工作,需要通过爬虫获取数据的专业人士
讲师介绍
跟着娟姐学python,每一天的精神食粮
擅长领域:
  • Python
讯达学院(www.atxunda.com)是一个领先的平台,为程序员和技术爱好者提供计算机学习资源和编程挑战,我们是IT教育行业的造梦者,也是前沿技术内容的创造者和传播者。我们非常重视提高编程技能和知识,已成为我们学员值得信赖的目的地。该平台提供了大量教程、练习、实操、文档和精心策划的课程,为提高学员学习效果提供全方位服务。
课程大纲
共0节 时长0分钟 全部收起
第1章:爬虫基础
共7节 | 29分钟
  • 1.1 课程介绍
    2分钟
  • 1.2 数据的来源及作用
    7分钟
  • 1.3 爬虫的概念及应用领域
    5分钟
  • 1.4 如何爬取数据及robots协议
    5分钟
  • 1.5 爬虫的分类
    3分钟
  • 1.6 爬虫的原理
    4分钟
  • 1.7 为什么用Python语言写爬虫
    3分钟
第2章:HTTP基础
共11节 | 56分钟
  • 2.1 HTTP与HTTPS
    3分钟
  • 2.2 URL与URI(降噪)
    4分钟
  • 2.3 常见的请求方式
    5分钟
  • 2.4 常见的请求头参数
    5分钟
  • 2.5 常见的响应状态码
    3分钟
  • 2.6 HTTP请求的交互过程
    5分钟
  • 2.7 使用Chrome浏览器分析豆瓣网站
    8分钟
  • 2.8 Session的工作原理
    7分钟
  • 2.9 Cookie的工作原理
    7分钟
  • 2.10 JSON数据及解析
    4分钟
  • 2.11 Ajax请求
    5分钟
第3章:Python基础
共13节 | 1小时20分钟
  • 3.1 urllib简介及urllib.parse的使用
    6分钟
  • 3.2 urllib.request发送get与post请求
    14分钟
  • 3.3 构造Request对象发送请求
    5分钟
  • 3.4 urlopen方法的源代码讲解
    6分钟
  • 3.5 IP代理
    6分钟
  • 3.6 使用Cookie
    7分钟
  • 3.7 错误解析及异常处理
    7分钟
  • 3.8 requests库的简介
    6分钟
  • 3.9 requests不带参数的get请求
    8分钟
  • 3.10 requests带请求参数的get请求
    2分钟
  • 3.11 获取JSON数据及二进制数据
    5分钟
  • 3.12 使用requests发送Post请求
    3分钟
  • 3.13 使用requests的session发送请求
    6分钟
第4章:数据解析
共11节 | 1小时44分钟
  • 4.1 初识XPath解析数据
    16分钟
  • 4.2 课堂案例-爬取起点小说网使用XPath提取数据
    6分钟
  • 4.3 BeautifulSoup的简介
    12分钟
  • 4.4 BeautifulSoup的使用
    12分钟
  • 4.5 课堂案例-爬取淘宝网首页使用BeautifulSoup解析数据
    5分钟
  • 4.6 正则表达式的基本使用
    13分钟
  • 4.7 课堂案例-下载糗事百科小视频
    9分钟
  • 4.8 pyquery三种初始化方式
    8分钟
  • 4.9 pyquery的基本使用
    7分钟
  • 4.10 课堂案例:爬取起点小说网-1
    9分钟
  • 4.11 课堂案例:爬取起点小说网-2
    8分钟
第5章:数据存储
共38节 | 4小时40分钟
  • 5.1 JSON存储数据
    9分钟
  • 5.2 课堂案例:爬取京东销量最好的粽子数据
    9分钟
  • 5.3 CSV文件的简介:使用Python向CSV文件写入数据
    8分钟
  • 5.4 使用Python读取CSV文件中的内容
    2分钟
  • 5.5 课堂案例:使用CSV文件存储粽子评论数据
    8分钟
  • 5.6 Excel文件相关概念介绍及openpyxl模块的安装与测试
    3分钟
  • 5.7 使用Python向Excel文件中写入数据
    5分钟
  • 5.8 使用Python读取Excel文件中的内容
    8分钟
  • 5.9 课堂案例:爬取下厨房美食存储到Excel文件中
    13分钟
  • 5.10 MySQL的简介
    4分钟
  • 5.11 MySQL服务的开启与关闭
    4分钟
  • 5.12 MySQL的数据类型
    4分钟
  • 5.13 SQL的分类
    3分钟
  • 5.14 数据定义语言-create-alter-drop
    12分钟
  • 5.15 数据操作语言-insert-update-delete
    6分钟
  • 5.16 数据查询语言-基本查询-模糊查询
    14分钟
  • 5.17 数据查询语言-分组查询
    10分钟
  • 5.18 数据查询语言-表连接查询
    7分钟
  • 5.19 Python连接MySQL数据库:插入操作
    9分钟
  • 5.20 Python连接MySQL数据库:批量插入操作
    4分钟
  • 5.21 Python连接MySQL数据库:修改与删除操作
    3分钟
  • 5.22 Python连接MySQL数据库:查询操作
    4分钟
  • 5.23 课堂案例:搭建项目结构
    4分钟
  • 5.24 课堂案例:发送请求
    4分钟
  • 5.25 课堂案例:数据解析
    14分钟
  • 5.26 课堂案例:数据存储
    10分钟
  • 5.27 MongoDB的简介安装及启动服务
    9分钟
  • 5.28 MongoDB与SQL的常用的数据类型对比
    6分钟
  • 5.29 MongoDB最基本命令
    9分钟
  • 5.30 MongoDB的insert操作
    10分钟
  • 5.31 MongoDB的save与update操作
    11分钟
  • 5.32 MongoDB的remove操作
    3分钟
  • 5.33 MongoDB简单查询操作
    9分钟
  • 5.34 MongoDB的复杂查询操作
    11分钟
  • 5.35 MongoDB插入操作
    7分钟
  • 5.36 MongoDB修改删除操作
    5分钟
  • 5.37 MongoDB查询操作
    5分钟
  • 5.38 课堂案例:爬取链家二手房成交量存到MongoDB中
    13分钟
第6章:多线程与动态网页爬虫
共45节 | 6小时24分钟
  • 6.1 程序-进程-线程
    6分钟
  • 6.2 线程与进程的区别
    7分钟
  • 6.3 初识Python多线程
    6分钟
  • 6.4 继承的方式实现多线程
    5分钟
  • 6.5 线程的常用方法
    5分钟
  • 6.6 多线程访问全局变量的安全性问题
    10分钟
  • 6.7 锁机制解决线程的安全性问题
    6分钟
  • 6.8 Lock锁:生产者与消费者模式
    11分钟
  • 6.9 Condition版的生产者与消费者模式
    13分钟
  • 6.10 Queue线程安全的队列
    10分钟
  • 6.11 课堂案例:Queue在多线程中的使用
    5分钟
  • 6.12课堂案例:多线程下载王者荣耀高清壁纸1-分析URL
    13分钟
  • 6.13 课堂案例:多线程下载王者荣耀高清壁纸2-爬取第一页壁纸
    13分钟
  • 6.14 课堂案例:多线程下载王者荣耀高清壁纸3-生产者
    16分钟
  • 6.15 课堂案例:多线程下载王者荣耀高清壁纸4-消费者
    5分钟
  • 6.16 课堂案例:多线程下载王者荣耀高清壁纸5-解决异常
    1分钟
  • 6.17 多线程的GIL锁
    7分钟
  • 6.18 GIL锁与Lock锁的区别
    6分钟
  • 6.19 什么是动态网页爬虫
    6分钟
  • 6.20 动态网页爬虫的解决方案
    5分钟
  • 6.21 selenium的初步使用
    7分钟
  • 6.22 close方法与quit方法的区别
    3分钟
  • 6.23 selenium的基本使用-定位元素
    12分钟
  • 6.24 selenium的基本使用-操作表单元素
    13分钟
  • 6.25 课堂案例:使用selenium实现自动搜索
    3分钟
  • 6.26 selenium行为链
    11分钟
  • 6.27 selenium操作Cookie
    7分钟
  • 6.28 页面等待
    8分钟
  • 6.29 课堂案例:12306抢票-需求说明
    6分钟
  • 6.30 课堂案例:12306抢票-实现登录
    11分钟
  • 6.31 课堂案例:12306抢票-爬取车站代号
    11分钟
  • 6.32 课堂案例:12306-填充站点代号
    15分钟
  • 6.33 课堂案例:12306-查询-解析车次
    10分钟
  • 6.34 课堂案例:12306抢票-解析车次1
    16分钟
  • 6.35 课堂案例:12306抢票-解析车次2
    5分钟
  • 6.36 课堂案例:12306抢票-等待获取乘车人
    8分钟
  • 6.37 课堂案例:12306抢票-确认乘车人和座席
    15分钟
  • 6.38 课堂案例:12306抢票-提交订单
    11分钟
  • 6.39 字体反爬:什么是字体反爬
    4分钟
  • 6.40 字体反爬:原理-寻找-分析字体
    12分钟
  • 6.41 字体反爬:分析字体
    4分钟
  • 6.42 字体反爬:实习僧
    15分钟
  • 6.43 字体反爬:实习僧-代码实现
    13分钟
  • 6.44 验证码的分类
    2分钟
  • 6.45 使用OCR破解简单验证码
    4分钟
第7章:Scrapy框架
共33节 | 5小时33分钟
  • 7.1 常见的爬虫框架
    5分钟
  • 7.2 Scrapy的安装
    4分钟
  • 7.3 Scrapy框架的结构及工作原理
    9分钟
  • 7.4 Scrapy框架快速入门
    6分钟
  • 7.5 Scrapy框架:案例-编写Spiders-1
    7分钟
  • 7.5 Scrapy框架:案例-编写Spiders-2
    8分钟
  • 7.6 Scrapy框架:案例-处理响应结果
    7分钟
  • 7.7 Scrapy框架:案例数据存储
    10分钟
  • 7.8 Scrapy框架:案例项目总结
    3分钟
  • 7.9 Scrapy案例:笔趣阁小说-创建项目
    14分钟
  • 7.10 Scrapy案例:笔趣阁小说-编写爬虫文件
    12分钟
  • 7.11 Scrapy案例:笔趣阁小说-数据存储
    6分钟
  • 7.12 Scrapy案例:笔趣阁小说-yield推送请求
    12分钟
  • 7.13 CrawlSpider简介及创建
    9分钟
  • 7.14 课堂案例:猎云网-定义URL提取规则
    10分钟
  • 7.15 课堂案例:猎云网-数据解析
    15分钟
  • 7.16 课堂案例:猎云网-getall-get-extract和extract-first的区别
    6分钟
  • 7.17 课堂案例:猎云网 -创建数据库-读取配置文件
    17分钟
  • 7.18 课堂案例:猎云网-数据存储
    10分钟
  • 7.19 Scrapy模拟登录-小说楼
    14分钟
  • 7.20 Scrapy批量下载图片-1
    14分钟
  • 7.21 Scrapy批量下载图片-2
    11分钟
  • 7.21 Scrapy批量下载图片 2-2
    12分钟
  • 7.22 下载器中间件的概述
    7分钟
  • 7.23 下载器中间件方法详解
    7分钟
  • 7.24 下载器中间件:动态设置UA
    12分钟
  • 7.25 下载器中间件:selenium与Scrapy的结合使用
    14分钟
  • 7.26 项目案例:链家租房信息的爬虫-1
    14分钟
  • 7.27 课堂案例:链家租房信息的爬取-2
    18分钟
  • 7.28 课堂案例:链家租房信息的爬取-3
    7分钟
  • 7.29 课堂案例:猎聘网爬取你心仪的职位-1
    14分钟
  • 7.30 课堂案例:猎聘网爬取你心仪的职位-2
    11分钟
  • 7.31 课堂案例:猎聘网爬取你心仪的职位-3
    10分钟
第8章:分布式爬虫
共4节 | 31分钟
  • 8.1 分布式爬虫的介绍
    10分钟
  • 8.2 Redis的安装及启动测试
    6分钟
  • 8.3 Redis第三方图形化界面-scrapy-redis模块的安装
    6分钟
  • 8.4 分布式爬虫案例:第一种写法-修改配置文件
    8分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。