13小时掌握Python爬虫必杀技-郭旭-体系课

发现课程

专家讲师成为讲师企业版全球版

13小时掌握Python爬虫必杀技

¥129.9

会员免费学习

单独购买

你将收获

掌握Python爬虫的基本原理和实现方法，高效解决爬虫过程中遇到的问题。
学习先进爬虫技术，了解如何保护自己的网站不被随意抓取。
通过爬虫技术快速获取市场信息、竞争对手数据或客户反馈，以支持商业决策。

浏览相关主题

课程介绍

在数据驱动的商业时代，Python爬虫技术已成为获取网络信息的重要工具，金融、电商和市场研究等行业都依赖爬虫技术进行数据分析和市场洞察。

为此，三节课邀请了具有丰富Python经验的郭旭老师带来本次课程，旨在教您快速掌握爬虫技巧，解决数据处理效率低下的问题。

本课程从基础语法到高级爬虫技术，包括数据清洗、存储、反爬等实操方法。通过课程的学习，您将大幅提升数据爬取和处理能力，掌握网络数据抓取的技巧，提高数据获取的合法性和效率，拓展个人的技术视野为职业发展增添竞争力。

适合人群

有一定Python编程基础的开发者
初中级数据分析师和Python数据分析师
希望提升职业竞争力的程序员

讲师介绍

郭旭查看讲师主页

前游戏公司技术总监，高级工商管理硕士。

擅长领域:

Python
AIGC行业应用

前游戏公司技术总监，高级工商管理硕士。自 2007 年起，从事棋牌游戏的研发工作，曾带领研发团队打造棋牌游戏通用的基础服务框架，令研发效率明显提升，该框架曾服务于多款百万级 DAU 的棋牌游戏。目前专注研究人工智能工具，致力于通过 AI 工具赋能，提升编程和工作效率。

课程大纲

共0节时长0分钟全部收起

第0章导学

共2节 | 12分钟

0.1 爬虫是什么鬼？它能做什么？

3分钟
0.2 本课程将怎么教会你自己写爬虫程序

9分钟

第1章准备开发环境

共9节 | 51分钟

1.1 Python语言介绍

3分钟
1.2 安装Python（Windows）

6分钟
1.3 安装开发IDE—PyCharm（Windows）

4分钟
1.4 安装数据库MySQL（Windows）

7分钟
1.5 安装数据库远程控制工具SQLYog（Windows）

1分钟
1.6 安装Python3（Mac）

5分钟
1.7 安装PyCharm（Mac）

6分钟
1.8 安装MySQL（Mac）

8分钟
1.9 安装MySQL连接工具（Mac）

11分钟

第2章必要的基础知识（网络篇）

共10节 | 1小时18分钟

2.1 我们每天使用的网络是如何工作的？

6分钟
2.2 IP：网络成员的收货地址

6分钟
2.3 DNS：网络域名与IP地址映射关系的管理员

8分钟
2.4 路由：网络数据的中转站

3分钟
2.5 协议：网络成员间的沟通语言

4分钟
2.6 HTTP协议：浏览器能正常显示网页信息都是它的功劳

4分钟
2.7 TCP IP协议：HTTP协议的地基

2分钟
2.8 用Python实现一个简单的Web Server

10分钟
2.9 用Python实现Socket编程-服务端

13分钟
2.10 用Python实现Socket编程-客户端

22分钟

第3章必要的基础知识（前端篇）

共16节 | 1小时33分钟

3.1 什么是HTML？

4分钟
3.2 什么是CSS？

6分钟
3.3 什么是JavaScript？

3分钟
3.4.1 手写一个HTML页面（HTML标签部分）

9分钟
3.4.2 手写一个HTML页面（CSS美化和JS交互）

10分钟
3.4.3 手写一个HTML页面（引用CSS文件和JS文件）

6分钟
3.5 浏览器F12查看自己写的HTML

5分钟
3.6 什么是dom树？

7分钟
3.7 人们常说的静态网页和动态网页有什么区别？

2分钟
3.8 Get请求和Post请求有什么区别？

5分钟
3.9 什么是同步请求？什么是异步请求？

4分钟
3.10 如何用Ajax实现异步请求？

11分钟
3.11 Http请求中常见的Header内容有哪些？

9分钟
3.12 什么是json数据格式？

3分钟
3.13 什么是XPATH

5分钟
3.14 什么是CSS选择器

4分钟

第4章爬虫时常用的基础类库

共9节 | 1小时37分钟

4.1 request：处理http请求

11分钟
4.2 re：正则表达式

10分钟
4.3 pymyql：使用SQL语句操作数据库

18分钟
4.4 类库peewee：ORM方式操作数据库

17分钟
4.5 类库BS4：beautifulsoup解析HTML

9分钟
4.6 类库lxml：xpath解析HTML

11分钟
4.7 css选择器方式解析HTML

6分钟
4.8 类库urllib.parse：解析和封装URL

9分钟
4.9 类库pickle：将python对象写入本地磁盘

5分钟

第5章实战：简单获取网易新闻列表

共10节 | 1小时31分钟

5.1 需求分析：爬取哪些内容，如何设计爬取流程

3分钟
5.2 数据库设计：设计新闻列表的表结构

14分钟
5.3 页面分析：找到数据的css选择器

9分钟
5.4 页面分析：F12找到数据接口

3分钟
5.5 实现编码：解析JSON数据

5分钟
5.6 实现编码：入库新闻列表

22分钟
5.7 实现编码：入库关键字

15分钟
5.8 实现编码：已存在的数据不重复写入

8分钟
5.9 实现编码：增加数据库事务

9分钟
5.10 总结：爬虫其实就是如此的简单

3分钟

第6章多线程编程提高爬虫速度

共14节 | 1小时45分钟

6.1 什么是多线程？

4分钟
6.2 类库threading：启动线程

18分钟
6.3 线程同步：线程Lock

7分钟
6.4 什么是线程池？

4分钟
6.5 操作线程池

8分钟
6.6 对比单线程、多线程、线程池的执行时间

12分钟
6.7 需求分析：爬取网易新闻详情页内容

2分钟
6.8 数据库设计：设计新闻详情的表结构

6分钟
6.9 页面分析：找到数据的css选择器和xpath

5分钟
6.10.1 编码：获得需要爬取数据的新闻详情列表

4分钟
6.10.2 编码：解析页面内容并生成对应的ORM对象

10分钟
6.10.3 编码：编写入库代码（事务、线程池）

7分钟
6.10.4 编码：运行程序并解决遇到的问题

10分钟
6.11 编码：增加数据是否重复爬取的校验逻辑

8分钟

第7章模拟登录并解决验证码的输入

共13节 | 1小时59分钟

7.1 模拟登录前必须了解什么是cookie和session

7分钟
7.2 模拟登录豆瓣网，将登录成功的cookie保存在本地

12分钟
7.3 读取本地cookie，用已登录状态访问网站

7分钟
7.4 selenium：Web应用测试工具

3分钟
7.5 使用selenium模拟登录豆瓣

19分钟
7.6.1 滑动验证码-处理流程

7分钟
7.6.2 滑动验证码-模拟输入用户名和密码

12分钟
7.6.3 滑动验证码-找到无缺口的原始背景图

12分钟
7.6.4 滑动验证码-截取并保存图片

14分钟
7.6.5 滑动验证码-比较图片RGB并找到缺口的移动距离

9分钟
7.6.6 滑动验证码-实现滑块拖动逻辑

5分钟
7.6.7 滑动验证码-运行代码并修改BUG

6分钟
7.6.8 滑动验证码-增加重试逻辑

7分钟

第8章实战：清洗数据并发送到Kindle

共13节 | 1小时

8.1 什么是数据清洗和数据分析？

7分钟
8.2.1 确认需求：新闻详情的清洗范围

3分钟
8.2.2 实施需求：SQLYog创建一张与原始表结构一样的新表

2分钟
8.2.3 编码：创建ORM对象并写入数据

2分钟
8.2.4 编码：peewee实现三张表的left join查询

6分钟
8.2.5 清洗编码：数据入库

2分钟
8.3.1 编码：解析HTML中的详情内容并组合为新闻文本

8分钟
8.3.2 编码：将新闻文本存储到本地TXT文件

2分钟
8.4.1 smtplib库：发送纯文本内容的email

8分钟
8.4.2 smtplib库：发送带附件的email

7分钟
8.5 解决163邮箱SMTP时的554垃圾邮件问题

4分钟
8.6 将新闻详情txt文件发送到Kindle

5分钟
8.7 实现微信实时接收爬虫通知

5分钟

第9章如何应对网站的反爬虫机制

共4节 | 18分钟

9.1 各大网站为什么设置反爬虫机制？

5分钟
9.2 反爬虫机制一般有哪些手段

4分钟
9.3 什么是user-agent

3分钟
9.4 类库fake_useragent：随机模拟user-agent

6分钟

第10章使用Scrapy框架提高开发效率

共6节 | 48分钟

10.1 什么是Scrapy？

6分钟
10.2 创建并运行第一个Scrapy项目

10分钟
10.3 使用Scrapy重新爬取网易要闻

9分钟
10.4 使用item和pipeline实现数据入库

12分钟
10.5 在Spider中发起异步Request

8分钟
10.6 通过AllowDomain过滤域名

3分钟

第11章总结

共3节 | 15分钟

11.1 课程总结

9分钟
11.2 如何将所学到的知识应用到其它网站？

3分钟
11.3 爬虫还有哪些高级应用？

3分钟

第12章实战：天天基金网

共8节 | 50分钟

12.1 需求分析

4分钟
12.2 判断页面数据的加载方式

5分钟
12.3 判断返回值是否可被Json类库解析

3分钟
12.4 编码：调用接口获得基金数据

8分钟
12.5 编码：将接口返回值转化为Json列表

9分钟
12.6 编码：解析Json数据并计算平均年化收益率

12分钟
12.7 编码：排序并输出Top20的基金数据

5分钟
12.8 编码：以表格形式输出基金数据

4分钟

课程资料

图文

购课须知

课程有效期：

自购买课程之日起 365 天，部分参与营销活动产品以活动规则为准，请同学在有效期内学习、观看课程。

上课模式：

课程采取录播模式，请注意自学课无班级微信群、班主任带班及助教批改服务。

注：自学课不支持退款，确保你是真的需要再进行报名，报完名之后还请认真学习。

点击下载
三节课App 微信扫码
关注三节课公众号