13小时掌握Python爬虫必杀技
体系课

13小时掌握Python爬虫必杀技

  • 计算机基础
  • Python

零基础学习爬虫:从基础语法到爬虫技术的实际应用

¥129.9
本课程包括
  • 13小时58分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 掌握Python爬虫的基本原理和实现方法,高效解决爬虫过程中遇到的问题。
  • 学习先进爬虫技术,了解如何保护自己的网站不被随意抓取。
  • 通过爬虫技术快速获取市场信息、竞争对手数据或客户反馈,以支持商业决策。

数千家企业正在使用三节课企业版学习

无限制学习5000+门课程,200+精选学习专题

免费申请体验>
课程介绍

在数据驱动的商业时代,Python爬虫技术已成为获取网络信息的重要工具,金融、电商和市场研究等行业都依赖爬虫技术进行数据分析和市场洞察。

为此,三节课邀请了具有丰富Python经验的郭旭老师带来本次课程,旨在教您快速掌握爬虫技巧,解决数据处理效率低下的问题。

本课程从基础语法到高级爬虫技术,包括数据清洗、存储、反爬等实操方法。通过课程的学习,您将大幅提升数据爬取和处理能力,掌握网络数据抓取的技巧,提高数据获取的合法性和效率,拓展个人的技术视野为职业发展增添竞争力。

适合人群
  • 有一定Python编程基础的开发者
  • 初中级数据分析师和Python数据分析师
  • 希望提升职业竞争力的程序员
讲师介绍
前游戏公司技术总监,高级工商管理硕士。
擅长领域:
  • Python
  • AIGC行业应用
前游戏公司技术总监,高级工商管理硕士。自 2007 年起,从事棋牌游戏的研发工作,曾带领研发团队打造棋牌游戏通用的基础服务框架,令研发效率明显提升,该框架曾服务于多款百万级 DAU 的棋牌游戏。目前专注研究人工智能工具,致力于通过 AI 工具赋能,提升编程和工作效率。
课程大纲
共0节 时长0分钟 全部收起
第0章 导学
共2节 | 12分钟
  • 0.1 爬虫是什么鬼?它能做什么?
    3分钟
  • 0.2 本课程将怎么教会你自己写爬虫程序
    9分钟
第1章 准备开发环境
共9节 | 51分钟
  • 1.1 Python语言介绍
    3分钟
  • 1.2 安装Python(Windows)
    6分钟
  • 1.3 安装开发IDE—PyCharm(Windows)
    4分钟
  • 1.4 安装数据库MySQL(Windows)
    7分钟
  • 1.5 安装数据库远程控制工具SQLYog(Windows)
    1分钟
  • 1.6 安装Python3(Mac)
    5分钟
  • 1.7 安装PyCharm(Mac)
    6分钟
  • 1.8 安装MySQL(Mac)
    8分钟
  • 1.9 安装MySQL连接工具(Mac)
    11分钟
第2章 必要的基础知识(网络篇)
共10节 | 1小时18分钟
  • 2.1 我们每天使用的网络是如何工作的?
    6分钟
  • 2.2 IP:网络成员的收货地址
    6分钟
  • 2.3 DNS:网络域名与IP地址映射关系的管理员
    8分钟
  • 2.4 路由:网络数据的中转站
    3分钟
  • 2.5 协议:网络成员间的沟通语言
    4分钟
  • 2.6 HTTP协议:浏览器能正常显示网页信息都是它的功劳
    4分钟
  • 2.7 TCP IP协议:HTTP协议的地基
    2分钟
  • 2.8 用Python实现一个简单的Web Server
    10分钟
  • 2.9 用Python实现Socket编程-服务端
    13分钟
  • 2.10 用Python实现Socket编程-客户端
    22分钟
第3章 必要的基础知识(前端篇)
共16节 | 1小时33分钟
  • 3.1 什么是HTML?
    4分钟
  • 3.2 什么是CSS?
    6分钟
  • 3.3 什么是JavaScript?
    3分钟
  • 3.4.1 手写一个HTML页面(HTML标签部分)
    9分钟
  • 3.4.2 手写一个HTML页面(CSS美化和JS交互)
    10分钟
  • 3.4.3 手写一个HTML页面(引用CSS文件和JS文件)
    6分钟
  • 3.5 浏览器F12查看自己写的HTML
    5分钟
  • 3.6 什么是dom树?
    7分钟
  • 3.7 人们常说的静态网页和动态网页有什么区别?
    2分钟
  • 3.8 Get请求和Post请求有什么区别?
    5分钟
  • 3.9 什么是同步请求?什么是异步请求?
    4分钟
  • 3.10 如何用Ajax实现异步请求?
    11分钟
  • 3.11 Http请求中常见的Header内容有哪些?
    9分钟
  • 3.12 什么是json数据格式?
    3分钟
  • 3.13 什么是XPATH
    5分钟
  • 3.14 什么是CSS选择器
    4分钟
第4章 爬虫时常用的基础类库
共9节 | 1小时37分钟
  • 4.1 request:处理http请求
    11分钟
  • 4.2 re:正则表达式
    10分钟
  • 4.3 pymyql:使用SQL语句操作数据库
    18分钟
  • 4.4 类库peewee:ORM方式操作数据库
    17分钟
  • 4.5 类库BS4:beautifulsoup解析HTML
    9分钟
  • 4.6 类库lxml:xpath解析HTML
    11分钟
  • 4.7 css选择器方式解析HTML
    6分钟
  • 4.8 类库urllib.parse:解析和封装URL
    9分钟
  • 4.9 类库pickle:将python对象写入本地磁盘
    5分钟
第5章 实战:简单获取网易新闻列表
共10节 | 1小时31分钟
  • 5.1 需求分析:爬取哪些内容,如何设计爬取流程
    3分钟
  • 5.2 数据库设计:设计新闻列表的表结构
    14分钟
  • 5.3 页面分析:找到数据的css选择器
    9分钟
  • 5.4 页面分析:F12找到数据接口
    3分钟
  • 5.5 实现编码:解析JSON数据
    5分钟
  • 5.6 实现编码:入库新闻列表
    22分钟
  • 5.7 实现编码:入库关键字
    15分钟
  • 5.8 实现编码:已存在的数据不重复写入
    8分钟
  • 5.9 实现编码:增加数据库事务
    9分钟
  • 5.10 总结:爬虫其实就是如此的简单
    3分钟
第6章 多线程编程提高爬虫速度
共14节 | 1小时45分钟
  • 6.1 什么是多线程?
    4分钟
  • 6.2 类库threading:启动线程
    18分钟
  • 6.3 线程同步:线程Lock
    7分钟
  • 6.4 什么是线程池?
    4分钟
  • 6.5 操作线程池
    8分钟
  • 6.6 对比单线程、多线程、线程池的执行时间
    12分钟
  • 6.7 需求分析:爬取网易新闻详情页内容
    2分钟
  • 6.8 数据库设计:设计新闻详情的表结构
    6分钟
  • 6.9 页面分析:找到数据的css选择器和xpath
    5分钟
  • 6.10.1 编码:获得需要爬取数据的新闻详情列表
    4分钟
  • 6.10.2 编码:解析页面内容并生成对应的ORM对象
    10分钟
  • 6.10.3 编码:编写入库代码(事务、线程池)
    7分钟
  • 6.10.4 编码:运行程序并解决遇到的问题
    10分钟
  • 6.11 编码:增加数据是否重复爬取的校验逻辑
    8分钟
第7章 模拟登录并解决验证码的输入
共13节 | 1小时59分钟
  • 7.1 模拟登录前必须了解什么是cookie和session
    7分钟
  • 7.2 模拟登录豆瓣网,将登录成功的cookie保存在本地
    12分钟
  • 7.3 读取本地cookie,用已登录状态访问网站
    7分钟
  • 7.4 selenium:Web应用测试工具
    3分钟
  • 7.5 使用selenium模拟登录豆瓣
    19分钟
  • 7.6.1 滑动验证码-处理流程
    7分钟
  • 7.6.2 滑动验证码-模拟输入用户名和密码
    12分钟
  • 7.6.3 滑动验证码-找到无缺口的原始背景图
    12分钟
  • 7.6.4 滑动验证码-截取并保存图片
    14分钟
  • 7.6.5 滑动验证码-比较图片RGB并找到缺口的移动距离
    9分钟
  • 7.6.6 滑动验证码-实现滑块拖动逻辑
    5分钟
  • 7.6.7 滑动验证码-运行代码并修改BUG
    6分钟
  • 7.6.8 滑动验证码-增加重试逻辑
    7分钟
第8章 实战:清洗数据并发送到Kindle
共13节 | 1小时
  • 8.1 什么是数据清洗和数据分析?
    7分钟
  • 8.2.1 确认需求:新闻详情的清洗范围
    3分钟
  • 8.2.2 实施需求:SQLYog创建一张与原始表结构一样的新表
    2分钟
  • 8.2.3 编码:创建ORM对象并写入数据
    2分钟
  • 8.2.4 编码:peewee实现三张表的left join查询
    6分钟
  • 8.2.5 清洗编码:数据入库
    2分钟
  • 8.3.1 编码:解析HTML中的详情内容并组合为新闻文本
    8分钟
  • 8.3.2 编码:将新闻文本存储到本地TXT文件
    2分钟
  • 8.4.1 smtplib库:发送纯文本内容的email
    8分钟
  • 8.4.2 smtplib库:发送带附件的email
    7分钟
  • 8.5 解决163邮箱SMTP时的554垃圾邮件问题
    4分钟
  • 8.6 将新闻详情txt文件发送到Kindle
    5分钟
  • 8.7 实现微信实时接收爬虫通知
    5分钟
第9章 如何应对网站的反爬虫机制
共4节 | 18分钟
  • 9.1 各大网站为什么设置反爬虫机制?
    5分钟
  • 9.2 反爬虫机制一般有哪些手段
    4分钟
  • 9.3 什么是user-agent
    3分钟
  • 9.4 类库fake_useragent:随机模拟user-agent
    6分钟
第10章 使用Scrapy框架提高开发效率
共6节 | 48分钟
  • 10.1 什么是Scrapy?
    6分钟
  • 10.2 创建并运行第一个Scrapy项目
    10分钟
  • 10.3 使用Scrapy重新爬取网易要闻
    9分钟
  • 10.4 使用item和pipeline实现数据入库
    12分钟
  • 10.5 在Spider中发起异步Request
    8分钟
  • 10.6 通过AllowDomain过滤域名
    3分钟
第11章 总结
共3节 | 15分钟
  • 11.1 课程总结
    9分钟
  • 11.2 如何将所学到的知识应用到其它网站?
    3分钟
  • 11.3 爬虫还有哪些高级应用?
    3分钟
第12章 实战:天天基金网
共8节 | 50分钟
  • 12.1 需求分析
    4分钟
  • 12.2 判断页面数据的加载方式
    5分钟
  • 12.3 判断返回值是否可被Json类库解析
    3分钟
  • 12.4 编码:调用接口获得基金数据
    8分钟
  • 12.5 编码:将接口返回值转化为Json列表
    9分钟
  • 12.6 编码:解析Json数据并计算平均年化收益率
    12分钟
  • 12.7 编码:排序并输出Top20的基金数据
    5分钟
  • 12.8 编码:以表格形式输出基金数据
    4分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。