《Python应用技术：网页抓取》是一门专门针对Python网络爬虫技术的课程。首先，课程将介绍网页抓取的基本概念，包括什么是网页抓取以及网页抓取的道德规范。接着，课程将引导您设置Python和Jupyter的环境，并讲解如何安装Anaconda和相关的程序包。进入实战阶段，课程将深入讲解如何使用API进行操作，包括API的基本概念，HTTP的获取请求与发送请求，以及如何处理JSON数据。您将有机会通过实践学习如何创建一个简单的货币转换器，以及如何使用iTunes API和GitHub API。接下来，课程将介绍HTML的基本概念，包括HTML的结构、语法、标签、属性，以及CSS和Java脚本的基本知识。然后，课程将教您如何使用Beautiful Soup进行网页抓取，包括如何检索和导航HTML树图，如何从HTML标签中提取数据，以及如何自动抓取多个页面。课程的最后部分是一个实践项目，您将学习如何抓取烂番茄网站的电影信息，并以结构化的形式存储和导出数据。此外，课程还将介绍如何使用Pandas抓取HTML表格，以及如何处理网页抓取中常见的问题。总的来说，这门课程将为您提供一套全面的Python网页抓取工具和技巧，帮助您在数据获取的道路上更进一步。

适合人群

对Python感兴趣的初学者
数据分析师
业务分析师
市场营销专业人员

讲师介绍

Gateway 迅佰汇查看讲师主页

让世界因人才而非同凡响

擅长领域:

领导力
团队管理
绩效提升
团队协作
高效办公
时间管理
目标管理
绩效管理

GATEWAY是 CONNECTUS 康耐仕集团的独立品牌，专注于领导力发展与学习管理外包项目，我们来自于新加坡，所在集团在亚太地区有 450+ 雇员。成立以来，我们以使命驱动，帮助了许多世界 500 强和国内的知名企业，解决了他们一个又一个的组织管理和人才发展方面遇到的挑战。从初次合作到持续采购，客户感受到 GATEWAY 的专业服务和以客户为中心的合作精神。

课程大纲

共0节时长0分钟全部收起

一、课程介绍 Course Introduction

共3节 | 10分钟

课程涵盖的内容 Course content

4分钟
什么是网页抓取 What is web scraping

3分钟
网页抓取的道德规范 Code of Ethics for Web Scraping

3分钟

二、设置环境 Set up the environment

共6节 | 19分钟

设置环境-请勿跳过！Set up the environment - don't skip!

1分钟
为什么选择Python和Jupyter？Why choose Python and Jupyter？

5分钟
安装Anaconda Install Anaconda

3分钟
Jupyter控制面板（一）Jupiter Control Panel (1)

3分钟
Jupyter控制面板（二）Jupiter Control Panel (2)

5分钟
安装程序包 Install the package

2分钟

三、使用API进行操作 Use the API to do

共12节 | 46分钟

API概述 API Overview

4分钟
HTTP的获取请求与发送请求 HTTP Get Request and Send Request

3分钟
API的JSON首选数据交换格式 The preferred data exchange format for JSON for the API

2分钟
获得JSON响应的汇率API Exchange rate API to get JSON responses

5分钟
在获取请求中加入参数 Add parameters to the fetch request

3分钟
额外的API功能 Additional API features

5分钟
创建一个简单的货币转化器 Create a simple currency converter

5分钟
iTunes API

5分钟
构建iTunes API并导出数据 Build iTunes API and export data

2分钟
GitHub API分页 GitHub API pagination

4分钟
EDAMAM API初始设置与注册EDAMAM API Initial Setup & Registration

3分钟
EDAMAM API发出发送请求 EDAMAM API Make and send requests

4分钟

四、HTML概述 HTML overview

共8节 | 40分钟

什么是HTML？What is HTML?

3分钟
HTML的结构 The structure of the HTML

3分钟
HTML的语法——标签 The syntax of HTML - tags

6分钟
标签属性 Tag attribute

6分钟
常用标签 Common tags

7分钟
CSS与Java脚本 CSS vs. Java Script

6分钟
字符编码 Character encoding

6分钟
XHTML与编码样式 XHTML and Encoding Styles

2分钟

五、使用Beautiful Soup进行网页抓取 Use Beautiful Soup for web scraping

共9节 | 45分钟

介绍Beautiful Soup程序包 Introducing the Beautiful Soup package

2分钟
网页抓取的工作流程 Workflow for web scraping

7分钟
设置第一个网络铲 Set up the first network shovel

3分钟
检索并导航HTML树图 Retrieve and navigate the HTML treemap

7分钟
从HTML树图中提取数据 Extract data from HTML treemap

3分钟
从HTML标签中提取文本 Extract text from HTML tags

5分钟
处理链接的实际案例 Practical cases for dealing with links

6分钟
从嵌套HTML标签中提取数据 Extract data from nested HTML tags

5分钟
自动抓取多个页面 Automatically crawl multiple pages

8分钟

六、实践项目：烂番茄网页抓取 Hands-on project: Rotten Tomatoes web scraping

共5节 | 25分钟

设置网络铲 Set up a web shovel

4分钟
提取每部电影的标题与年份 Extract the title and year of each movie

7分钟
提取剩余的信息 Extract the remaining information

6分钟
处理电影中的演员 Dealing with actors in films

5分钟
以结构化的形式存储并导出数据 Store and export data in a structured form

3分钟

七、抓取HTML表格 Scrape HTML tables

共1节 | 6分钟

利用Pandas抓取HTML表格 Leverage Pandas to scrape HTML tables

6分钟

八、抓取时遇到的常见问题 Common problems encountered while scraping

共1节 | 13分钟

网页抓取时常见的问题Common problems encountered while web scraping

13分钟

九、请求-html程序包 request -html package

共5节 | 26分钟

介绍请求-html程序包 Introducing the request-html package

2分钟
探索请求-html的网页抓取功能 Explore the web scraping capabilities of request-html

6分钟
检索文本 Retrieve the text

3分钟
CSS选择器 CSS selectors

9分钟
抓取Java脚本 Scrape Java scripts

6分钟

购课须知

课程有效期：

自购买课程之日起 365 天，部分参与营销活动产品以活动规则为准，请同学在有效期内学习、观看课程。

上课模式：

课程采取录播模式，请注意自学课无班级微信群、班主任带班及助教批改服务。

注：自学课不支持退款，确保你是真的需要再进行报名，报完名之后还请认真学习。

点击下载
三节课App 微信扫码
关注三节课公众号