Python应用技术:网页抓取
知识小课

Python应用技术:网页抓取

  • Python

Python应用技术:网页抓取与数据提取

¥568
本课程包括
  • 3小时50分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
课程合作品牌
Gateway 迅佰汇
你将收获
  • 掌握网页抓取技术:学员将学习如何使用Python编程语言进行网页抓取和数据提取
  • 学员将学习如何编写Python脚本来自动化网页抓取过程。
  • 学员将学习如何从网页中收集大量数据,并使用Python进行数据清洗和预处理。
  • 他们将学习如何使用Python库(例如Beautiful Soup和Scrapy)来解析HTML和XML文档,提取所需的数据,并将其存储在适当的格式中。

数千家企业正在使用三节课企业版学习

无限制学习5000+门课程,200+精选学习专题

免费申请体验>
课程介绍

《Python应用技术:网页抓取》是一门专门针对Python网络爬虫技术的课程。首先,课程将介绍网页抓取的基本概念,包括什么是网页抓取以及网页抓取的道德规范。接着,课程将引导您设置Python和Jupyter的环境,并讲解如何安装Anaconda和相关的程序包。进入实战阶段,课程将深入讲解如何使用API进行操作,包括API的基本概念,HTTP的获取请求与发送请求,以及如何处理JSON数据。您将有机会通过实践学习如何创建一个简单的货币转换器,以及如何使用iTunes API和GitHub API。接下来,课程将介绍HTML的基本概念,包括HTML的结构、语法、标签、属性,以及CSS和Java脚本的基本知识。然后,课程将教您如何使用Beautiful Soup进行网页抓取,包括如何检索和导航HTML树图,如何从HTML标签中提取数据,以及如何自动抓取多个页面。课程的最后部分是一个实践项目,您将学习如何抓取烂番茄网站的电影信息,并以结构化的形式存储和导出数据。此外,课程还将介绍如何使用Pandas抓取HTML表格,以及如何处理网页抓取中常见的问题。总的来说,这门课程将为您提供一套全面的Python网页抓取工具和技巧,帮助您在数据获取的道路上更进一步。

适合人群
  • 对Python感兴趣的初学者
  • 数据分析师
  • 业务分析师
  • 市场营销专业人员
讲师介绍
让世界因人才而非同凡响
擅长领域:
  • 领导力
  • 团队管理
  • 绩效提升
  • 团队协作
  • 高效办公
  • 时间管理
  • 目标管理
  • 绩效管理
GATEWAY是 CONNECTUS 康耐仕集团的独立品牌,专注于领导力发展与学习管理外包项目,我们来自于新加坡,所在集团在亚太地区有 450+ 雇员。成立以来,我们以使命驱动,帮助了许多世界 500 强和国内的知名企业,解决了他们一个又一个的组织管理和人才发展方面遇到的挑战。从初次合作到持续采购,客户感受到 GATEWAY 的专业服务和以客户为中心的合作精神。
课程大纲
共0节 时长0分钟 全部收起
一、课程介绍 Course Introduction
共3节 | 10分钟
  • 课程涵盖的内容 Course content
    4分钟
  • 什么是网页抓取 What is web scraping
    3分钟
  • 网页抓取的道德规范 Code of Ethics for Web Scraping
    3分钟
二、设置环境 Set up the environment
共6节 | 19分钟
  • 设置环境-请勿跳过!Set up the environment - don't skip!
    1分钟
  • 为什么选择Python和Jupyter?Why choose Python and Jupyter?
    5分钟
  • 安装Anaconda Install Anaconda
    3分钟
  • Jupyter控制面板(一)Jupiter Control Panel (1)
    3分钟
  • Jupyter控制面板(二)Jupiter Control Panel (2)
    5分钟
  • 安装程序包 Install the package
    2分钟
三、使用API进行操作 Use the API to do
共12节 | 46分钟
  • API概述 API Overview
    4分钟
  • HTTP的获取请求与发送请求 HTTP Get Request and Send Request
    3分钟
  • API的JSON首选数据交换格式 The preferred data exchange format for JSON for the API
    2分钟
  • 获得JSON响应的汇率API Exchange rate API to get JSON responses
    5分钟
  • 在获取请求中加入参数 Add parameters to the fetch request
    3分钟
  • 额外的API功能 Additional API features
    5分钟
  • 创建一个简单的货币转化器 Create a simple currency converter
    5分钟
  • iTunes API
    5分钟
  • 构建iTunes API并导出数据 Build iTunes API and export data
    2分钟
  • GitHub API分页 GitHub API pagination
    4分钟
  • EDAMAM API初始设置与注册EDAMAM API Initial Setup & Registration
    3分钟
  • EDAMAM API发出发送请求 EDAMAM API Make and send requests
    4分钟
四、HTML概述 HTML overview
共8节 | 40分钟
  • 什么是HTML?What is HTML?
    3分钟
  • HTML的结构 The structure of the HTML
    3分钟
  • HTML的语法——标签 The syntax of HTML - tags
    6分钟
  • 标签属性 Tag attribute
    6分钟
  • 常用标签 Common tags
    7分钟
  • CSS与Java脚本 CSS vs. Java Script
    6分钟
  • 字符编码 Character encoding
    6分钟
  • XHTML与编码样式 XHTML and Encoding Styles
    2分钟
五、使用Beautiful Soup进行网页抓取 Use Beautiful Soup for web scraping
共9节 | 45分钟
  • 介绍Beautiful Soup程序包 Introducing the Beautiful Soup package
    2分钟
  • 网页抓取的工作流程 Workflow for web scraping
    7分钟
  • 设置第一个网络铲 Set up the first network shovel
    3分钟
  • 检索并导航HTML树图 Retrieve and navigate the HTML treemap
    7分钟
  • 从HTML树图中提取数据 Extract data from HTML treemap
    3分钟
  • 从HTML标签中提取文本 Extract text from HTML tags
    5分钟
  • 处理链接的实际案例 Practical cases for dealing with links
    6分钟
  • 从嵌套HTML标签中提取数据 Extract data from nested HTML tags
    5分钟
  • 自动抓取多个页面 Automatically crawl multiple pages
    8分钟
六、实践项目:烂番茄网页抓取 Hands-on project: Rotten Tomatoes web scraping
共5节 | 25分钟
  • 设置网络铲 Set up a web shovel
    4分钟
  • 提取每部电影的标题与年份 Extract the title and year of each movie
    7分钟
  • 提取剩余的信息 Extract the remaining information
    6分钟
  • 处理电影中的演员 Dealing with actors in films
    5分钟
  • 以结构化的形式存储并导出数据 Store and export data in a structured form
    3分钟
七、抓取HTML表格 Scrape HTML tables
共1节 | 6分钟
  • 利用Pandas抓取HTML表格 Leverage Pandas to scrape HTML tables
    6分钟
八、抓取时遇到的常见问题 Common problems encountered while scraping
共1节 | 13分钟
  • 网页抓取时常见的问题Common problems encountered while web scraping
    13分钟
九、请求-html程序包 request -html package
共5节 | 26分钟
  • 介绍请求-html程序包 Introducing the request-html package
    2分钟
  • 探索请求-html的网页抓取功能 Explore the web scraping capabilities of request-html
    6分钟
  • 检索文本 Retrieve the text
    3分钟
  • CSS选择器 CSS selectors
    9分钟
  • 抓取Java脚本 Scrape Java scripts
    6分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。