Python数据分析系列课程:学习文本挖掘
体系课

Python数据分析系列课程:学习文本挖掘

  • 数据挖掘与分析

从基本的分词、词袋模型、分布式表示等概念开始,多面深入学习文本挖掘技术的各个方面

¥199.9
本课程包括
  • 10小时52分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 学习文本挖掘的基本技术:分词、词袋模型、分布式表示等
  • 多面深入掌握文本挖掘的关键技术
  • 实战掌握经典案例中的文本挖掘应用方法和技术
  • 帮助学员独立使用Python环境完成各类文本挖掘工作

数千家企业正在使用三节课企业版学习

无限制学习5000+门课程,200+精选学习专题

免费申请体验>
课程介绍

文本挖掘(TM),又称自然语言处理(NLP),是AI时代炙手可热的数据分析挖掘前沿领域,其所涉及的人机对话系统,推荐算法,文本分类等技术在BAT等企业中都得到广泛应用。

本课程将使用经典武侠小说、大众点评抓取结果、微博语料数据等多个实际案例进行教学。

课程将会从基本的分词、词袋模型、分布式表示等概念开始,多面介绍文本挖掘技术的各个方面,特别会针对目前最热的word2vec,gensim 等结合实际案例进行学习,帮助学员直接升级至业界技术前沿。学习完本课程后,学员将能够独立使用Python环境完成中文文本挖掘的各种工作。

适合人群
  • 企业内对文本挖掘和数据分析感兴趣的Python工程师、软件研发工程师等
  • 适合企业中的中高级数据分析师、Python数据分析师等提升数据挖掘硬性技术能力
  • 适合目前正在数据挖掘、推荐算法、NLP等领域从事科研工作的在校生和工程师等
讲师介绍
博士,数据分析与挖掘专著的作者
擅长领域:
  • 数据挖掘与分析
张文彤老师拥有20+年数据分析/统计软件商业培训经验,精通业内广泛使用的SAS、SPSS、Modeler、R、Tableau、Python等数据分析/挖掘工具,曾作为SPSS官方培训师,从2001年起一手协助SPSS中国建立其培训体系 。
课程大纲
共0节 时长0分钟 全部收起
第1章 文本挖掘概述
共6节 | 53分钟
  • 1-1 什么是文本挖掘
    9分钟
  • 1-2 文本挖掘的基本流程和任务
    8分钟
  • 1-3 文本挖掘的基本思路
    7分钟
  • 1-4 语料数据化时需要考虑的工作
    7分钟
  • 1-5 TM常用工具介绍-1
    10分钟
  • 1-6 TM常用工具介绍-2
    13分钟
第2章 磨刀不误砍柴工
共6节 | 1小时13分钟
  • 2-1 IDE简介
    11分钟
  • 2-2 安装202004
    16分钟
  • 2-3 Notebook演示
    12分钟
  • 2-4 NLTK安装
    6分钟
  • 2-5 什么是语料库
    14分钟
  • 2-6 射雕准备
    15分钟
第3章 分词
共5节 | 44分钟
  • 3-1 分词原理简介
    8分钟
  • 3-2 结巴分词的基本用法
    9分钟
  • 3-3 自定义词典
    10分钟
  • 3-4 去除停用词
    11分钟
  • 3-5 词性标注及其他
    6分钟
第4章 词云展示
共6节 | 54分钟
  • 4-1 词频统计
    8分钟
  • 4-2 词云概述
    5分钟
  • 4-3 Wordcloud安装
    8分钟
  • 4-4 绘制词云
    13分钟
  • 4-5 设置词云背景
    9分钟
  • 4-6 修改词云颜色
    10分钟
第5章 文本信息的向量化
共9节 | 1小时23分钟
  • 5-1 词袋模型
    7分钟
  • 5-2 词袋模型的gensim实现
    11分钟
  • 5-3 用Pandas生成文档-词条矩阵
    11分钟
  • 5-4 用sklearn库生成文档-词条矩阵
    12分钟
  • 5-5 N-gram
    7分钟
  • 5-6 分布式表示
    9分钟
  • 5-7 共现矩阵
    6分钟
  • 5-8 NNLM
    5分钟
  • 5-9 word2vec
    15分钟
第6章 关键词提取
共6节 | 43分钟
  • 6-1 关键词提取的基本思路
    7分钟
  • 6-2 TF-IDF算法
    6分钟
  • 6-3 TF- IDF算法的jieba实现
    11分钟
  • 6-4 TF- IDF算法的sklearn实现
    6分钟
  • 6-5 TF-IDF算法的gensim实现
    5分钟
  • 6-6 Textrank算法
    8分钟
第7章 抽取文档主题
共4节 | 58分钟
  • 7-1 主题模型概述
    13分钟
  • 7-2 主题模型的sklearn实现
    12分钟
  • 7-3 主题模型的gensim实现
    15分钟
  • 7-4 主题模型的LDA可视化
    18分钟
第8章 文档相似度
共6节 | 53分钟
  • 8-1 基本概念
    7分钟
  • 8-2 词条相似度:Word2vec训练
    10分钟
  • 8-3 词条相似度:Word2vec应用
    9分钟
  • 8-4 词袋模型实现
    8分钟
  • 8-5 doc2vec
    10分钟
  • 8-6 文档聚类
    9分钟
第9章 文本分类
共4节 | 35分钟
  • 9-1 文本分类概述
    11分钟
  • 9-2 朴素贝叶斯算法
    7分钟
  • 9-3 算法的sklearn实现
    10分钟
  • 9-4 算法的NLTK实现
    7分钟
第10章 情感分析
共3节 | 35分钟
  • 10-1 情感分析概述
    18分钟
  • 10-2 词袋模型实现
    7分钟
  • 10-3 分布式表达实现
    10分钟
第11章 文档自动摘要
共3节 | 35分钟
  • 11-1 自动摘要的基本原理
    13分钟
  • 11-2 自动摘要的效果评价
    9分钟
  • 11-3 自动摘要的python实现
    13分钟
第12章 文本自动写作
共8节 | 1小时26分钟
  • 12-1 RNN基本原理
    14分钟
  • 12-2 LSTM的基本原理
    13分钟
  • 12-3 KT组合的优势
    5分钟
  • 12-4 KT组合的安装
    6分钟
  • 12-5 案例1数据准备
    14分钟
  • 12-6 案例1模型拟合
    11分钟
  • 12-7 案例2数据准备
    14分钟
  • 12-8 案例2模型拟合
    10分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。