课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

课程详情

关于课件
购买课程后请移至【电脑】浏览器本课程的【课程概述】最下方  获取课件资料。



课程介绍

大数据时代有很多有价值的数据等待着挖掘,但是由于数据太大,动辄上G。而且数据大多是文本数据,而Excel、SPSS、Stata传统软件很难处理文本数据。本课程主要面向经管人文社科科研工作者,希望我的Pandas数据分析课程能够帮助大家处理大规模文本数据,加速学习、科研和工作需要。
本课程没有数据采集部分,课程重点是对非结构化的文本数据的清洗和分析。

 

使用Python可以帮助我们加速洞察的广度和速度,假设你需要研究几千家公司数十年的报告,需要你标记出

- 公司发生重大政策变化的年份

- 外部环境发生重大变化的年份

 

如果靠人工去挖掘这两类信息,很难,不具有可实施性。但熟悉Python的人,会借助Pandas粗略的绘制出每一个公司年报前后年份的相似性曲线,再用人工去读图。就会很快的识别出或政策或环境发生变化的时间点。

 

下图是Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018. 

 

文中的一图。我们知道前后年份相似性越小,说明该年份前后发生了很大的​改变。图中红色位置很辣眼睛,每家公司的报告通过一个简单的图,帮我们瞬间锁定2010​年前后报告中含有某些重大变故。


 

一、初识pandas

  • Pandas简介

  • 快速上手一个小案例

 

二、数据类型

  • pandas的数据类型

  • pd.Series

  • pd.DataFrame

  • 创建DataFrame的方式

 

三、数据读取与存储

  • pd.read_csv/pd.read_excel

  • 文件的数据编码encoding很重要

  • 读取json文件中的数据

  • 数据存储(导出)

 

四、DataFrame数据操作

  • 数据去重和缺失值处理

  • 行数据选取

  • 选取多个列(字段)

  • 选中某列(字段)进行操作-apply方法

  • 选中多个列(字段)进行操作

 

 

五、可视化(绘图)

  • python相关可视化库介绍

  • 如何用pandas绘图(可视化)

  • 中文显示问题解决办法

 

六、文本数据处理

  • 中文分词处理

  • 案例1:情感分析

  • 案例2: 使用文本相似性识别政策冲击(改变)

 

七、时间序列

  • 日期格式统一

  • 选取指定日期的数据

 

八、数据合并与重塑

  • 同构数据合并pd.concat

  • 异构数据合并pd.merge

  • df.pivot_table透视表

  • 数据分组groupby

 

温馨提示
  • 请勿私下交易
    请勿在平台外交易。与机构和老师私下交易造成的任何损失及纠纷,腾讯课堂不承担任何责任
  • 听课说明

    1、电脑:访问腾讯课堂官网 ke.qq.com 查看我的课表或下载win/mac客户端听课

    2、手机/平板:下载腾讯课堂APP, 进入学习页面听课