购买课程后请移至【电脑】浏览器本课程的【课程概述】最下方 获取课件资料。
课程介绍
大数据时代有很多有价值的数据等待着挖掘,但是由于数据太大,动辄上G。而且数据大多是文本数据,而Excel、SPSS、Stata传统软件很难处理文本数据。本课程主要面向经管人文社科科研工作者,希望我的Pandas数据分析课程能够帮助大家处理大规模文本数据,加速学习、科研和工作需要。
本课程没有数据采集部分,课程重点是对非结构化的文本数据的清洗和分析。
使用Python可以帮助我们加速洞察的广度和速度,假设你需要研究几千家公司数十年的报告,需要你标记出
- 公司发生重大政策变化的年份
- 外部环境发生重大变化的年份
如果靠人工去挖掘这两类信息,很难,不具有可实施性。但熟悉Python的人,会借助Pandas粗略的绘制出每一个公司年报前后年份的相似性曲线,再用人工去读图。就会很快的识别出或政策或环境发生变化的时间点。
下图是Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.
文中的一图。我们知道前后年份相似性越小,说明该年份前后发生了很大的改变。图中红色位置很辣眼睛,每家公司的报告通过一个简单的图,帮我们瞬间锁定2010年前后报告中含有某些重大变故。
一、初识pandas
-
Pandas简介
-
快速上手一个小案例
二、数据类型
-
pandas的数据类型
-
pd.Series
-
pd.DataFrame
-
创建DataFrame的方式
三、数据读取与存储
-
pd.read_csv/pd.read_excel
-
文件的数据编码encoding很重要
-
读取json文件中的数据
-
数据存储(导出)
四、DataFrame数据操作
-
数据去重和缺失值处理
-
行数据选取
-
选取多个列(字段)
-
选中某列(字段)进行操作-apply方法
-
选中多个列(字段)进行操作
五、可视化(绘图)
-
python相关可视化库介绍
-
如何用pandas绘图(可视化)
-
中文显示问题解决办法
六、文本数据处理
-
中文分词处理
-
案例1:情感分析
-
案例2: 使用文本相似性识别政策冲击(改变)
七、时间序列
-
日期格式统一
-
选取指定日期的数据
八、数据合并与重塑
-
同构数据合并pd.concat
-
异构数据合并pd.merge
-
df.pivot_table透视表
-
数据分组groupby