你将获得

掌握某些知识点
学会某些技巧（或思路）

教学服务

1v1专属答疑服务
BAT专家面试辅导

课程详情

关于课件
购买课程后请移至【电脑】浏览器本课程的【课程概述】最下方获取课件资料。

课程介绍

大数据时代有很多有价值的数据等待着挖掘，但是由于数据太大，动辄上G。而且数据大多是文本数据，而Excel、SPSS、Stata传统软件很难处理文本数据。本课程主要面向经管人文社科科研工作者，希望我的Pandas数据分析课程能够帮助大家处理大规模文本数据，加速学习、科研和工作需要。
本课程没有数据采集部分，课程重点是对非结构化的文本数据的清洗和分析。

使用Python可以帮助我们加速洞察的广度和速度，假设你需要研究几千家公司数十年的报告，需要你标记出

- 公司发生重大政策变化的年份

- 外部环境发生重大变化的年份

如果靠人工去挖掘这两类信息，很难，不具有可实施性。但熟悉Python的人，会借助Pandas粗略的绘制出每一个公司年报前后年份的相似性曲线，再用人工去读图。就会很快的识别出或政策或环境发生变化的时间点。

下图是Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.

文中的一图。我们知道前后年份相似性越小，说明该年份前后发生了很大的改变。图中红色位置很辣眼睛，每家公司的报告通过一个简单的图，帮我们瞬间锁定2010年前后报告中含有某些重大变故。

一、初识pandas

Pandas简介
快速上手一个小案例

二、数据类型

pandas的数据类型
pd.Series
pd.DataFrame
创建DataFrame的方式

三、数据读取与存储

pd.read_csv/pd.read_excel
文件的数据编码encoding很重要
读取json文件中的数据
数据存储(导出)

四、DataFrame数据操作

数据去重和缺失值处理
行数据选取
选取多个列（字段）
选中某列（字段）进行操作-apply方法
选中多个列(字段)进行操作

五、可视化（绘图）

python相关可视化库介绍
如何用pandas绘图(可视化)
中文显示问题解决办法

六、文本数据处理

中文分词处理
案例1：情感分析
案例2: 使用文本相似性识别政策冲击(改变)

七、时间序列

日期格式统一
选取指定日期的数据

八、数据合并与重塑

同构数据合并pd.concat
异构数据合并pd.merge
df.pivot_table透视表
数据分组groupby

暂无课程目录～

暂无用户评论～

温馨提示

请勿私下交易
请勿在平台外交易。与机构和老师私下交易造成的任何损失及纠纷，腾讯课堂不承担任何责任
听课说明
1、电脑：访问腾讯课堂官网 ke.qq.com 查看我的课表或下载win/mac客户端听课
2、手机/平板：下载腾讯课堂APP, 进入学习页面听课