课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

课程详情

课程简介:

 课程首先详细讲解pandas最重要的两种数据结构——Series和DataFrame,然后过渡到9种pandas的核心API,最后手把手带你模拟一个实战项目,用pandas清洗出数据指标,让你快速上手pandas成为规模数据处理达人。

 

ETL简介:

ETL(ETL - Extract, Transform, Load),从源系统中提取数据并将其引入数据仓库的过程通常称为ETL,即提取,转换和加载。

ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

pandas是一个可以做E(提取数据)T(转换数据)L(加载数据)工作的Python库,本课程将围绕pandas展开详细的学习。

 

老师简介:

Dico

芒果TV大数据服务架构师

8年开发经验,近几年从事大数据相关处理工作,主导了某在线视频媒体平台数据仓库建设、画像平台建设和推荐平台建设。具有丰富的PB级海量数据仓库架构、核心团队带队、海量数据处理经验,擅长Hadoop,Spark,Hive,Sqoop,Presto,Mahout,Storm等等大数据技术。

 

课程目录:

1、应用场景列举和设计的相关库

2、序列的几种构造方法

3、如何取出序列的数据

4、DataFrame讲解

5、创建对象查看数据

6、选择、缺失数据处理

7、数据操作、合并与分组、行列转换、时间序列、I&O操作

8、实战演练——广告和视频的结构

9、实战演练--广告数据的构成、指标的解释

10、实战演练--数据的收集

11、实战演练--广告指标业务分析 (构设一个nginx服务器)

12、课程里使用的广告数据模拟逻辑

13、投放数据与播放数据拆分

14、投放数据与播放数据清洗

15、实战演练--广告流失、升位统计