你将获得

掌握某些知识点
学会某些技巧（或思路）

教学服务

1v1专属答疑服务
BAT专家面试辅导

讲师介绍

谢佳标

目前就职于一家上市游戏公司的高级数据分析师，主要利用R语言进行大数据的挖掘和可视化工作。本人从事数据挖掘建模工作已有8年，曾经从事过咨询、电商、电购、电力、游戏等行业，了解不同领域的数据特点。

课程详情

1、学习目标：
本课程结合大量的案例，让学习者可以快速掌握数据分析技能，并利用R实现各种数据挖掘模型的建立。学习完本课程，学习者能达到以下目标：1）掌握用R进行数据处理的能力；2）用R进行描述性统计分析和数据图形化；3）缺失值的清洗能力；4）用R语言建立数据挖掘模型；5）用R实现爬虫技术，用R搭建自己的app等核心技能。

2、学习对象：
数据分析师、数据科学家；
商业智能（BI）和企业数据仓库（EDW）的管理人员、建模人员、分析和开发人员、系统管理员等；
想了解和学习数据分析和数据挖掘实战的朋友。

3、学习内容：

第一周：了解数据分析基本流程，清楚数据和变量、个体、总体、样本的概念；如何安装R和包，并懂得运用其他辅助工具帮助新手快速掌握R语言。
Ø 任务一：你认为一个数据分析师，一般需要具备怎样的技能？
Ø 任务二：安装R、RStudio，并进行截屏贴图
Ø 任务三：安装Rcmdr包、rattle包、shiny包

第二周：利用R语言进行数据清洗和转换工作。包括对缺失值的处理，构建新变量，类型转化，数据排序，数据集的合并，数据集取子集等基本数据处理方法，最后使用sqldf包在R中实现sql语句对数据处理工作。
Ø 任务一：安装sqldf包，并尝试利用SQL命令对R自带数据集的iris进行Species= ‘versicolor’的数据子集
Ø 任务二：利用R自带的数据集iris，增加一个新变量type，将Species= ‘versicolor’记录的type值赋值为1，其他记录的type值赋值为2，并将type类型转化成数值型变量。

第三周：熟悉基本数据分析方法，利用描述性统计分析、频数表和列联表、相关性了解单变量、多变量和各变量间的关系。
Ø 任务一：对R语言自带的数据集mtcars，计算各变量的最大值、最小值、均值、中位数、方差、标准差；
Ø 任务二：对R语言自带的数据集iris，求出前四个变量的相关系数，并对结果进行解读。

第四周：利用图描述方法对数据进行可视化，包括常用图表和茎叶图、马赛克图、星象图、脸谱图等。
Ø 任务一：对R自带数据集VADeaths，画出族状（并列）柱形图和堆积柱形图
Ø 任务二：安装脸谱包aplpack,对数据集longley的1:9个变量画出脸谱图，并对脸谱图进行解读

第五周：清楚环比增长率和同比增长率，了解时间序列的基本原理，利用HoltWinters指数平移法和ARIMA模型进行预测，最后对游戏公司收入预测及R语言实现。
Ø 任务一：如何理解时序数据的平稳性和白噪声？
Ø 任务二：对系统自带的数据集USAccDeaths，建立ARIMA模型，并预测下一年每个月的数值。

第六周：了解回归和分类的概念，如何用R建立一元线性回归模型，多元线性回归模型，并对变量进行筛选；利用R语言实现Logic回归分析和判别分析。
Ø 任务一：利用R自带的数据集，以Speal.Length为因变量，Sepal.Width为自变量，建立一元线性回归模型（分有截距和没有截距两种情况），并判断自变量的显著性情况
Ø 任务二：对R自带的数据集swiss，以Fertility为因变量，其他为自变量，建立多元线性回归模型，并通过step( )，对模型进行调优。

第七周：熟悉处理缺失值的步骤，认识缺失值，利用可视化手段探索缺失值，对有缺失值数据进行处理。
Ø 任务一：你认为数据缺失值产生的原因，处理数据缺失值的方法？
Ø 任务二：安装VIM包，查看数据集sleep的缺失情况，并用图形探究数据缺失情况。

第八周：学习数据降维技术,包括主成分分析、因子分析、对应分析技术，并通过实际案例演示清楚这部分数据分析技术在实际数据中的应用场景。
Ø 任务一：谈谈主成分分析、因子分析的相同点和区别；
Ø 任务二：对R自带的数据集USArrests建立主成分分析模型，对模型结果进行解读，并画出碎石图。

第九周：了解常用的距离测量方法和聚类算法，利用全国区域经济数据进行距离分析案例演示；清晰关联(购物篮)分析的原理及在R的实现，并利用关联规则可视化包arulesViz对规则进行可视化展示。
Ø 任务一：对R自带的数据集USArrests建立层次聚类模型，并利用plot函数对结果进行画图；
Ø 任务二：对R自带的数据集Titanic，画出马赛克图查看数据情况，并建立关联规则模型。

第十周：熟悉决策树、bagging、随机森林、最近临近法、人工神经网络、支持向量机等在R的实现，并对分类器的性能进行评估。
Ø 任务一：对R自带的数据集iris，以Species变量为目标变量，其他变量为解释变量，利用课程中提到的算法建立分类模型（至少使用三种模型）;
Ø 任务二：对任务一建立的三个模型进行评价，找出最优模型。

第十一周：R语言爬虫篇，运用quantmod包、XML包、RCurl包进行网络数据的爬虫及处理工作；课程演示豆瓣、团购网数据爬虫的R实现。
Ø 任务一：利用quantmod包抓取Apple，Microsoft，Oracle。Google公司2011-2012年交易行情数据；
Ø 任务二：利用RCurl包爬取深圳拉手网美食的所有商家，主要信息包括商家名称、商家地址、优惠价格和原来价格。

第十二周：初探shiny包，快速用R搭建网页app应用，包括电力行业自助式数据分析平台的搭建案例演示和游戏行业的游戏数据监控平台搭建案例演示。
Ø 任务一：制作自己的第一个shiny包，标题栏是“Hello，Shiny！”。
Ø 任务二：制作具有如下功能的交互式应用：利用iris数据前四列，建立kmeans模型，并将模型进行app部署，能实现模型随着不同分类k的变化而变化。

4、参考资料
1《R导论》
2《R语言实战》
3《R语言编程艺术》
4《R in nutshell》
5《多元统计分析及R语言建模》
6《统计建模与R软件》
7 R官网
8RStudio官网

5、讲师介绍
谢佳标，从事数据分析挖掘工作超过8年，从事过咨询、电商、电购、电力、游戏等行业，了解不同领域的数据特点。精通Excel、SpssClementine、SAS、R等多种数据分析挖掘工具。目前就职于一家上市游戏公司的高级数据分析师，主要利用R语言进行大数据的分析挖掘工作。有丰富的利用R语言进行数据分析挖掘实战经验，部分研究成果曾获得国家专利。

6、PPV课
深圳市飞博远创科技有限公司位于深圳市南山区科技园，是一家专注于大数据在线教育的互联网公司，公司旨在培养具有大数据思维方式的大数据工程师和数据分析师。在坚持业务和技术结合的基础上，侧重培养学生从原始数据中获取新的市场洞察和预测分析的能力，通过企业级案例分析和实战项目练习，培养学生大数据平台建设、分析和解决方案的能力，让学生成为能够广泛运用数据分析手段管理和优化企业运营的大数据人才。我们拥有2000多课时的网络课程和近20人的专业教师队伍，用户数超过8万人，是国内最活跃的大数据学习社区之一。我们服务过的客户包括上海晟碟、广州流行美、广东省省情调研中心、深圳大学、太原科技大学等企业和学校。
2014年6月成立CDA数据分析师广东培训中心，累计培养学员数百人；
2015年6月成立广东大数据青年人才培养基地，华南区第一家提供数据挖掘系统培训的企业；
2015年9月进入《深圳市2015年科技创新券服务机构入库名单》；
2015年10月联合深圳多家单位联合成立“数据创客实验室”，打造“大数据+创客”服务平台。

7、PPV课答疑群
R语言 476523228 （凭报名审核进群）