大家好,我是孟浩巍。很高兴能够在腾讯课堂与大家见面!
我目前就读与北京大学生命科学学院,正在攻读博士学位,在5年学习生物信息学分析的过程中积累了大量经验,很愿意分享给大家。
之前在某乎平台,我创建了一系列在线课程,先后有6000人参与并获得全部好评。
此外,我还创建了名为【生信坑】的生物信息学问答网站,欢迎大家有问题到网站上进行交流!我们在【生信坑】也会每周推送生信领域最信,最热的文章,并进行简要导读。(可以百度搜索【生信坑】)
课程介绍
学习生物信息学,总也绕不过去的便是统计学的学习了。
很多时候,生物信息学数据分析的好坏,很大程度上由一个人的统计思维,或者统计数据分析能力决定。拥有良好统计思维与统计技能的你,往往会成为课题或者项目推动的核心力量。但是无论是大学还是研究生的教学过程中,与生物信息学相关的专业往往会淡化数学尤其是统计的学习与统计思维的培养,给我们以后的工作和深造带来了很多困扰。
说回统计学本身,她其实是一门偏应用的数学学科,属于数学里相对来说比较容易的部分,所以大家一定要克服畏难情绪,在学习统计的时候一定要先告诉自己:统计学是一门非常容易学习的科目。
我之前写过一篇关于生物信息学相关的统计学入门路线的文章,原文相对较长,我在这里给大家简单概括。我认为生物信息学相关的统计主要是分成3个部分:1是常见的一元统计,包含最基础的概念及常用检验,简单的线性回归,方差分析等等;2是多元统计部分,理论推导比较麻烦,在生信里主要是偏应用,大家熟悉的主成分分析(PCA),奇异值分解(SVD),逻辑斯蒂回归等都是属于这个部分的;3是一些常用的其他统计技能,比如与统计学习,机器学习相关的支持向量机(SVM),决策树,回归树,常见降维方法,概率图模型(最常见的如隐马模型),以及一些生信里常用软件内包含的统计学等等。
本次我们的课程主要是把精力集中在多元统计分析的应用层面上。多元统计分析和一元统计的学习不同,更多的是强调实用性,也就是说面对一个真实复杂的数据,真的要应用某种多元统计的技术去解决对应问题。
那么本次我们课程的主要内容主要是以实际应用为导向,在理解数学原理的基础上更重要的是要学会如何应用这些技术去,所以本次课程除了讲解数学原理,还会带着大家使用R语言对真实的数据进行分析,并把代码分享给大家!
课程大纲
- 线性代数中的一些基础知识复习;
- 矩阵的理解;
- 矩阵乘法的本质;
- 矩阵的行列式的空间解释;
- 矩阵的特征值;
- 相似矩阵
- 矩阵的对角化与谱分解
- 数据为导向分析思维的养成
- 传统统计学的弊端
- 数学科学的必要性
- 主成分分析(PCA)
- 主成分分析的通俗理解;
- 使用主成分分析的先决条件;
- 主成分分析的数学实现步骤;
- 使用GTEx RNA-Seq表达谱数据进行PCA分析;
- 直接使用包计算
- 手动计算PCA
- 主成分分析常用分析图表的绘制
- 聚类分析
- 层次聚类
- K-means聚类
- 聚类问题中的常用距离计算方法
- R语言中聚类分析的实现与图表绘制
- tSNE
- 信息熵与KL散度
- tSNE的数学原理
- tSNE的与PCA的比较
- tSNE的应用案例
- 奇异值分解(SVD)
- SVD的数学原理
- SVD的应用案例
- MDS
- MDS的数学原理
- MDS的应用案例
- 多元回归
- 常用的回归方法
- 多元回归结果的分析与选择
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
上课笔记
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
绘图展示
下面若干张图表全部会在上课过程中绘制展示,报名即可获得代码及对应测试数据!