GEO是当今最大、最全的公共基因数据资源库,包括基因的表达、突变、修饰等信息,涵盖几乎所有的疾病,且单个实验检测样品数目较多。TCGA数据库包含11,000个病人的33种肿瘤的7个不同层面的基因数据 (包括基因表达、CNV,SNP,DNA甲基化,miRNA,外显子组等)和临床数据,意在解析癌症发生的分子机制、肿瘤的亚型和治疗靶点等。
这两个来源的数据都是对外公开的,是学习、研究和应用的一个资源宝库。从2006年TCGA计划启动以来,基于TCGA数据发表的文章呈指数增加,一大部分来源于对TCGA数据的再次挖掘。因此学习利用生物信息技术挖掘GEO/TCGA公共数据中疾病的分子特征、合适的检测指标具有重要的临床和科研价值。本课程将从GEO/TCGA的表达、突变数据入手,探索公共数据挖掘的基本套路,分享数据分析和可视化的思路和代码,以便应用于自己的研究。
每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。利用自己电脑,轻松实现整套分析。如果有基础,可以多理解代码内容,做更多定制。如果基础弱一些,只需修改几个备注的变量,即可完成全部分析。下面是课程安排: