课程大纲
每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。
编号 | 主题 | 简介 |
---|---|---|
11 | Linux基础 | 简介、优势、常用操作等 |
12 | R基础 | 发展史、生物学中应用、ggplot2绘图 |
13 | 统计学基础 | 常用统计知识、方法和R语言的实现 |
14 | 群体基因组学 | 概念、发展史、研究中的应用、图表解析 |
15 | 重测序数据实战 | 从原始数据评估,比对 |
16 | SNP鉴定 | GATK、samtools和bcftools工具检测SNP |
21 | 全基因组进化分析 | 系统进化树构建和iTOL在线美化 |
22 | 从头组装 | 重测序数据进行无参考基因组的从头组装 |
23 | 基因注释 | 基因预测,功能域预测,功能注释等 |
24 | 群体遗传学 | 概念、发展史、模型的介绍 |
25 | 群体分析1 | 遗传多样性参数计算 |
26 | 数据格式格式转换 | vcf数据格式、plink数据格式的介绍与转换 |
31 | 群体分析2 | Fst种群分化参数计算和PCA聚类分析 |
32 | 群体分析3 | 连锁不平衡分析和单倍型分析 |
33 | 群体分析4 | 种群结构分析 |
34 | 群体分析5 | 基因流分析 |
35 | 群体分析6 | GWAS概念的介绍、发展史、应用案例分析 |
36 | 群体分析6 | GWAS从头开始分析和上机操作 |
41 | 2周后在线答疑 | 知识点回顾、答疑 |
教程内容简介如下:
一、生信基础
Linux Shell和R语言是学习生信的两个基础程序语言,是后续分析和绘图的基础,保证你高效、稳定的使用群体基因组数据分析平台。
Shell和R学习大纲,首创Rstuio中鼠标点击可完成Shell脚本和R语言分析,既打开生信的大门,又不会增加生物学家时间成本
二、图表解读和绘制专题
针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措的情况。在培训上,我们将结合发表高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。
针对大家使用R语言绘图学习时间成本较高的问题,易生团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。
16种常用图形的表达的意义、使用场景和绘制。可使用我们的在线绘图工具实现。
三、群体基因组学理论和数据分析流程
群体基因组学背景知识
-
背景:
人类基因组计划(HGP)、大人群基因组计划(英国500万人基因组计划、美国百万退伍军人项目、法国基因组医学2025、澳大利亚基因组健康未来使命、中国百万人群全基因组测序计划)
-
研究对象:
人、动物、植物、微生物
-
研究方法:
表型数据收集、全基因组测序、全外显子组测序、长片段基因组测序、群组测序、单细胞测序等
-
群体基因组学的研究热点:
物种形成与分化、种质资源、农业育种、精准医疗、GWAS
-
群体基因组学分析基本原理:
变异、自然选择、中性理论、种群历史、选择清除等群体遗传学理论
-
实验设计:
样品制备和建库中的误区
-
文章套路:
群体基因组分析SCI文章的物种形成、揭示性状调控相关基因常用套路
-
主流分析方法的适用范围:
系统发育树构建、群体结构分析、GWAS等方法
群体基因组数据分析流程
-
实验设计的编写
-
HiSeq/MiSeq数据的质控:
fastqc, Trimmomatic, mulitqc
-
质控流程:
切除接头序列adaptor、去除低值碱基、质控
-
检测SNP:
clean reads回帖到参考基因组序列上,GATK、samtools和bcftools工具检测SNP
-
高质量SNP筛选:
GATK与samtools两种方法同时检测到的一致性的高质量SNP
-
全基因组进化树构建:
进化树模型和软件的选择,在线美化系统发育树 (iTol)
-
从头组装全基因组数据和新基因的预测:
针对测序深度较高的样本 (>50X)
四、群体遗传多样性高级分析
对于可重复计算要求比较高、对细节有进一步分析要求的学员,我们还会教大家当前最顶级的R语言统计分析框架,让你零基础轻松实现可重复计算,满足顶级文章的代码公开和网页可重复要求(这些资源在生信公司是价格几十万的绝密流程代码,一般人是没有机会见到的)。
-
遗传多样性各种指数:
π、θ、Tajima‘D等,并配合生物统计计算显著性
-
种群分化系数的计算,展示种群间差异
-
主成分分析 (PCA),展示种群间差异
-
连锁不平衡衰减图,snp之间的间距大于500k或者1M停止计算,预测半衰期
-
种群结构分层分析,预测种群数目和比例
-
基因流分析,预测不同种群之间发生的基因流
五、GWAS分析
-
学习GWAS分析原理、常用结果展示样式及文章解读
实战进行官网、本地、在线分析,并对结果进行整理,方便R分析
-
对于不满足只用
GenABEL
工具做GWAS
分析,可以提供Fastlmm
软件进行分析的流程 -
深度解析Q-Q图和曼哈顿图
-
检测的显著SNP位点与基因功能的相关性
往期精彩回顾
主讲教师
主讲老师包括中科院微生物所多名本领域一线技术专家。
段守富,博士,2018毕业于中科院微生物研究所,微生物学专业博士,在Nature Communications
, Current Biology
等高水平杂志以第一作者发表文章,从事分析群体基因组学领域已有7年。(生信宝典注:这篇NC本来是应该发在Nature的,但被老外合作者不正当抢走了。拿走了我们的样品,招呼不打就发出了。)
贺鹏宇,中科院微生物硕博连续在读博士生(5年级)。熟悉群体基因组数据的处理及下游差异统计分析工作。目前主要研究方向为奇异酵母及非常见酿酒酵母的物种进化。
张日鹏,中科院微生物硕博连续在读博士生(3年级)。掌握群体基因组数据分析的基本流程和经验,得到了实验室数据分析的理论和实战的锻炼。目前主要研究方向为酿酒酵母碳代谢和絮凝能力的进化机制。
助教团队
十余名中国科学院、清华、北大博士(含在读),轮值讲师和助教,辅助学员学习和矫正培训过程中不足的点。
授课模式
本课程以讲解流程和实际操作为主,采用独创四段式教学:
-
第一阶段 3天集中授课;
-
第二阶段 自行练习2周;
-
第三阶段 在线直播答疑;
-
第四阶段 培训视频继续学习;
-
实现教-练-答-用四个环节的统一协调。