参考题目
1. 人类基因组的外显子区域的长度
下载人类外显子的坐标文件,编写代码统计外显子区域的长度
2. hg19基因组序列的一些探究
求hg19 每条染色体长度,每条染色体N的含量,GC含量。
3. hg38每条染色体的基因、转录本分布
对GTF注释文件进行探究,统计每条染色体基因数、转录本数、内含子数、外显子数。
4. 多个同样行列式文件的合并
将htseq-count生成的所有独立样本文件进行合并(每个样品对应一个文件,包括了所有基因表达量)
5. 根据GTF画基因的多个转录本结构
从NCBI,ENSEMBL,UCSC,GENCODE数据库下载各种GTF注释文件,编写代码得到所有基因的转录本个数,以及每个转录本的外显子的坐标,绘制如下转录本结构图
6. 下载最新版的KEGG信息,并且解析
下载最新版的KEGG注释文本文件,编写脚本整理成kegg的pathway的ID与基因ID的对应格式。
7. 写超几何分布检验
学习GO/KEGG的富集分析的原理,编写代码实现超几何分布检验,将得到的结果与测试数据中的kegg.enrichment.html进行比较。
根据指定染色体及坐标得到序列↩
8. ID转换
probeid,geneid,gene_name, symbol之间的转换。
9. 根据指定染色体及坐标得到序列
基因的chr,start,end都是已知的(坐标是hg38系统),任意给定基因组的chr:pos(chr1:2075000-2930999), 判断该区间在哪个基因上面?(可用现成软件bedtools)
10. 把文件内容按照染色体分开写出
根据染色体把文件拆分成1~22和其它染色体的两个文件
JSON格式数据的格式化↩
11. JSON格式数据的格式化
学习json格式,下载测试数据,从该json文件里面提取:technique factor target principal_investigator submission label category type Developmental-Stage organism key这几列信息。
12. 多个探针对应一个基因,取平均值、最大值
编写脚本对多个探针对应一个基因,取平均值、最大值。
13. 对有临床信息的表达矩阵批量做生存分析
使用R实现生存分析
14. 对多个差异分析结果直接取交集并集
编写脚本对每两个差异分析结果计算基因交集个数与基因并集个数的比值,得到一个比值矩阵。
15. 根据GTF格式的基因注释文件得到人所有基因的染色体坐标
从gencode数据库里面可以下载所有的gtf文件,编写脚本得到基因的染色体、起始终止坐标
课程介绍
课程目录
往期学员作品
用户评论
课程介绍
课程目录
往期学员作品
用户评论
你将获得
- 掌握某些知识点
- 学会某些技巧(或思路)
教学服务
1v1专属答疑服务
BAT专家面试辅导
讲师介绍
曾健明
生信菜鸟团博客博主,生信技能树创始人兼负责人。 生物信息学全栈工程师,立志于普及生物信息学知识。
生信菜鸟团博客博主,生信技能树创始人兼负责人。 生物信息学全栈工程师,立志于普及生物信息学知识。
课程详情
温馨提示
- 请勿私下交易请勿在平台外交易。与机构和老师私下交易造成的任何损失及纠纷,腾讯课堂不承担任何责任
- 听课说明
1、电脑:访问腾讯课堂官网 ke.qq.com 查看我的课表或下载win/mac客户端听课
2、手机/平板:下载腾讯课堂APP, 进入学习页面听课