一、技术路线和方法:

二、生物信息学分析
2.1 基本数据分析
Part01:基因组定位及统计
过滤低质量序列,一般将质量低于20的替换为N。然后使用MAQ、bowtie等Mapping软件将序列定位到基因组上,统计Reads在基因组上的定位信息。
Part02:转录本表达量计算
RNA-Seq可以得到远多于基因芯片的RNA数据以及拥有发现新转录本能力。大量的Reads可以定位到同一个ORF,而且Reads的覆盖度和RNA在细胞中的丰度具有相关性。统计单个ORF的Reads覆盖度可以得到此ORF的相对表达量。
Part03:基因表达量差异分析
Part04:(差异)基因GO分类
Part05:(差异)基因Pathway分类
2.2 高级数据分析
Part06:可变剪切预测
我们使用TopHat(Cole Trapnell et al. 2009)软件进行可变剪切的预测分析。
Part07:新转录本预测
Part08:反义转录本预测
Part09:SNP、Indel和Mutation变异体注释
为了获取较为准确的SNP、Indel和Mutation数据,通过变异过滤系统进行过滤, 主要的过滤策略为:
- 去除在某一位点上reads覆盖度过低(<20×)或者过高(>5000×)的SNP。
- 每一个非参考等位位点上的独立的reads必需大于3(同一个克隆的reads的起始位点相同)。
- 每一个非参考等位位点至少有20%的覆盖度。
- 统计SNP、Indel和Mutation在基因组上分布。
- 根据分布计算得到的新SNP、Indel和Mutation的可信度。
Part10:基因调控网络构建
Part11:蛋白互作网络构建
三、测序平台
| Illumina平台 | 测序平台 | 模式 | 数据量 | 一个lane样品数 | 货号 |
| RNA-seq | Hiseq2000 | 1×50 | 3-4M reads | 12 | BT2000111 |
| RNA-seq | Hiseq2000 | 2×100bp | 2-2.5G | 4 | BT2000112 |
| RNA-seq | GAII | 1×60 | 8Mreads | 4 | BT2000113 |
| RNA-seq | GAII | 1×60 | 12Mreads | 3 | BT2000114 |
| RNA-seq | GAII | 1×60 | 20Mreads | 2 | BT2000115 |
四、完成时间
3个月,(其中生物信息1个月)
所有版权及解释权归BIOTREE公司所有!


