Affymetrix数据表达水平计算方法的对比分析研究毕业论文

 2021-04-10 10:04

摘 要

随着人类基因组(测序)计划的完成,以及分子生物学等相干学科的迅速发展,越来越多的生物基因组序列得以测定,基因序列数据增长的速度是前所未有。基于杂交技术的基因芯片在生命科学研究领域中得到广泛的运用,其中以Affymetrix公司的基因芯片最为流行。通过基因芯片技术测序实验获得测序数据,由于其非特异性的特点,导致数据具有很大的噪声和不确定性。因此,通过不同的算法构建模型对原始数据进行模拟,降低噪声对数据的影响,从而获得真实的基因表达水平。

本论文基于美国Affymetrix公司传统3’基因芯片,评估不同基因表达水平估计方法的精确程度和计算效率。论文中采用六种经典表达水平估计方法,在MAQC标准数据集中进行基因表达水平和差异表达的比较。实验结果表明,rma和gcrma模型所得到的基因表达水平计算结果更加精确更有效率。

本论文所采用的六种算法包含于R的affy、gcrma等软件包中,可以免费下载使用,下载地址为:http://www.bioconductor.org/。

关键词:生物芯片;基因表达水平;传统方法;概率方法;对比分析;

ABSTRACT

With the completion of the human Genome (sequencing) program, as well as the rapid development of coherent disciplines such as molecular biology, more and more genomes are being sequenced, and the rate of gene sequence data growth is unprecedented. Gene chip based on hybridization technology has been widely used in the field of life science research, among which Affymetrix company's Gene chip is most popular. The sequence data obtained by sequencing experiments of gene chip technology result in a great deal of noise and uncertainty due to its nonspecific characteristics. Therefore, the original data is simulated by different algorithms, and the effect of noise on the data is reduced, and the real gene expression level is obtained.

Based on the traditional 3’ gene Chip of American Affymetrix Company, this paper evaluates the accuracy and computational efficiency of different gene expression level estimation methods. In this paper, six kinds of classical expression level estimation methods were used to compare gene expression level and differential expression in MAQC standard data set. The experimental results show that the results obtained by the rma and gcrma models are more accurate and efficient.

The six algorithms used in this dissertation are included in the software packages such as Affy, Gcrma, and can be downloaded freely.The download address is: http://www.bioconductor.org/.

Keywords: bio-chips; gene expression level; traditional methods; probability methods; comparative analysis;

目 录

第一章 引 言 1

1.1 研究背景 1

1.2 研究意义 1

1.3本文的研究内容 2

1.4 本文的组织结构 2

第二章 实验算法模型及其他相关介绍 3

2.1 R语言 3

2.1.1 R语言的发展历史 3

2.1.2 R语言的特点 3

2.1.3 R语言的功能 4

2.1.4 R-Bioconductor在生物信息学方面的应用 5

2.1.5 R适合Bioconductor的特点 6

2.1.6 Bioconductor的使用 7

2.2 Affymetrix传统3’基因芯片 8

2.2.2 基因芯片原理 9

2.2.3 传统3’基因芯片 10

2.3 传统算法模型 11

2.3.1 mas5.0 11

2.3.2 MBEI 12

2.3.3 rma 12

2.3.4 gcrma 13

2.4 概率模型 13

2.4.1 mgmos 14

2.4.2 mmgmos 14

第三章 对比试验分析 16

3.1 MAQC数据集 16

3.2 不同方法的可重现性比较 17

3.2.1 mas5.0 17

3.2.2 MBEI 19

3.2.3 rma 20

3.2.4 gcrma 22

3.2.5 mgmos 23

3.2.6 mmgmos 25

3.2.7 可重现性比较总结 26

3.3 与pcr相关系数分析 27

3.4 差异性表达比较 30

3.5 计算时间比较 33

3.6 小结 35

第四章 总结与展望 36

4.1 总结 36

4.2 展望 36

致 谢 37

参考文献 38

附录 41

第一章 引 言

1.1 研究背景

随着近年来人类基因组(测序)计划的实现以及分子生物学及相干学科的迅速发展,越来越多的生物基因组序列得以测定,基因序列数据增长的速度前所未有。但是,如何在分子水平上去分析地球上的生物的生命进程中无穷无尽的基因所扮演的作用,如何才能建立、改进、完善新型杂交和测序方法以对大量的遗传信息进行高效快速的检测、分析,基因芯片技术应运而生。基因芯片的原型是80年代中期提出的,90年代发展迅猛。基本原理是杂交原理,并利用微缩技术,在一个固定的载体上制造出高密度 DNA 微点阵。就是在硅片、玻璃、塑料片等介质上原位合成有序地、 高密度的靶基因或寡核苷酸的探针。基因芯片技术被更列为 1998 年度自然科学领域十大进展之一。而随着“人类基因组”计划的实现,基因芯片技术已被应用到包括生物科学在内的众多的学科领域之中,而生命科学的重点也开始慢慢转变到分析基因的相互作用、序列、功能、表达。本文基于的试验基因芯片平台是Affymetrix公司制造的传统3’基因芯片,对六种经典的算法实验结果进行对比分析研究,包括mas5.0,rma,MBEI,gcrma,mgmos,mmgmos。

1.2 研究意义

基于Affymetrix的基因芯片实验是一个繁复的过程并且由于基因芯片原始数据中的非特异性的特点使得实验结果具有很大的噪声和不确定性。利用对上述六种算法的实验结果进行对比分析,能够对上述算法模型进行更为系统的分析,测算不同算法模型对数据模拟在不同情况下的精确度以及计算时间,从而找出在不同的情况下最有效的降低噪声的算法模型,帮助人们找到更好的算法进行基因表达分析研究,提高效率和精确度。

1.3本文的研究内容

本文主要是针对基于Affymetrix 公司的传统3’基因芯片,采用mas5.0,MBEI,rma,gcrma,mgmos,mmgmos等六种算法对标准数据集 MAQC进行处理,并对获得的基因表达结果进行对比分析。绘制出散点矩阵图及相关系数值和相关系数图。并利用寻找差异基因算法找出差异表达的基因,绘制接受者特征曲线图(ROC 曲线),并通过计算 ROC 曲线下的面积(AUC)来评估算法的性能。主要是测量基因表达水平的准确度和计算时间以及差异表达的对比分析研究。

1.4 本文的组织结构

本文结构安排如下:

第一章 介绍相关背景和本文的研究内容。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。