基于NoSQL的细胞器基因组数据库构建方法研究毕业论文

 2021-04-10 10:04

摘 要

细胞器的基因组学研究是生物信息学中重要研究方向之一。细胞器DNA目前是除了病毒之外最大规模的完全测序的基因组系列。随着高通量测序技术的不断发展和细胞器基因组研究的发展,其数据呈指数级增长。然而,传统的关系型数据库在存储和管理海量数据时面临着读写速度慢,系统难以扩展等问题。

我们通过对比发现,NoSQL在数据的读写性能,系统的扩展能力远高于关系型数据库,完全满足日益增长的细胞器基因组数据存储的要求。我们通过对不同种类的NoSQL数据库进行对比,设计并实现了一个基于MongoDB的高扩展性、高可用性的细胞器基因组数据库。并通过利用细胞器基因组数据构建进化树的实验,进一步探讨出此数据库在生物信息学领域的重要作用。

关键词细胞器基因组;关系型数据库;NoSQL;MongoDB

Research on Constructing of Organelle genome database based on the NoSQL

ABSTRACT

Organelle genome is one of the most important research areas in bioinformatics. So far, in addition to virus, organelle DNA constitutes the largest genome which has been completely sequenced in the world. As the rapid development of high-throughout sequencing techniques and research work on organelle genome, the total amount of organelle genome data is growing at a exponential rate. However, traditional relational database system is slow to read and write and hard to extend, while storage and manage the huge mount of data.

After comparing NoSQL database and relational database, we found when reading and writing data and expanding database, NoSQL database has a largely greatly advantages, which completely meet the demand the storage of the growing organelle genome data. As a result, we designed and realized a organelle genome database based on MongoDB, which is highly available and highly scalable. At last, according a experiment on constructing phylogenetic tree, we further discussed the database plays a quite important role in the field of bioinformatics.

Key words:organelle genome ; NoSQL database; relational database; MongoDB

目 录

第1章 绪论 1

1.1研究背景及意义 1

1.2国内外研究现状 2

第2章 相关技术综述 3

2.1 Python技术简介 3

2.2 细胞器基因组数据 3

2.3 NoSQL数据库 5

2.3.1NoSQL数据库简介 5

2.3.2NoSQL数据库特征 6

2.3.3NoSQL分类 6

第3章 细胞器基因组数据存储研究 8

3.1 数据库的选型 8

3.1.1 NoSQL与关系型数据库的对比 8

3.1.2关系型数据库存在的问题 9

3.2 MongoDB数据库可行性 9

3.2.1 MongoDB数据库的特点 9

3.2.2 MongoDB数据库的优势 10

第4章 项目开发与实现 13

4.1 数据的抓取 13

4.1.1下载索引表格 13

4.1.2分类提取数据 15

4.2 细胞器基因组数据库的设计与实现 17

4.2.1 系统总体架构设计 17

4.2.2MongoDB数据库设计 17

4.2.3MongoDB数据库实现 19

4.2.4数据在应用系统中的展现 21

第5章 数据库在进化分析中的应用 23

第6章 总结与展望 26

6.1论文总结 26

6.2展望 26

致谢 28

参考文献 29

绪论

1.1研究背景及意义

真核细胞中的一些细胞器,如线粒体,叶绿体等含有称为细胞器基因组的所有DNA遗传物质。近年来,线粒体DNA(mtDNA)和叶绿体DNA(chlDNA)的分子生物学分析揭示了这些基因组的许多特征。线粒体基因组的研究和分析是理解生物进化的有力工具。,因为其基因组具有拷贝数高、重组率低、替代率高、母系遗传模式等特点[1],线粒体基因组和核基因组的同源基因结构的比较也被广泛应用于核外基因和核基因的进化研究中。在其应用中,人类线粒体DNA被广泛用作许多领域的工具,包括进化人类学和人口史,医学遗传学,遗传谱系和法医学等[2]。叶绿体基因组编码蛋白质对光合作用和其他叶绿体功能非常重要,它们的表达可以在很多层面上得到控制。叶绿体是植物细胞进行光合作用的场所,作为重要的细胞器,生物学家在对其基因序列和结构进行研究时,发现叶绿体基因组在物种的进化、遗传、系统发育关系等方面起着重要的作用[3]

细胞器基因组数据库为相关的生物研究提供了相应的物种种属、细胞器类别、基因序列等重要数据。与核基因组相比,细胞器基因组在系统发育学研究上具有许多的优点。 截止目前2018年5月份,已有11719个物种完整的细胞器基因组序列被完全测出,其中包含2788个叶绿体基因组和8891个线粒体基因组完整序列,细胞器DNA目前是除了病毒之外最大规模的完全测序的基因组系列[4],这使得它们成为了比较基因组学研究中的理想材料。所以我们需要开发专门的数据库来对各种基因组测序项目产生的大量数据进行存储和管理。

随着生物测序技术的迅速发展,过去三年测量的细胞器基因组序列数量是过去30年的总和。在当今高通量测序技术带来海量数据中[5],测量出的基因组序列数量将呈指数增长的趋势。同时,一些关系型数据库在对海量细胞器基因组数据的存储、访问以及读/写实时性等方面暴露出了很多问题[6]。另一方面,互联网应用通常并不强调数据的一致性,允许一定短时间的数据不一致,延迟插入等情况的出现。因此,与传统的数据库进行比较,在构建细胞器基因组数据库时,我们选择并使用的具有性能高、可扩展性高、冗余性能强大等特性的NoSQL数据库更具有优势。[7]

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。