面向生物细胞器基因组的进化分析平台毕业论文

 2021-04-10 10:04

摘 要

生物学在发展的过程中,尤其是在基因序列对比方面,精确计算的需求逐渐增多,也因此引入了计算机科学的相关思想和技术用以辅助。根据本校优秀的生物学研究的特点,将计算机的软件技术、算法等与传统的生物研究方法相结合完成了本次项目的研究及开发。

细胞器的基因组学研究是比较基因组学中的重要方向之一,本项目面向细胞器基因组数据进行物种进化树的构建和分析,基于完整的细胞器基因组构建一棵系统发育树,借助完备的数据库和可视化功能用于评估物种的系统关系和演化进程。本项目的开发采用Python爬虫实现数据基础,使用后端脚本适配并调度算法完成树的计算。

关键词:系统发育树;细胞器基因组;Python;建树算法;

Evolutionary analysis platform for biological organelle

Genome

ABSTRACT

With the development of biological science and computer application technology, more and more computer related technologies are used to assist the research of biology. According to the characteristics of our school's excellent biological research, the research and development of this project is completed by combining computer software technology and algorithm with traditional biological research methods.

Organelles of genomics research is one of the important direction of bioinformatics, the project oriented organelles evolutionary tree construction and analysis of the genomic data, based on the complete cell organelle genome construct a phylogenetic tree, with the help of a complete database and visual function to evaluate the system relationship and evolution process of species.

This project adopts Python crawler to realize the data base, and uses back-end script adaptation and scheduling algorithm to complete the calculation of the tree.

Key words:phylogenetic tree; organelle genome; python; tree algorithm;

目录

1绪论 2

1.1 研究背景 2

1.2 国内外研究现状 3

1.3 研究内容 3

2开发技术与开发环境介绍 5

2.1 NCBI介绍简介 5

2.2 建树算法 5

2.3 Python技术简介 6

2.4 JavaScript技术简介 7

3功能实现 9

3.1 基因数据的抓取 9

3.2 数据的处理及建树算法的适配 11

4在线平台的功能与服务 14

4.1 细胞器基因组系统进化树构建平台 14

4.2 构建进化树 15

4.2.1 选择物种 15

4.2.2 选择基因 17

4.2.3 设定参数建树 18

结 论 21

致 谢 22

参考文献 23

1绪论

遗传基因(Gene)在生物物种的遗传进化过程中扮演者最为基础的角色。基因是遗传物种的基本单位,基因决定了该物种的生长发育,种类外貌,遗传疾病,特征等,并且很大程度德影响了生物的生长发育和繁殖规律。

本文首先以物种细胞器基因组数据为对象做分析和研究,以期在不损坏原始数据的情况下,大批量整合现有的基因组数据,提供一种完善且高效的基因数据获取、分析方式。

国内外学者常常使用线粒体DNA和叶绿体DNA的分子生物学分析获取细胞器基因组的特征,对细胞器基因组的分析是理解其遗传进化的重要途径。线粒体基因组具有高拷贝数、高替代率、母系遗传等特点,线粒体DNA被广泛用作许多领域的工具[3]。植物在进行光合作用时,它的叶绿体基因组编码蛋白质对整个光合作用化学反应的进程有着相当重要的影响,而人们在研究叶绿体基因组的基因序列的时候发现它在物种的进化、遗传、系统发育关系等方面具有重要的作用。为此,本研究选用物种的线粒体细胞器和叶绿体细胞器基因组序列作为建立进化发育树的数据基础。

研究背景

生物信息学利用了计算机科学中的思想和技术手段。同时也利用应用数学、信息学和统计学等学科的理论来研究生物学。林林总总的生物学数据信息、基因序列便是生物信息学的研究基础和成果。使用计算机、算法、软件、测序仪等设备工具进行相关研究工作。主要分为搜索、处置和利用三步骤来处理生物学的相干数据。对其细分又分为第一步收集和筛选数据,第二步编辑、整合、管理、显示数据以及最后一步,计算和模拟数据得出结果。主要方向有:序列比对、序列组装、基因辨别、基因重组、蛋白质结构预测、基因表达、蛋白质反应愚蠢与进化模型八大类。本文的研究基于基因序列对比和遗传发展这两方面。

比较基因组学(Comparative genomics)是基于基因组图谱和测序技术,对已知的基因特征和基因组结构进行对照从而了解基因的功能、表达机制和不同物种亲缘关系的生物学研究[2]。基因组所有的特点可包括的DNA序列,基因,基因顺序,调控序列,和其它的基因组布局标志。

系统发育树(Phylogenetic tree)又称演变树或进化树,被绘制为圆形散射图或是树形图。该图常常被用于表现具有共同祖先的各个物种之间的进化关系。研究人员通过基因比对等手段判断进化关系并将其绘制成系统发育树。同时也被用作为一种亲缘分支分类方法。在一课系统发育树中,每一个独立的节点都代表了一个物种,两个节点交接之处则表示他们的共同祖先。而节点间的线段长度对应进化遗传发展过程中的烟花间距,如大致估计的演化时间。

国内外研究现状

细胞器基因组数据库为相关的生物学研究提供了相应的物种种属、细胞器类别、基因序列等重要数据,随着生产完整的细胞器基因组序列的速度加快,难以使用原始文献进行广泛比较[3]。不幸的是,没有数据库对这个任务完全有用,因为它们没有标准化而且充斥着错误。除此之外,通常还缺乏充分利用这些数据的描述符。曾被许多生物学家所使用的GOBASE数据库,组织并整合了与细胞器相关的各种数据包含分子序列、RNA二级结构和遗传图谱,以及所有真核物种的分类信息,该数据库已于2010年8月停止维护和更新。ChloroMitoSSRDB 2.0数据库[4],是一个综合的在线数据库,于第二次更新后提供了4454个基因组,该数据库更新周期较长且相比现有的基因组数量其数据规模较小不便于进行广泛的比较[5]。现在被广泛使用的NCBI的GenBank也收录了由全世界的研究人员测序并上传的基因数据。NCBI的GenBank数据库条目以条目索引为主。由于数据文件格式原因,其中的每一小项下的具体数据难以获得,仅在浏览方面实现了一些优化,对有数据使用需求的研究人员来说,所有相关信息与基因序列写在同一个数据文件中,难以具体获取到某个基因货蛋白质等的详细数据。与此同时,基于基因数据的建树过程缺乏一个用户友好的界面和操作平台,也没有专门针对细胞器基因组的系统进化树的可视化进程,数据结果不够直观,难以直接获取信息。

研究内容

本研究计划从现有物种基因库中获取细胞器基因组的部分,分析切割物种基因组数据并分类别存储,在庞大数据的基础上构建一个建立系统发育树的系统平台,具体内容如下:

一、学习相关的基础理论知识,研究当前流行的系统发育树软件的功能和原理。首先是相关的生物信息学、比较基因组学的知识及背景,关于叶绿体线粒体的生物意义,叶绿体和线粒体DNA的重要性,进化分析中使用核DNA的困难性等。其次便是学习并熟练掌握运用相关的技术知识,如建站所需的前后端编程语言,大量数据的抓取以及分析,对线粒体基因组数据即对于超长字符串的处理能力。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。