三代测序拼接软件的可视化实现毕业论文

 2021-04-12 04:04

摘 要

随着高通量测序技术的发展,以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术为代表的三代测序技术成为主流。三代测序技术可以实现非扩增条件下的测序工作,可以有效提高测序效率,但也存在测序精度不高的问题。目前,大约有599种细菌,121种动物,112种植物已经完成了测序工作。通过高通量测序,获得大量的分子生物信息的只是,为研究物种起源、进化提供了有力的依据。

三代测序技术存在读长长的特点,可以解决二代测序技术存在的扩增以及测序数据短带来的拼接问题。但三代测序获得的数据,依旧需要相应的拼接软件实现contig的拼接组装。Canu软件根据三代测序数据的特点,可实现数据的高效拼接,Canu软件是基于命令行的程序,对于计算机知识匮乏的生物学家而言存在使用障碍。该系统实现Canu的可视化,通过web页种数据选择或录入实现Canu的参数设置,提交需要拼接的raw reads文件,由服务器自动或手工实现基因组的拼接并输出结果。该系统方便广大生物数据分析人员的使用,减轻了研究人员的工作量。

该系统使用Sublime Text 3作为开发工具,Sublime Text 3是一款具有代码高亮、语法提示、自动完成且反应快速的编辑器软件,并支持插件扩展机制。同时它也是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。本系统利用Apache做web服务器,利用Bootstrap、Css、js进行前端页面的开发,利用php5进行后台的编写。

关键词:三代测序技术;Canu; Sublime Text; JavaScript;php

Visualization of New - generation

Sequencing Stitching Software

ABSTRACT

With the development of high-throughput sequencing technology, the three-generation sequencing technology represented by PacBio's SMRT and Oxford Nanopore Technologies nanopore single-molecule sequencing technology became mainstream. Three-generation sequencing technology can achieve the non-amplification conditions of the sequencing work, can effectively improve the sequencing efficiency, but there are still sequencing accuracy is not high. At present, there are about 599 kinds of bacteria, 121 kinds of animals, 112 kinds of plants have completed the sequencing work. Through high-throughput sequencing, access to a large number of molecular biological information is only for the study of species origin, evolution provides a strong basis.

Three generations of sequencing technology has the characteristics of long reading, which can solve the problem of the second generation sequencing technology and the stitching problem of sequencing data. But the three generations of sequencing to obtain the data, still need the corresponding splicing software to achieve contig stitching assembly. Canu software is based on the characteristics of three generations of sequencing data, can achieve efficient data stitching, Canu software is based on the command line of the program, for the lack of computer knowledge of biologists in terms of the use of obstacles. The system can realize Canu visualization, through the web page data selection or input to achieve Canu parameter settings, submit the need to stitch the raw reads the file, by the server automatically or manually to genome splicing and output the results. The system facilitates the use of a large number of biological data analysts, reducing the workload of the researchers.

The system uses Sublime Text 3 as a development tool, Sublime Text 3 is a code highlighting, syntax prompt, auto-complete and responsive editor software, and supports plug-in extension mechanism. At the same time it is also a cross-platform editor, while supporting Windows, Linux, Mac OS X and other operating systems. The system uses Apache to do web server, the use of Bootstrap, Css, js for front-end page development, the use of php5 background preparation.

Key words:Three generations of sequencing technology;Canu; Sublime Text; JavaScript;php

目录

1 绪论 - 1 -

1.1 国内外研究概况 - 1 -

1.2 研究目的和意义 - 3 -

1.3本论文结构 - 4 -

2 开发工具介绍 - 5 -

2.1 Sublime Text - 5 -

2.2 Apache - 5 -

2.3 Bootstrap - 6 -

2.4 PHP - 6 -

2.5 本章小结 - 7 -

3 Canu介绍与系统功能 - 8 -

3.1 Canu介绍 - 8 -

3.1.1 Canu产生的背景 - 8 -

3.1.2 Canu的优点 - 8 -

3.1.3 Canu的算法原理 - 9 -

3.1.4 canu的运行环境 - 10 -

3.2系统功能介绍 - 11 -

3.2.1 系统特点 - 11 -

3.2.2输入参数 - 11 -

3.2.3 输出介绍 - 12 -

3.3 本章小结 - 12 -

4 实验 - 13 -

4.1 实验一 - 13 -

4.2 实验二 - 19 -

4.3 本章小结 - 23 -

总结 - 24 -

致谢 - 25 -

参考文献 - 26 -

绪论

国内外研究概况

目前,已经有很多研究人员通过自己的实验比较了基因组装软件的优劣,并对他们的研究成果做了系统的介绍。Suying Bao对QSRA、SSAKE、Edena、Velvet、SOAPdenovo和ABySS 这6个基因组装软件做了测试,他使用了两组数据对这6个软件的性能和最后的组装结果做了比较,发现 SOAPdenovo 各方面都比较好。Jason R. Miller 对组装算法进行了分类,他从算法的角度对Allpaths、 Euler、ABySS、Velvet、SOAPdenovo这几个软件进行了分析并且这几款软件都是使用 de Brujin 图算法。Wenxu Zhang 在他的研究中同时对 OLC 算法和de brujin图算法的基因组装软件的性能做了测试分析,发现每个软件各有优缺点。以下是对几款基因组装软件的介绍:

  1. Velvet

Velvet软件是一种算法的集合,其设计用于处理从头开始进行的基因组组装和短基因序列比对。Velvet是由 Daniel Zerbino和Ewan Birney在英国的欧洲生物信息学研究所开发完成的。Velvet 有效的操作 De Bruijn 图,通过去除错误和简化重复区域来进行基因组序列组装。进行简化和压缩操作,然后有效地操纵de Bruijn图,通过将非相交路径收敛到单个节点中从而保证不损失图形信息。它首先使用将序列合并在一起的纠错算法来消除错误并解决基因数据重复的问题。然后通过能够实现分离共享局部重叠的路径的重复求解器,从序列中删除重复的数据。

短基因序列和序列对的组合使Velvet能够解决重复比较少的数据并产生合理长度的重叠群。Velvet只使用非常短的配对模拟读数,能够组装细菌基因组,N50重叠群长达50 kb,并对大型哺乳动物基因组的5-Mb区域进行模拟,重叠群约3 kb。

  1. ABySS

ABySS是一种对基因组进行从头拼接,能够并行执行,分析成对端序列的汇编器,专为短基因序列而设计。单处理器版本可用于组装高达100 M的基因组。并行版本使用MPI实现,并且能够组装较大的基因组。

您需要先支付 80元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,优先添加企业微信。