基于云计算的基因数据预处理流程优化设计与实现

发布时间：2022-10-21 23:00:39 所属栏目：云计算来源：互联网

导读： 随着二代高通量测序技术的迅猛发展,基因数据的产出速度已远高于摩尔定律,并在健康医疗等领域上得到快速应用。但目前基因数据处理的时效性还难以满足需求,需要依托高性能硬件以及软件工具的

随着二代高通量测序技术的迅猛发展,基因数据的产出速度已远高于摩尔定律,并在健康医疗等领域上得到快速应用。但目前基因数据处理的时效性还难以满足需求,需要依托高性能硬件以及软件工具的支撑,以应对大规模基因数据分析的迫切需求。云计算具有超大规模、虚拟化、高可靠性、通用性、高可伸缩性等诸多优点,使用云计算可以以较低的成本解决基因数据处理所面临的问题。本文将基于Spark云计算平台,对基因数据预处理流程进行优化,以实现可利用多核与多节点并行处理基因数据,提高基因数据预处理的时效性。本文首先研究了当前基因数据预处理流程的业务特点,利用业务特性,减少原有流程中读写硬盘的IO开销。对数据预处理流程中主要的两个工具即序列比对工具及重复数据标记工具进行程序结构分析,并在Spark环境下进行优化设计与实现。针对原有序列比对工具(sequence alignment tool)BWA扩展性佳、性能好、计算密集的特点,设计了可在Spark环境中运行BWA的框架PipeBWA。通过对测序结果数据进行存储优化,使用更好的外部程序调用方式,使得该框架具有轻量级,扩展性好,可兼容任意版本BWA工具的特性。在实际基因数据集上的序列比对实验表明,PipeBWA的耗时仅为目前最新的集群基因数据处理工具GATK4的三分之一。

目前基因数据预处理流程中主要使用Picard工具集中的MarkDuplicates来进行重复数据标记。针对MarkDuplicates中无法对输入数据进行分割来完成数据并行云计算实现,核心程序只可串行执行的特点,通过挖掘其可数据并行模块,实现了Spark上重复数据探查工具DeDuplicatesSpark。通过采用多个阶段聚合寻找候选区,以减少键值对(key-value)的规模,比对结果存储优化、key值压缩、位图索引、及Spark SQL列式聚合等多种手段,提升DeDuplicatesSpark性能。在实际基因数据集上的查重实验表明,DeDuplicatesSpark的性能提升非常显著,相对于Picard中的MarkDuplicates工具、以及GATK4中MarkDuplicatesSpark工具均获得数十倍性能的提升。为了解决分布式存储引发的计算过程中数据不完整的问题,也为了更好的利用分布式存储所带来的性能提升,本文重新设计了分布式下测序结果数据及比对结果数据的存储格式,以保证PipeBWA与DeDuplicatesSpark的优化设计能有效提升基因数据预处理流程的性能。实验显示,本文优化的基因数据预处理流程能有效的降低原有基因数据预处理的耗时,为提高基因数据分析的时效性打下了良好的基础。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

云原生 PostgreSQL -	有效的云迁移策略为企
微软智能云Azure在华新	三种在云中利用开源的