曾經(jīng)在多數(shù)人眼中,基因檢測仍然是一項很遙遠的技術。然而新冠疫情突如其來,核酸檢測以其快速和準確的檢測特性,一躍成為診斷和防控疫情的有效方式。利用核酸檢測進行新冠疫情的防控,是一次超大規(guī)模使用分子生物學檢測技術對新發(fā)傳染病進行干預的有益實踐,也是一次讓基因檢測技術快速進入大眾視野的特殊“契機”。
事實上,在2015年中國啟動精準醫(yī)療計劃以來,作為精準醫(yī)學核心技術的基因測序領域就已經(jīng)迎來快速發(fā)展期。外部政策的不斷完善、大數(shù)據(jù)與生物醫(yī)藥領域的不斷融合發(fā)展,讓越來越多的創(chuàng)新型大數(shù)據(jù)應用場景不斷涌現(xiàn),為全方位加快藥物研發(fā)、完善罕見病診治閉環(huán)、實現(xiàn)精準預防和治療帶來更多可能。
在謀求發(fā)展的過程中,越來越多基因行業(yè)的研究機構和企業(yè)發(fā)現(xiàn),在推動基因技術發(fā)展之時,保障后端算力尤為重要。因此,尋找合適支撐基因測序發(fā)展的HPC(高性能計算解決方案)成為必須。
云時代已來,讓數(shù)據(jù)價值得以凸顯、大數(shù)據(jù)技術產(chǎn)物遍地生花,那基因產(chǎn)業(yè)又該如何乘勢而發(fā)?
檢測需求分場景,按需“活”用云算力
基因測序成本逐漸降低讓基因檢測逐漸普及,但挑戰(zhàn)總是與進步相伴相生----由于基因檢測適用目標人群的快速增長,檢測的復雜度隨之大幅提升,不斷攀升和深入的數(shù)據(jù)需求讓基因檢測面臨挑戰(zhàn)。
金域醫(yī)學生信總監(jiān)孫明明已在生物信息行業(yè)深耕13年,面對這樣的現(xiàn)狀,他深有感觸地說:“基因測序短時間內就能夠產(chǎn)出PB級的海量數(shù)據(jù),因此只有通過更高性能的服務器與更快速的分析算法,才能滿足如此大量且多樣化的數(shù)據(jù)需求,讓數(shù)據(jù)價值得以更大程度的體現(xiàn)?!澳蔷烤故裁礃拥腍PC才適合臨床基因檢測呢?孫明明給出答案:“首先我們將檢測需求進行場景分類,然后根據(jù)相應場景選擇合適的HPC?!?/p>
場景一:大量集中型送檢,此場景檢測數(shù)據(jù)量巨大,因此需要本地端有一個大規(guī)模的HPC來進行數(shù)據(jù)處理。這樣構建的優(yōu)勢在于可以將HPC與大型測序儀進行一個穩(wěn)定的內網(wǎng)連接,可以保證臨床數(shù)據(jù)處理的時效性和穩(wěn)定性;
場景二:少量分散型送檢,針對一些小規(guī)模醫(yī)療機構,它們所產(chǎn)生的基因檢測數(shù)據(jù)量通常較小,構建本地HPC成本太高。因此可采用云端HPC的部署方式,這樣既能滿足醫(yī)療機構的檢測需求,同時能夠解決成本問題。
孫明明說:“將需求按照場景分類后,HPC的部署方式就明朗化了。但其中本地HPC因會受到部署場地及供貨周期的制約,如果遇到檢測量劇增的突發(fā)事件,無法做到實時動態(tài)的硬件資源擴展。如何解決?我們選擇了華為云提供的資源混合調度方案,通過它動態(tài)拓展的特性解決了這個問題?!彼硎?,采用了現(xiàn)在的整合方式后,本地HPC和云端HPC可以實現(xiàn)統(tǒng)一管理,只要設立一個統(tǒng)一的管理節(jié)點,就能同時管理線下和云端的計算資源,當本地HPC負載過高時,數(shù)據(jù)分析服務會自動推送到云端,有效解決了本地算力不足的困擾。
談及未來,孫明明表示:“目前,金域醫(yī)學的業(yè)務已經(jīng)覆蓋了整個產(chǎn)業(yè)鏈上中下游。希望未來能與合作伙伴共同努力,將大技術平臺、大服務網(wǎng)絡、大樣本、大數(shù)據(jù)庫聯(lián)合起來,構建‘檢驗+’的生態(tài)圈,并通過這個生態(tài)圈加快大樣本、大數(shù)據(jù)、醫(yī)檢技術創(chuàng)新的發(fā)展和突破?!?/p>
安全性+性價比兼具,華為云成三代測序“理想型”
在基因測序中,測序的長讀長能有效提升基因組組裝的完整性。相對于二代測序,三代測序的長讀長優(yōu)勢,能夠幫助它突破二代測序短讀長技術在人類遺傳疾病研究、動植物基因組完成圖組裝等方面的瓶頸、提升其在疾病診斷、分子育種中提供決策依據(jù)的能力。(備注:讀長指的是測序反應所能測得序列的長度)
三代測序的單張芯片的測序數(shù)據(jù)量會達到100Gb以上,而希望組生產(chǎn)中心一年將會消耗近萬張測序芯片,算上衍生出的大于測序數(shù)據(jù)數(shù)倍的原始數(shù)據(jù),三代測序所產(chǎn)生的數(shù)據(jù)量會是海量的,其數(shù)據(jù)存儲與分析符合大數(shù)據(jù)的特征。武漢希望組COO劉雷博士介紹,在三代測序中,無論是PacBio測序儀還是Oxford Nanopore測序儀,所產(chǎn)生的數(shù)據(jù)包含了分析所用的fastq數(shù)據(jù),以及這些數(shù)據(jù)的原始格式bam,fast5等;而這些bam,fast5格式往往會是原始數(shù)據(jù)的5~10倍。因此處理這些龐大的數(shù)據(jù),對于算力的要求很高。那么究竟什么樣的HPC是三代測序的“理想型”呢?
劉雷博士認為,由于基因測序的數(shù)據(jù)與數(shù)據(jù)隱私安全息息相關,因此,符合要求的、理想的HPC首先應該是安全可控的,從而確保在復雜的環(huán)境中保障基因數(shù)據(jù)的安全;其次要具備良好的性價比,在性能滿足需求的同時盡可能節(jié)約成本。“我們希望對計算資源進行合理調配,利用公有云對大量非敏感業(yè)務進行快速交付和流程調優(yōu),少量敏感業(yè)務運行于本地以滿足企業(yè)對數(shù)據(jù)隱私保障的要求。基于上述考慮,我們最終選擇了華為云提供的資源混合調度方案實現(xiàn)整個計算資源的整合。該解決方案的多面性為我們提供了更多選擇,非常好地滿足了我們對HPC的需求?!眲⒗自u論道。
逐漸完善的檢測技術和不斷降低的設備成本使基因測序被越來越多的人認可,其巨大的發(fā)展?jié)摿ξ阌怪靡伞⒗妆硎?,在堅持三代測序技術應用不斷迭代的同時,希望組將與合作伙伴攜手共建基于生態(tài)測序的高性能計算機群,為全世界的客戶提供優(yōu)質的生態(tài)測序分析和存儲的服務。
性能與成本兼顧,從此算力無憂、算“賬”不愁
在基因檢測能力提升的同時,數(shù)據(jù)量也在不斷累積??梢钥隙ǖ氖牵瑱z測機構對于HPC的要求將越來越嚴苛。作為解決方案供給方的云廠商該如何提升競爭力、為日新月異的醫(yī)療健康產(chǎn)業(yè)提供有力支撐呢?
華為云基因行業(yè)解決方案總監(jiān)嚴斌表示,理想的HPC不僅要滿足用戶對集群易用性和高性能的要求,還需考慮綜合性價比。華為云推出的資源混合調度方案,不僅可以一站式管理本地-公有云計算資源,還可管理x86虛擬機和鯤鵬虛擬機的混合資源池,從而為客戶提供更高性價比的HPC集群。同時,華為云還提供基因容器和醫(yī)療智能體等行業(yè)解決方案,從版本管理、狀態(tài)監(jiān)控、費用審核和資源消耗等多個維度對業(yè)務流程進行優(yōu)化指導,從而進一步提高整體方案的性價比。
“我們希望華為云作為行業(yè)的黑土地,提供更多的創(chuàng)新方案,使能基因測序行業(yè)在云時代高速、穩(wěn)定和智能地發(fā)展前行。”嚴斌如是說。
在不斷攀升的檢測需求的倒逼下,基因檢測行業(yè)必將迎來飛躍式發(fā)展。后端算力作為支撐其發(fā)展的基座,仍然面臨諸多挑戰(zhàn)。技術的發(fā)展終將戰(zhàn)勝當下的挑戰(zhàn),基因測序也定能乘著“云”的翅膀迎接嶄新的未來。