"結(jié)構(gòu)就是功能"——蛋白質(zhì)的工作原理和作用取決于其3D形狀。
2020年末,基于深度神經(jīng)網(wǎng)絡(luò)的AlphaFold2,一舉破解了困擾生物學(xué)界長達(dá)五十年之久的“蛋白質(zhì)折疊”難題,改變了科學(xué)研究的游戲規(guī)則,可以從蛋白質(zhì)序列直接預(yù)測蛋白質(zhì)結(jié)構(gòu),實現(xiàn)了計算機蛋白質(zhì)建模極高的精確度。
自AF2問世以來,全世界數(shù)百萬研究者已經(jīng)在瘧疾疫苗、癌癥治療和酶設(shè)計等諸多領(lǐng)域取得了突破。

2024年5月初,AlphaFold3再登Nature,基于Diffusion(擴散技術(shù))架構(gòu),將技術(shù)延伸到蛋白質(zhì)折疊之外,能以原子級精度準(zhǔn)確預(yù)測蛋白質(zhì)、DNA、RNA、配體等生命分子的結(jié)構(gòu)及相互作用。
為了避免Diffusion技術(shù)在一些無結(jié)構(gòu)區(qū)域產(chǎn)生“幻覺”,DeepMind還創(chuàng)新了一種交叉蒸餾(cross-distillation)方法,把AF2預(yù)測的結(jié)構(gòu)數(shù)據(jù)預(yù)添加到AF3的預(yù)訓(xùn)練集中,減少AF3的預(yù)測失誤。
AF2代碼已開源,AF3目測不會開源,也不能商用。
我們今天的主角——只能是AlphaFold2。
想知道怎么使用AlphaFold2最最快樂?
怎么快速完成蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)?
我們能在背后幫你默默干點什么?
來吧——
01
先復(fù)習(xí)一下
AlphaFold2計算的正確打開方式
我們通常說的AlphaFold2是指一個利用多個外部開源程序和數(shù)據(jù)庫,通過蛋白質(zhì)序列預(yù)測其3D結(jié)構(gòu)的系統(tǒng)。
整個蛋白質(zhì)結(jié)構(gòu)預(yù)測計算過程大致可以分為兩個階段:
一、數(shù)據(jù)預(yù)處理
包括多序列比對(MSA)和模板搜索(Template Search)兩個步驟,主要是利用已知的蛋白質(zhì)序列和結(jié)構(gòu)模板,獲得不同蛋白質(zhì)之間的共有進化信息來提升目標(biāo)蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性。
需要比對和搜索的數(shù)據(jù)總和達(dá)到了TB量級,涉及數(shù)據(jù)庫密集I/O讀寫,因此對I/O有較高的要求。
這一階段主要使用HMMER與HH-suite軟件,以及Uniprot、MGnify、PDB等多個蛋白質(zhì)數(shù)據(jù)庫。計算耗時與蛋白序列長度正相關(guān),主要使用CPU計算資源。
AF2訓(xùn)練數(shù)據(jù)集覆蓋多個數(shù)據(jù)庫,比如UniRef90/MGnify/PDB/BFD等,目前完整版大小約為2.62TB,是世界范圍內(nèi)較為權(quán)威的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫。2022年7月28日,Google DeepMind將數(shù)據(jù)庫從近100萬個結(jié)構(gòu)擴展到超過2億個結(jié)構(gòu),涵蓋了植物、細(xì)菌、動物和其他微生物等多個類別。

二 、模型推理與優(yōu)化
基于端到端的Transformer神經(jīng)網(wǎng)絡(luò)模型,AF2輸入Templates、MSA序列和pairing信息,其中pairing和MSA信息相互迭代更新,檢測蛋白質(zhì)中氨基酸之間相互作用的模式,輸出基于它們的3D結(jié)構(gòu)。
再用OpenMM軟件對預(yù)測的3D結(jié)構(gòu)進行物理放松,解決結(jié)構(gòu)違規(guī)與沖突。
使用Recycling(將輸出重新加入到輸入再重復(fù)refinement)進行多輪迭代訓(xùn)練和測試,多輪迭代優(yōu)化有一定的必要性,較為復(fù)雜的蛋白可能在多輪之后才能折疊到正確的結(jié)構(gòu)。
這一階段計算耗時與迭代次數(shù)正相關(guān),主要使用GPU計算資源。
02
Workflow全流程自動化
隨心組合,當(dāng)一個甩手掌柜
作為一個系統(tǒng),AlphaFold2借助了多個外部開源軟件和數(shù)據(jù)庫,整個計算過程也比較復(fù)雜。
如果用戶想要自行使用,不但要下載龐大的數(shù)據(jù)庫,還需要自行搭建使用環(huán)境,對IT能力的要求不可謂不高。
用戶看到的基本都是左邊這種畫面,我們能做的第一點——就是提供一個平臺,把左邊變成右邊:

而第二點,我們能跨越系統(tǒng)各個軟件之間,包括對軟件內(nèi)部的不同步驟任意重新排列組合,做成自動化的Workflow。
一次制作,反復(fù)使用,省時省力,還不用擔(dān)心中間出錯。
比如?
一 、多數(shù)據(jù)庫同時多序列比對(MSA)
多序列比對需要在多個蛋白質(zhì)數(shù)據(jù)庫里進行查找。
常規(guī)使用模式,用戶要手動依次在N個數(shù)據(jù)庫里進行搜索,整個過程耗時等于N次搜索的時間之和。
我們可以讓不同數(shù)據(jù)庫的搜索同時進行,并做成一個固定Workflow,自動執(zhí)行,整個過程花費時間將等于耗時最長的數(shù)據(jù)庫搜索時間。既節(jié)約時間,又省事。

二 、全計算流程與資源自由組合
不僅僅限于某一個步驟,我們能做全計算流程的自定義Workflow。
上一節(jié)我們復(fù)習(xí)了,AF2第一階段適合用CPU資源,第二階段使用GPU計算效果最佳,每個階段還涉及到不同軟件包。
整個計算過程比較復(fù)雜,需要在不同階段的不同步驟使用不同軟件包調(diào)用不同底層資源進行計算,手動操作工作量不小。而且,常規(guī)使用模式,可能會從頭到尾使用一種資源計算,這樣比較簡單,但是會比較吃虧,要么第一階段GPU純純浪費,要么第二階段慢得吐血,計算時間是原來的數(shù)倍。
我們能把整個計算流程與資源自由組合,讓用戶全程可視化操作,只需要輸入不同參數(shù)即可。既能實現(xiàn)應(yīng)用與資源的最佳適配,還能自動化操作,省去大量手動時間。

當(dāng)然,還有無數(shù)種其他組合的可能性。
不止是AlphaFold2,自定義Workflow也能應(yīng)用在其他場景,戳:1分鐘告訴你用MOE模擬200000個分子要花多少錢
03
掃清技術(shù)障礙
TB級數(shù)據(jù)庫與I/O瓶頸問題
AF2訓(xùn)練數(shù)據(jù)庫完整版大小約為2.62TB,數(shù)據(jù)預(yù)處理階段需要在數(shù)據(jù)庫中執(zhí)行多次隨機搜索,這會導(dǎo)致密集的I/O讀寫。如果數(shù)據(jù)的讀取或?qū)懭胨俣雀簧希蜁绊懙秸麄€計算過程的效率。
這可能會導(dǎo)致:
1. 同一任務(wù)多次計算,耗時卻不同;
2. I/O等待超時,任務(wù)異常退出;
3. 即便增加CPU資源,也無法加速計算。
為了解決這一問題,我們對整個數(shù)據(jù)庫做了梳理和拆分。其中最大的BFD數(shù)據(jù)庫接近2T,對I/O的要求非常高。
因此,我們將高頻I/O的BFD數(shù)據(jù)庫存放在本地磁盤,其他數(shù)據(jù)庫存放在網(wǎng)絡(luò)共享存儲上。

這帶來了兩大好處:
第一、磁盤空間換時間,計算速度更快
將高頻訪問的BFD數(shù)據(jù)庫放在本地磁盤上,I/O讀寫速度快,非常適合需要快速響應(yīng)的數(shù)據(jù)。因為本地磁盤是與機器綁定的,如果不止一臺機器,這會導(dǎo)致本地磁盤存儲空間增加。
而其他對I/O讀寫速度要求不高的數(shù)據(jù)庫可以放在網(wǎng)絡(luò)共享存儲上,方便所有機器共享讀取和寫入,減少數(shù)據(jù)同步問題。
整體來說,用磁盤空間換取時間,讓I/O對計算的影響降到最低,顯著提升了AF2的運算效率。
第二、為未來可能的大規(guī)模并發(fā)計算掃清技術(shù)障礙
關(guān)于這一點,我們進入下一節(jié)。
04
大規(guī)模并發(fā)!
同時預(yù)測100+蛋白質(zhì)結(jié)構(gòu)
對用戶來說,不可能一次只預(yù)測1個蛋白質(zhì)結(jié)構(gòu)。
那么,如果要同時預(yù)測100+蛋白質(zhì)結(jié)構(gòu),怎么玩?
如果是以前,你不但需要搭好運行環(huán)境,準(zhǔn)備好計算資源,然后一個一個預(yù)測,而且每一個還得手動走一遍完整的計算流程。這個過程一聽就十分漫長,而且容易出錯。
而現(xiàn)在——
已知一:我們有Workflow全流程自動化的能力,單個蛋白質(zhì)預(yù)測已經(jīng)是一個自動化的Workflow了;
已知二:我們解決了I/O瓶頸問題,也就是說,多臺機器對I/O讀寫瓶頸問題已經(jīng)解決。
100+蛋白質(zhì)結(jié)構(gòu)預(yù)測,又有什么難的?

現(xiàn)在,我們只需要再多做一步,同時運行有100+個不同輸入?yún)?shù)的Workflow,就行了。而完成這一步需要具備兩個條件:
一 、充分的CPU/GPU資源
我們調(diào)用10萬核CPU資源,使用AutoDock Vina幫用戶進行了2800萬量級的大規(guī)模分子對接,將運算效率提高2920倍:提速2920倍!用AutoDock Vina對接2800萬個分子
我們智能自動化調(diào)度云端GPU/CPU異構(gòu)資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務(wù)的耗時從單GPU的4個月縮短到20小時:155個GPU!多云場景下的Amber自由能計算
二 、調(diào)度器能力
這么多機器和任務(wù),怎么適配,按什么策略使用最佳,怎么配置、啟動、關(guān)閉,提高整體資源利用率,最好還能自動化管理、輔助管理決策等等,甚至怎么DEBUG,這需要的可不止是一點點技術(shù)。
詳情可戳:國產(chǎn)調(diào)度器之光——Fsched到底有多能打?
到這里,這100+蛋白質(zhì)預(yù)測任務(wù),就可以一次性跑完了。
05
V100 VS A100
關(guān)于GPU的一點選型建議
那么多GPU型號,你選哪個?
市面上的GPU型號不少,性能和價格差異也很大。
我們選取了3個蛋白質(zhì),分別使用V100和A100進行了一輪計算:

可以看到,對同一個蛋白質(zhì)進行結(jié)構(gòu)預(yù)測,A100用時約為V100的60-64%。
而目前的市場價,無論是小時租賃、包月預(yù)留還是裸卡買斷,A100至少是V100的2倍以上。
也就是說,A100是以2倍多的價格,去換取約三分之一的性能提升。
兩相比較,除非不差錢,我們推薦使用V100。
實證小結(jié)
1.AlphaFold2是一個系統(tǒng),涉及到很多數(shù)據(jù)庫和不同軟件,我們的Workflow全流程自動化,讓用戶可以隨心組合,輕松上手蛋白質(zhì)結(jié)構(gòu)預(yù)測;
2.我們用磁盤空間換時間的手段,既解決了TB級數(shù)據(jù)帶來的I/O瓶頸問題,也為大規(guī)模并發(fā)計算掃清了技術(shù)障礙;
3.fastone可支持多個AlphaFold2任務(wù)大規(guī)模自動并行;
4.GPU也需要選型,我們推薦V100。
本次生信實證系列Vol.15就到這里。
關(guān)于fastone云平臺在各種BIO應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看
Vina│Amber│?MOE│?LeDock
速石科技新藥研發(fā)行業(yè)白皮書,可以戳下方查看:
新藥研發(fā)37問?│頂尖藥企AIDD調(diào)研
- END?-
我們有個一站式新藥研發(fā)平臺
集成行業(yè)應(yīng)用與自編譯軟件
支持AlphaFold、RoseTTAFold等常用AI應(yīng)用
可視化Workflow隨心創(chuàng)建、便捷分享
提供Zinc、Drugbank等開源/自有分子庫
CADD專家團隊全面支持掃碼
免費試用,送200元體驗金,入股不虧~

更多BIO電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
只做Best in Class的必?fù)P醫(yī)藥說:選擇速石,是一條捷徑
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化3.5小時完成20萬分子對接
1分鐘告訴你用MOE模擬200000個分子要花多少錢
155個GPU!多云場景下的 Amber自由能計算
提速2920倍!用AutoDock Vina對接2800萬個分子
新藥研發(fā)平臺:
今日上新——FCP
專有D區(qū)震撼上市,高性價比的稀缺大機型誰不愛?
國產(chǎn)調(diào)度器之光——Fsched到底有多能打?
創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?
全球44家頂尖藥企AI輔助藥研行動白皮書
近期重大事件:
速石科技完成龍芯、海光、超云兼容互認(rèn)證,拓寬信創(chuàng)生態(tài)版圖
速石科技入駐粵港澳大灣區(qū)算力調(diào)度平臺,參與建設(shè)數(shù)算用一體化發(fā)展新范式
速石科技成NEXT PARK產(chǎn)業(yè)合伙人,共同打造全球領(lǐng)先的新興產(chǎn)業(yè)集群
速石科技出席ICCAD2023,新一代芯片研發(fā)平臺助力半導(dǎo)體企業(yè)縮短研發(fā)周期
速石科技與芯啟源開啟戰(zhàn)略合作,聯(lián)手打造軟硬件一體芯片研發(fā)云平臺

創(chuàng)新藥內(nèi)卷嚴(yán)重,九死一生,而且燒錢速度驚人。
不管Big Pharma還是Biotech都壓力山大,銷售額、利潤要漲,研發(fā)費用要邊漲邊控。
Biotech求活下去,求快速具備造血能力;
Big Pharma求踩穩(wěn)創(chuàng)新藥這一條新成長曲線,探索國際化的發(fā)展模式。
如何做到:
速度要快,姿勢還要帥?
第一:堆新藥研發(fā)人才
自己培養(yǎng)和直接搶人,這兩條路一般同時進行。
培養(yǎng)一個新藥研發(fā)人才和培養(yǎng)一個飛行員差不多,得用昂貴的試飛成本才能換來一點感覺。
外部就從跨國藥企搶,從大廠搶。既要懂研發(fā),還要懂市場,最好還要懂資本的多面手,最重要的是,要留得住。
第二:外包,買現(xiàn)成管線
一定程度上解決問題,快是快了,但終究不是長久之計。
而且核心知識產(chǎn)權(quán)不在自己手上,姿勢不夠帥。
第三:堆CADD/AIDD人才
關(guān)于為什么CADD(計算機輔助藥物研發(fā))/AIDD(AI輔助藥物研發(fā))能夠加速新藥研發(fā)進展,去年,我們在這篇《 【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書 》里已經(jīng)解釋過了,不再贅述。
CADD和AIDD的區(qū)別就是,一個重“人工”,一個重“智能”。
不必取舍,兩者殊途同歸。
國內(nèi)企業(yè)在找CADD/AIDD人才方面現(xiàn)在是什么情況?
我們在國內(nèi)9個主流招聘平臺,相隔半年先后調(diào)查了兩次,一共覆蓋134家公司,職位關(guān)鍵詞包括:AI、人工智能、CADD、計算化學(xué)等。
再說一遍:“別看他的眼睛,你看他的手”,行動永遠(yuǎn)勝過言語。
結(jié)論如下:
1、招聘CADD/AIDD相關(guān)職位的公司總量從78家增加到了106家,增幅36%;
2、半年內(nèi)實際新增招聘公司數(shù)量,56家;
3、八成以上公司明確表示正在進行創(chuàng)新藥研發(fā),其中近四分之一應(yīng)用了AI技術(shù);
4、2014年以后成立的公司明確表示使用AI技術(shù)的比例大幅提升;
5、30家公司正在招聘CADD/AIDD團隊負(fù)責(zé)人,占比28%,其中有9家在JD中明確提出要組建CADD/AIDD新團隊;
6、最受歡迎CADD/AIDD應(yīng)用前三名:Schrodinger、MOE和AutoDock。

第三plus:堆資源,或者找個新藥研發(fā)平臺?
為啥堆資源就快了?
1、充足的資源會給研發(fā)人員帶來充足的想象力和試錯空間,而不是束手束腳施展不開。
就像有人問一位Google芯片設(shè)計師:在Google做芯片,是一種什么體驗?他說:就像小朋友走進了一家糖果店,開心瘋了。(做芯片設(shè)計也是需要大量資源的
2、充足的資源能夠提供更高的計算精度和準(zhǔn)確性,提高結(jié)果的質(zhì)量和可用性。2020年3月,哈佛大學(xué)醫(yī)學(xué)院在《Nature》發(fā)表的論文《An open-source drug discovery platform enables ultra-large virtual screens》就明確推導(dǎo)了真陽性率與所篩選化合物數(shù)量的函數(shù)關(guān)系的概率模型,證明:化合物的最高打分隨著規(guī)模增加而提高。

作者分別從10萬、100萬、1000萬、1億、10億個化合物中進行了5次篩選,挑選了得分最高的前50個化合物進行對比,從圖中可以很清楚地看到篩選的規(guī)模越大,得分越高(位置越靠上)。具體可以看這篇《15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發(fā)未來》
3、出結(jié)果快。
比如我們幫助一家大型藥企使用AutoDock Vina對整個VS數(shù)據(jù)庫(2800萬個分子)做小分子對接,本地104核CPU需2.6至5年,在云上自動化構(gòu)建并調(diào)度10萬核大規(guī)模算力集群后只用15.23小時就完成了所有任務(wù)。
去哪里堆?
企業(yè)自己采購機器,搞機房,或者直接用云,都可以。
那么,直接找個新藥研發(fā)平臺呢?
讓CADD/AIDD研發(fā)人員不用身兼數(shù)職,甚至要干運維的活;
更輕松、高效地獲取超大規(guī)模資源,還可以自動化變大變小彈性伸縮;
Workflow自定義制作模板,降低團隊整體學(xué)習(xí)和溝通成本;自動化的方式替代人工,提高研發(fā)整體效率和管理效率。
做創(chuàng)新藥已經(jīng)夠難了,充滿了不確定性。讓其他事情變簡單點?
先看幾個成果:



更多你想要的答案,這里應(yīng)該都有
新藥研發(fā)平臺37問
一、云平臺支持哪些CADD/AIDD場景?
二、云平臺支持哪些應(yīng)用?支持自定義工作流嗎?
三、對CADD/AIDD研發(fā)部門來說,有哪些好處?
四、對IT部門來說,有哪些好處?
一、云平臺支持哪些CADD/AIDD場景?
1、如何支持AIDD場景?
在AIDD方面,我們支持AlphaFold、RoseTTAFold等常用AI框架所需資料和快速環(huán)境的搭建,并支持更多組件按需集成。

2、平臺支持分子對接嗎?支持基因測序嗎?還支持哪些CADD場景?平臺可支持CADD中典型場景分子動力學(xué)模擬、分子對接、虛擬篩選等,并支持單細(xì)胞測序、全基因測序場景。
3、蛋白與蛋白docking可以在平臺中運行嗎?DOCK發(fā)展到現(xiàn)在整合多步驟的HADDOCK、ClusPro、SwamDock、RosettaDock等等,該領(lǐng)域的算法不斷地升級迭代。平臺也能夠很方便地集成相關(guān)軟件,提供驗證環(huán)境。
4、想要通過平臺篩選一些特定結(jié)構(gòu)的分子,是否可以優(yōu)化化合物庫?如果您能夠提供確切信息,可以一同討論優(yōu)化。同時,我們也準(zhǔn)備了很多開源的分子庫供大家使用,現(xiàn)在已支持Zinc、Drugbank、Maybridge、Enamine等。
5、目前平臺中是否有自建的化合物數(shù)據(jù)庫?
CADD研究過程中,不論是靶點的發(fā)現(xiàn)和優(yōu)化、還是先導(dǎo)化合物的發(fā)現(xiàn)和優(yōu)化,開源的分子庫是必不可少的基礎(chǔ)數(shù)據(jù)。目前開源的分子庫數(shù)據(jù)分散各地,下載緩慢,格式不統(tǒng)一,更新頻率不等,導(dǎo)致無法統(tǒng)一使用和管理,數(shù)據(jù)資產(chǎn)作用發(fā)揮有限。所以我們構(gòu)建了fastone自有的分子庫,并做好了進一步的數(shù)據(jù)準(zhǔn)備。
例如:
1、數(shù)據(jù)預(yù)處理,合并或格式轉(zhuǎn)換;
2、數(shù)據(jù)后處理,去重或力場優(yōu)化。
6、你們可以協(xié)助做小分子設(shè)計嗎?
我們不直接提供具體的小分子設(shè)計,我們負(fù)責(zé)搭建IT和信息平臺,協(xié)助您完成相關(guān)的研發(fā)工作。
7、基因數(shù)據(jù)量很大,平臺有什么好的解決辦法?
對于GB級別的增量數(shù)據(jù),我們支持以混合云組網(wǎng)專線的方式優(yōu)化上傳線路。傳輸通道使用DM工具,支持全自動化數(shù)據(jù)上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數(shù)據(jù)。
對于PB級別的存量數(shù)據(jù),建議通過離線方式快速傳輸。
8、最終結(jié)果能否在線可視化查看?
平臺支持圖片、表格、HTML等多種形式展現(xiàn)。

二、云平臺支持哪些應(yīng)用?支持自定義工作流嗎?
9、云平臺能覆蓋到我常用的軟件嗎?我們支持常用的生物/化學(xué)計算類應(yīng)用,包括:生物化學(xué)與分子生物學(xué)/化學(xué)工程/生物化學(xué)/應(yīng)用化學(xué)/生物工程/藥物化學(xué)/分析化學(xué)/物理化學(xué)/高分子化學(xué)與物理。
10、具體來說,支持哪些生物/化學(xué)計算類應(yīng)用/工具?我們支持幾乎所有的生物/化學(xué)計算類應(yīng)用/工具,包括:AutoDockVina、Amber、FastQC、DeltaVina、GATK、Gromacs、Schr?dinger、NetMHC、Rosetta、BCFtools等。
更多支持應(yīng)用列表,歡迎文末掃碼添加小F獲取。
11、你們支持Alphafold嗎?
我們可以快速提供Alphafold等常用環(huán)境,方便用戶快速進行后續(xù)研究。
12、我們用的軟件是自己編譯的,你們平臺支持嗎?
支持。我們提供的集群環(huán)境鏡像已包含常見應(yīng)用工具運行所需的依賴庫,用戶也可以自行安裝配置。
13、對于一些商業(yè)軟件例如Schr?dinger,你們提供License嗎?
商業(yè)軟件的License文件需要客戶自行提供,fastone提供License Server進行統(tǒng)一管理。
14、分子對接流程能不能自定義?上云之后每次都要重新弄一遍嗎?
很多時候,現(xiàn)成的應(yīng)用往往無法滿足用戶的需求,需要根據(jù)自己的模型和研究目標(biāo),自定義設(shè)置一套獨有的工作流程。
特別是新藥研發(fā)所涉及的應(yīng)用上,可以說幾乎沒有一模一樣的工作流。 我們已經(jīng)實現(xiàn)了多款應(yīng)用(如Vina、Amber)的自定義工作流,可以根據(jù)用戶的實際使用場景(包括入?yún)⑽募⒔Y(jié)果文件、流程使用方式、步驟以及相關(guān)說明等)實現(xiàn)自定義模板和腳本自動化。用戶也可以提供腳本,由我們協(xié)助完成并行化改造。
15、你們是否提供固定的工作流模板?
提供。
用戶在進行了一次或多次復(fù)雜的設(shè)定之后,能把這些設(shè)定保存成固定模板,不用重復(fù)手動去一步步重新設(shè)置。一次制作,反復(fù)使用,省時省力,還不用擔(dān)心中間出錯。而且,這套自定義的設(shè)置是可以跨應(yīng)用存在的,不一定局限在一個應(yīng)用范圍內(nèi)。自己重復(fù)用,共享給團隊的其他人用,都可以。

16、你們是怎么幫助我們做工作流優(yōu)化的?
我們有通用的框架。我們也有對應(yīng)的CADD專家,可理解您的業(yè)務(wù)需求,快速設(shè)計出合理的相關(guān)流程。
17、你們的云平臺如何與CADD應(yīng)用相結(jié)合適配?
我們提供兩種模式進行適配:任務(wù)模式和集群模式。
集群模式為用戶提供了一個靈活的環(huán)境,用戶可在集群模式下進行一系列的調(diào)整和優(yōu)化,自由度非常高。
如果您習(xí)慣使用圖形化界面操作,我們也提供圖形桌面,您可通過Web瀏覽器啟動集群,跳轉(zhuǎn)到虛擬桌面,并可在該桌面直接操作應(yīng)用進行相應(yīng)設(shè)置以開啟云端任務(wù)。當(dāng)用戶在集群模式下跑通了之后,可以選擇將整個流程固化下來,方便更多研發(fā)人員使用。此時我們可以幫助用戶將此套流程轉(zhuǎn)換成固定的任務(wù)模式,讓更多的人可以使用這個成熟的框架,從而加速后續(xù)的整體研發(fā)效率。
三、對AIDD/CADD研發(fā)部門來說,有哪些好處?
18、你們的平臺容易操作嗎?用起來會不會很麻煩?
我們?yōu)锳IDD/CADD研發(fā)人員提供了一整套即開即用的新藥研發(fā)環(huán)境,從登錄桌面、打開應(yīng)用、配置、提交任務(wù)、自動上云開機運行任務(wù)并自動關(guān)機、查看結(jié)果進行調(diào)試……用戶所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用鼠標(biāo)簡單點選即可完成。、

19、有些應(yīng)用需要先跑完主任務(wù)再跑其他任務(wù),上云可以智能化跑任務(wù)嗎?
有些應(yīng)用在運算時存在依從機制,每若干個任務(wù)中包含1個主任務(wù),只有當(dāng)主任務(wù)運行結(jié)束后,其他任務(wù)才能開始并行運算。
由于任務(wù)有先后,所以需要先跑主任務(wù),在每個主任務(wù)完成之后自動調(diào)度資源并行運算其他任務(wù)。
而不同任務(wù)完成時間可能不同,對資源的需求量可能時高時低有波動,最終結(jié)束關(guān)機時間也不同。
我們使用Slurm調(diào)度器按順序調(diào)度任務(wù)排隊,Auto-Scale功能可自動監(jiān)控任務(wù)和資源需求,動態(tài)按需地開啟與關(guān)閉所需資源。詳細(xì)的自動化過程可參考27問。
20、做分子對接,動不動就是幾百萬上千萬個分子,太貴了,有節(jié)約成本的方案嗎?
分子對接規(guī)模如果巨大,有什么好的解決辦法能加快這個過程?怎么做到的?分子對接的一大特征是任務(wù)數(shù)量龐大而單個任務(wù)計算時間短,單個分子對接的時間通常在幾分鐘以內(nèi)(與參數(shù)設(shè)置有關(guān))。
這一特征天然匹配云端的SPOT實例。
當(dāng)便宜且隨時可能被搶占中斷的SPOT實例遇到迷你卻海量的分子對接任務(wù),簡直就是天造地設(shè)的一對。
1、常規(guī)分子對接任務(wù)幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態(tài);
2、fastone平臺具備自動重試功能,一個任務(wù)被中斷可以自動重新提交,任務(wù)之間互相不影響,重新提交單個任務(wù)影響很小。詳見《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》
21、任務(wù)量比較大,想提前預(yù)估一下費用再做決策,有沒有什么好辦法?
我們平臺預(yù)設(shè)了智能預(yù)測功能,以MOE為例。
用戶在fastone平臺的圖形化操作界面運算MOE任務(wù),完成以下步驟:
1、用戶上傳數(shù)據(jù)文件(平臺自動解析文件,判斷其中包含的分子數(shù)量)
2、用戶輸入期望的運算時間(平臺推薦用戶適配機型或用戶自行選擇機型)
3、系統(tǒng)得出預(yù)測成本

項目負(fù)責(zé)人能夠非常方便地使用該功能預(yù)估項目費用,完成項目規(guī)劃和申請。
22、我要跑TPU,你們支持嗎?
支持。
用戶可以通過我們平臺獲取到TPU資源。
23、有時會遇到CADD模擬出的結(jié)果與實際結(jié)果有一定出入,這是為什么?
CADD本身是模擬的結(jié)果,通過不斷的迭代,力場的優(yōu)化,會不斷接近實際情況。CADD和實際的實驗數(shù)據(jù)相結(jié)合,反復(fù)設(shè)計和迭代,可以達(dá)到很好的效果。
24、有些任務(wù)需要使用大量的GPU資源,你們有嗎?
當(dāng)單個云廠商的GPU資源難以滿足需求時,我們會根據(jù)用戶任務(wù)需要和特性,跨多家公有云廠商,智能自動化調(diào)度云端GPU異構(gòu)資源,保證用戶對GPU的需求得到滿足。
25、GPU資源很貴,有沒有節(jié)約成本的方案?
GPU資源在不同云廠商之間有著顯著的差異,而且往往資源多的售價高,便宜的資源少,同時兼顧成本和效率是必須要考慮的問題。以各大公有云廠商在北京地區(qū)的GPU實例(V100)按需價格為例,最高價格超過最低價2倍。

我們平臺可綜合考量用戶對完成任務(wù)所需時間和成本的具體要求,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區(qū)、跨云廠商調(diào)度所需資源。
26、用Amber跑任務(wù),用GPU跑非常快,但是有時候會跑失敗,用CPU雖然穩(wěn)定但是慢,你們怎么解決?
這是Amber18版本的固有問題,在使用GPU時計算時有10-15%概率失敗,需要及時調(diào)度CPU資源重新計算。我們平臺支持優(yōu)先使用GPU計算,當(dāng)任務(wù)失敗時,自動調(diào)用CPU重新計算。
該問題已在Amber20中修復(fù)。

四、對IT部門來說,有哪些好處?
27、現(xiàn)在公司里才幾臺機器,天天維護頭就很大了,云上這么多機器還不得把自己搞禿了?
云上的運行環(huán)境都是自動化配置的,不需要人工干預(yù),用戶還可以通過平臺進行統(tǒng)一管理和監(jiān)控,方便易操作。
舉個例子,我們的Auto-Scale功能可以自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地開啟和關(guān)閉所需算力資源,在不夠的時候,還能根據(jù)不同的用戶策略,自動化調(diào)度本區(qū)域及其他區(qū)域的目標(biāo)類型或相似類型實例資源。所有操作都是自動化完成,無需用戶干預(yù)。
下圖就是開啟Auto-Scale功能后,用戶某項目一周之內(nèi)所調(diào)用云端計算資源的動態(tài)情況。
其中橙色曲線為OD實例的使用狀況,紅色曲線為SPOT的使用狀況。

Auto-Scale功能可以根據(jù)任務(wù)運算情況動態(tài)開啟云端資源,并在波峰過去后自動關(guān)閉,讓資源的使用隨著用戶的需求自動擴張及縮小,最大程度匹配任務(wù)需求。
28、你們是什么存儲策略?費用呢?冷存儲和熱存儲的費用是不一樣的,我們會根據(jù)用戶的情況提供個性化的解決方案。
29、數(shù)據(jù)備份的頻率如何?最高可以達(dá)到多少?現(xiàn)有策略怎樣?默認(rèn)每周六進行數(shù)據(jù)備份,也可以根據(jù)客戶需求按天或按小時備份。
30、使用平臺的工作人員比較多,能否對每個人設(shè)置使用資源的上限?
fastone平臺的權(quán)限和角色管理功能,支持管理員角色對每一個用戶進行相關(guān)權(quán)限設(shè)定,包括預(yù)算使用上限和CPU核數(shù)使用上限,從而在全局角度管控項目的資源消耗。該功能與智能預(yù)測配合使用,能夠從多個層面對預(yù)算和資源進行全方位規(guī)劃。

31、公司里還有些機器能用,你們支持混合云模式嗎?
支持。
可以將本地機器做成集群,也可以基于本地機器搭建混合云平臺。我們支持本地資源不足的時候,自動溢出到云上。
32、你們怎么實現(xiàn)混合云?
云資源和本地之間通過安全的數(shù)據(jù)通道連接,所有資源在fastone平臺統(tǒng)一管理,有統(tǒng)一視圖,并按需智能調(diào)度,不改變用戶的使用習(xí)慣。
33、公司里已經(jīng)有機器了,再增加一套云環(huán)境,IT管理上會不會變麻煩?通過我們可以在不增加負(fù)擔(dān)的情況下對接多云,減少IT管理壓力。我們的自動化管理平臺很容易上手,對提升研發(fā)效率和資源利用率都有很大幫助。
34、我們公司有海外研發(fā)部門,用你們平臺方便嗎?
我們的平臺支持全球部署,我們會全球的優(yōu)化組網(wǎng),統(tǒng)一用戶管理,數(shù)據(jù)管理,優(yōu)化的遠(yuǎn)程接入方式,保持一致的用戶體驗。

35、云上云下的安全如何保障?
安全是一個立體的概念,包括系統(tǒng)安全、應(yīng)用安全、流程安全、數(shù)據(jù)安全等很多方面。
云的基礎(chǔ)架構(gòu)和傳統(tǒng)IT架構(gòu)在安全方面并沒有本質(zhì)上的區(qū)別,依然是利用計算節(jié)點和存儲資源。很多人覺得這兩者之間存在差異,我們認(rèn)為這取決于個人的認(rèn)知。本地的安全措施在云上都可以實現(xiàn),同時云廠商本身還提供更強大的安全保障。
36、數(shù)據(jù)安全如何實現(xiàn)?
數(shù)據(jù)全部通過安全協(xié)議傳輸,并支持RBAC的數(shù)據(jù)訪問認(rèn)證鑒權(quán)。同時,我們還支持?jǐn)?shù)據(jù)加密存儲,算法可自定義。
- END -
我們有個新藥研發(fā)云平臺
集成多種生命科學(xué)領(lǐng)域應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送200元體驗金,入股不虧~

更多電子書歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺:
解讀Hyperion年度報告:脫離場景談用量就是耍流氓
這一屆科研計算人趕DDL紅寶書:學(xué)生篇
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
AI太笨了……暫時
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
