美國RAND公司的研究報(bào)告指出,本世紀(jì)初美國生物銀行存貯的人體組織樣本數(shù)量超過3億份,并以每年2000萬份的速度增加。而我國的國家基因庫也擁有3000萬份人、動(dòng)植物和微生物樣本,被認(rèn)為是世界級(jí)的生物樣本庫和組學(xué)數(shù)據(jù)庫。
在如今這樣的信息時(shí)代下,這些數(shù)量龐大的數(shù)據(jù)有什么作用?打個(gè)比方,數(shù)據(jù)就像沙子,單個(gè)來看,也許毫無價(jià)值可言,沒有技術(shù)辨別、提純的時(shí)候,它們就是一盤散沙;但是當(dāng)數(shù)據(jù)量足夠大,并且有技術(shù)能夠把它們利用起來,這些數(shù)據(jù)的價(jià)值就會(huì)急劇上升,猶如沙子變成了黃金。生物樣本庫與信息化管理的有序結(jié)合,將為生物樣本庫創(chuàng)造新的價(jià)值。本次生物谷有幸請(qǐng)到了即將參加2015(第二屆)生物樣本庫與臨床研究論壇的上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院的王偉業(yè)教授,看看他對(duì)于生物樣本庫信息化有怎樣的看法。
生物谷:移動(dòng)醫(yī)療大發(fā)展的背景下,生物樣本庫的信息化有著怎樣的發(fā)展基礎(chǔ)?
王偉業(yè)教授:生物樣本的價(jià)值是離不開與其密切相關(guān)的所有信息,其中個(gè)人生活信息和臨床表現(xiàn)信息雖然比較直觀,想象中可能比較容易獲取,其實(shí)可能不那么容易獲得配合或反映真實(shí)情況的信息,或言人為因素較多的信息,造成信息缺乏或質(zhì)量不高。這方面的信息可以反映樣本來源的特性或特征,對(duì)與臨床研究結(jié)果分析極為重要。最常用方法是通過問卷方式需要被詢問這提供答案來獲取相應(yīng)信息,這就必然涉及許多因素,比如詢問的環(huán)境與時(shí)間,對(duì)象是否愿意或?qū)μ峁┬畔⑹欠裼信d趣,提供者是否有耐心等,會(huì)直接影響信息的質(zhì)量:真實(shí)性和全面性。另外這樣的信息通常需要長時(shí)間的隨訪,被詢問者的依從性成為是否能夠長期隨訪的關(guān)鍵。我今年在英國參加國際學(xué)術(shù)會(huì)議期間,專程拜訪目前世界上最大的英國生物樣本庫(UKBiobank)時(shí),給我一個(gè)比較深的印象是參加者(志愿者)會(huì)定期從各地乘火車到曼切斯特城(英國樣本庫所在地),到現(xiàn)場(chǎng)的計(jì)算機(jī)上輸入自己在家里回答的問卷信息(用U盤的方式),并在現(xiàn)場(chǎng)進(jìn)行相應(yīng)的檢查觀察。我特別就此問題詢問接待我們的負(fù)責(zé)人,同時(shí)還玩笑說這些來的人可能都是上了年紀(jì)的人,比較有時(shí)間(調(diào)查對(duì)象為40-69歲人群),不否定與年齡組可能有些相關(guān),但是參加者的配合性也是令人印象深刻(研究方只提供報(bào)銷路費(fèi))。我國此類方面的研究面臨的配合方面的問題可能多些,配合或隨訪的依從性往往是比較顯著的問題。要想提高這方面信息的質(zhì)量,應(yīng)用移動(dòng)醫(yī)療手段獲取此類信息,比如可穿戴的移動(dòng)設(shè)備等,相信是一個(gè)比較有效的方法之一。上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院崇明分院采用手機(jī)終端的APP,"疼痛智能管理系統(tǒng)"來獲取信息和及時(shí)管理患者的疼痛就是移動(dòng)醫(yī)療信息收集與樣本信息化的一個(gè)很好實(shí)例。由上海市崇明新華癌痛轉(zhuǎn)化研究所丁罡教授領(lǐng)銜的項(xiàng)目組在臨床管理病人臨床疼痛癥狀過程中,考慮到患者不遵醫(yī)囑服用痛藥物的行為普遍存在,同時(shí)由于醫(yī)生缺乏對(duì)患者服藥療效進(jìn)行實(shí)時(shí)評(píng)估和隨訪的有效工具,無法規(guī)范醫(yī)囑的落實(shí),保障患者的最佳治療效果。另外,疼痛評(píng)估是主觀的、動(dòng)態(tài)變化,疼痛的性質(zhì)也隨著病理生理狀態(tài)的變化而改變,但臨床上仍然缺乏有效的隨訪工具對(duì)患者的疼痛治療效果進(jìn)行實(shí)時(shí)評(píng)估。為此,丁罡教授的項(xiàng)目組自主研發(fā)了手機(jī)終端的"疼痛智能管理系統(tǒng)"為患者提供更加合理的管理;颊呙刻焱ㄟ^智能手機(jī)界面上的疼痛管理模塊,將他的狀況實(shí)時(shí)反饋給臨床醫(yī)生,這樣就可以移動(dòng)管理病人,更可貴的是收集到真實(shí)的信息,而且病人的配合非常好,丁罡教授曾經(jīng)對(duì)我說過患者的依從性非常好,也出乎他意料,有利于長期隨訪,所以移動(dòng)醫(yī)療幫助收集信息,而且全面與長期性很好,這樣的信息注釋到相應(yīng)的樣本,加上由此分析研究的實(shí)驗(yàn)室信息,能夠很全面的描述樣本的特征并應(yīng)用與進(jìn)一步深入的研究。另外,這樣收集的數(shù)據(jù)省時(shí)間,省人力和相關(guān)成本,比當(dāng)面以詢問時(shí)獲得的信息會(huì)更可靠,在自己熟悉的環(huán)境和合意的時(shí)間提供信息,這也就是樣本庫信息化追求的目標(biāo):從樣本信息化(SampleAnnotation)到信息化的樣本庫(AnnotationofBiobank)。
生物谷:臨床信息與樣本信息整合有利于樣本信息化,你認(rèn)為目前這方面的主要問題是什么?
王偉業(yè)教授:我認(rèn)為主要問題可概括為三個(gè)方面:(1)由臨床獲得的信息只是非常簡(jiǎn)單的信息,結(jié)果僅僅是省些人工而已。這種現(xiàn)象表現(xiàn)為樣本庫信息系統(tǒng)與臨床連接,輸入病人住院號(hào),其他相關(guān)的登記信息自動(dòng)進(jìn)入樣本庫系統(tǒng),這些信息對(duì)樣本庫管理可能有些用,但對(duì)樣本特性表達(dá)需要的信息化幾乎還沒有任何聯(lián)系;(2)可能比較盲目地獲取臨床的所有信息,信息太多,但缺乏明確的信息內(nèi)容指南。這種方式是將臨床系統(tǒng)中的大部分信息自動(dòng)輸入樣本庫系統(tǒng),儲(chǔ)存在新建的一些表格中,可以通過報(bào)告的方式展示一個(gè)人的詳細(xì)臨床信息。這樣的信息輸入操作兩個(gè)大的問題:一方面只是針對(duì)某一個(gè)人的詳細(xì)報(bào)告而已,也僅僅是復(fù)制新的儲(chǔ)存位置,另一方面,這樣的信息結(jié)構(gòu)并不能夠在樣本庫中得到應(yīng)用--查詢需要的樣本和/或人。因?yàn)闃颖編斓膽?yīng)用困難而造成信息整合的浪費(fèi);(3)缺乏設(shè)計(jì),主要原因是沒有設(shè)計(jì)樣本信息需要的數(shù)據(jù)元素和相應(yīng)的數(shù)據(jù)集,尤其是整合的信息沒有正確地應(yīng)用到樣本庫的工作。比如心血管疾病,糖尿病,高血壓和腫瘤等需要這些臨床信息合理地描述樣本或受試者的生物特性,尤其是不同疾病信息之間的相互聯(lián)系,比如糖尿病會(huì)增加心血管疾病風(fēng)險(xiǎn),糖尿病同時(shí)合并高血壓的機(jī)率增加,而心血管疾病又是糖尿病人死亡的主要原因等,充分說明疾病之間的相關(guān)性,簡(jiǎn)單點(diǎn)說,就是需要是如何找到既有糖尿病,也有心血管疾病的樣本和/或患者,這是一部信息化的基本要素。另外最基本也是最重要的結(jié)果是要能夠應(yīng)用到樣本庫的查詢之中,找到研究者需要的特異性的資源,通過歸類與區(qū)別資源獲得需要的樣本。
生物谷:促進(jìn)樣本庫之間的合作,你認(rèn)為最基本應(yīng)該如何做起?
王偉業(yè)教授:樣本庫之間的合作主要是資源整合應(yīng)用以及多學(xué)科的結(jié)合研究,我認(rèn)為最基本的一個(gè)需求就是同源樣本應(yīng)該有相同的信息內(nèi)容,是指不同樣本庫的樣本具有相同的數(shù)據(jù)集來容納信息,以保證不同樣本庫的樣本能夠進(jìn)行相似性作比較分析,將符合要求的資源進(jìn)行合理整合。由于我國生物樣本庫建設(shè)還處于初期階段,各個(gè)樣本庫的設(shè)計(jì),信息收集和管理方式方面的異質(zhì)性較大。同源樣本比如糖尿病資源,可能合并有心血管疾病。糖尿病是心血管疾病高風(fēng)險(xiǎn)因素,糖尿病患者患心血管疾病風(fēng)險(xiǎn)性要比人群高2-4倍,而心血管疾病是造成糖尿病患者死亡的首要原因。另外糖尿病患者同時(shí)合并有高血壓的風(fēng)險(xiǎn)又是正常血糖人群的2倍多;糖尿病人更容易發(fā)生心臟病發(fā)作或中風(fēng),而且預(yù)后也差等特點(diǎn)。在這些同源樣本有不同信息內(nèi)容的心血管疾病或腫瘤樣本資源如果簡(jiǎn)單整合應(yīng)用,可能人為地產(chǎn)生"非同源性"樣本?偠灾,要先統(tǒng)一的要整合的信息內(nèi)容,歸納其具有相似的生物特性后,排除不合適的樣本,能夠合理地做信息交流,比較分析后才能夠確定真正的同源性。
生物谷:BIMS系統(tǒng)的接下來的主要發(fā)展和研究方向是什么?
王偉業(yè)教授:我剛剛完成新版BIMS的設(shè)計(jì)構(gòu)思,并與合作團(tuán)隊(duì)完成初步的計(jì)劃,并已經(jīng)開始實(shí)施。我就簡(jiǎn)單地稱為新一代BIMS即NGBIMS。12月14日山東青島舉辦的全國首個(gè)省級(jí)生物樣本庫分會(huì)成立大會(huì)的報(bào)告中我初次詮釋了BIMS的理念和含義:BMIS并不是如字面上反映的那樣(BiobankInformationManagementSystem),而是強(qiáng)調(diào)樣本信息化的主題,即BiologicalInformationMakesSamples。既進(jìn)一步強(qiáng)調(diào)樣本的真正價(jià)值在其內(nèi)涵的信息,研究的目的是挖掘出其中的信息即為樣本價(jià)值。
NGBIMS主要不是改變?cè)械墓芾砹鞒,而是作深一步的設(shè)計(jì),使其變得更加靈活,新設(shè)計(jì)反映主要部分可以歸納為:(1)多樣化,(2)模板化、(3)個(gè)性化,(4)信息化,(5)電子表格,(6)圖形化六個(gè)大方面。
BIMS目前面臨的最大問題是缺乏用戶管理界面,需IT人員進(jìn)行修改,既費(fèi)時(shí)又不方便,不利于使用者根據(jù)自己喜好而調(diào)整。多樣化的基本目的是把系統(tǒng)調(diào)整權(quán)利交給使用者,根據(jù)管理的喜好來重新"打扮"(設(shè)置)系統(tǒng);我國的樣本庫建設(shè)處于初期,樣本庫專職管理人員的專業(yè)性需要時(shí)間的積累,目前樣本庫的管理,尤其是信息收集等方面有些隨便或多樣,完全根據(jù)自己認(rèn)為的需求做,這樣造成樣本庫之間原有的差異性(Heterogeneity)變得更大,非常不利于我們常常聽到的信息整合與共享。另一方面,樣本庫管理也需要一些引導(dǎo),將各種疾病資源信息化內(nèi)容根據(jù)相關(guān)專家的專業(yè)特長設(shè)置為專業(yè)管理模板,例如腫瘤病人登記和信息收集的數(shù)據(jù)元素和數(shù)據(jù)集等,不同樣本庫之間確定對(duì)同源樣本(來源于同一種疾病的樣本)的信息化內(nèi)容時(shí),能夠從已經(jīng)確定的系統(tǒng)導(dǎo)出(Export)某個(gè)數(shù)據(jù)集的模板,直接導(dǎo)入(Import)需要的樣本庫系統(tǒng),這樣逐步縮小樣本庫之間同源樣本中信息化方面的差異性,為信息統(tǒng)一的可能性鋪路;雖然工作流程要求下一步啟動(dòng)前必須等上一步完成之后,比如樣本收集項(xiàng)目需要審核流程,但有的樣本庫不一定要審核批準(zhǔn)步驟,NGBIMS的個(gè)體化體現(xiàn)在讓使用者根據(jù)需要來減少或增加任何一個(gè)工作流程中的步驟;雖然各種交流形式中多次討論過使用規(guī)范化的受控詞匯方法來提高樣本信息的統(tǒng)一性(DataHarmonization)以促進(jìn)樣本信息化(SampleAnnotation),但是BIMS目前還不具備能夠接受層次結(jié)構(gòu)的受控詞匯,比如Taxonomy,Ontology。為能夠進(jìn)一步鼓勵(lì)和推動(dòng)本信息化,為樣本庫之間信息交流共享鋪路,目標(biāo)是逐步強(qiáng)化必要的樣本與數(shù)據(jù)標(biāo)準(zhǔn)。NGBIMS將在系統(tǒng)中建立能夠整合層次結(jié)構(gòu)的受控詞匯,最基本的受控詞匯將從臨床診斷的ICD-10或SNOMED-CT開始;另外,樣本庫信息系統(tǒng)面臨的挑戰(zhàn)之一是樣本與信息登記表或受試者注冊(cè)表的多樣性,所以根據(jù)臨床實(shí)際的信息表格在NGBIMS中定制想要的電子表格,這將會(huì)給使用者帶來方便和滿足個(gè)性需要;圖形的直觀性對(duì)于樣本庫管理者在管理過程中分析、討論和監(jiān)控樣本都是非常有利的,比如在辦公室里面可以通過圖形了解樣本庫儲(chǔ)存設(shè)備以及其中的樣本分布,工作流程中各種報(bào)告以圖形的方式展示等。另外還有系統(tǒng)數(shù)據(jù)表格數(shù)據(jù)表拆分設(shè)計(jì)一方面有助于數(shù)據(jù)庫的管理,也更有利于加快系統(tǒng)運(yùn)作的速度也都是NGBIMS的新體驗(yàn)?傊,NGBIMS在增加個(gè)性和靈活性同時(shí),還是在邏輯上有規(guī)范化的控制,做到既靈活多樣,但是也要服從基本的統(tǒng)一和規(guī)范。
王偉業(yè)教授即將參加2015年1月22日在上海舉辦的2015(第二屆)生物樣本庫與臨床研究論壇,就我國生物樣本庫建設(shè)及應(yīng)用領(lǐng)域的發(fā)展進(jìn)行更多的探討和交流。詳情請(qǐng)關(guān)注生物谷后續(xù)報(bào)道。
關(guān)于王偉業(yè)
教授,美國M.D.Anderson腫瘤研究中心生物化學(xué)與分子生物學(xué)博士,生物信息研究與信息化管理專家。作為跨學(xué)科專業(yè)人士于2012年引進(jìn)回國,任職于上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院,擔(dān)任環(huán)境與兒童健康上海市和教育部重點(diǎn)實(shí)驗(yàn)室教授,副主任和新華醫(yī)院生物樣本庫主任。多年來先后在美國M.D.AndersonCancerCenter,BaylorCollegeofMedicine,WyethResearch和MedicalCollegeofWisconsin等科研機(jī)構(gòu)從事生物醫(yī)學(xué)研究,近年來主要從事生物樣本庫建設(shè)和信息化管理方面的工作,同時(shí)受聘為上海交通大學(xué)醫(yī)學(xué)院轉(zhuǎn)化醫(yī)學(xué)研究院"985工程"生物樣本庫建設(shè)首席咨詢專家,指導(dǎo)多家生物樣本庫基本的建設(shè)工作。目前的研究工作重心為生物醫(yī)學(xué)科研信息和生物樣本庫信息化發(fā)展,促進(jìn)資源信息共享。王教授領(lǐng)導(dǎo)的IT合作團(tuán)隊(duì)在較短時(shí)間內(nèi)啟動(dòng)了幾個(gè)信息化項(xiàng)目的研發(fā),已經(jīng)成功完成的生物樣本庫信息化管理系統(tǒng)(BIMS系統(tǒng))已經(jīng)在多家樣本庫建設(shè)和管理者發(fā)揮作用。另外,王教授領(lǐng)導(dǎo)的兩項(xiàng)信息化科研項(xiàng)目已經(jīng)分別獲得上海科委創(chuàng)新國際合作項(xiàng)目和國家國際科技合作專項(xiàng)的經(jīng)費(fèi)支持,探索應(yīng)用統(tǒng)一多方數(shù)據(jù)元素的方法和數(shù)據(jù)屏蔽技術(shù),建設(shè)信息共享機(jī)制和運(yùn)作模式,促進(jìn)國內(nèi)國際合作研究以及是樣本資源的共享建設(shè),為領(lǐng)域的領(lǐng)軍者之一。