摘要: 3月28日,國際學(xué)術(shù)期刊Bioinformatics在線發(fā)表了中國科學(xué)院上海生命科學(xué)學(xué)習(xí)院生物化學(xué)與細(xì)胞生物學(xué)學(xué)習(xí)所陳洛南學(xué)習(xí)組題為Pattern fusion analysis by adaptive alignment of multiple heterogeneous omics dat ...
3月28日,國際學(xué)術(shù)期刊Bioinformatics在線發(fā)表了中國科學(xué)院上海生命科學(xué)學(xué)習(xí)院生物化學(xué)與細(xì)胞生物學(xué)學(xué)習(xí)所陳洛南學(xué)習(xí)組題為Pattern fusion analysis by adaptive alignment of multiple heterogeneous omics data 的最新學(xué)習(xí)成果。該成果展示了基于流形思想,通過整合多種組學(xué)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)的信息融合與偏差校正,并從中識別出全局樣本模式的方法。 隨著測序技術(shù)的發(fā)展,組學(xué)數(shù)據(jù)呈現(xiàn)井噴式增長,大數(shù)據(jù)時(shí)代的來臨給生物信息科學(xué)帶來了新的機(jī)遇和挑戰(zhàn)。傳統(tǒng)的基于單組學(xué)數(shù)據(jù)的學(xué)習(xí),只能夠有限地解釋生物系統(tǒng)或者復(fù)雜疾病的特征;采用的數(shù)據(jù)類型不同,也往往得到不同的分析結(jié)論;這些均大大阻礙了高通量技術(shù)在臨床方面的應(yīng)用。既然各組學(xué)數(shù)據(jù)對于刻畫生物表型的貢獻(xiàn)不盡相同,那么,能夠?qū)⒉煌愋偷慕M學(xué)數(shù)據(jù)有效地整合到一起,以綜合和整體的視角來看待生物過程或者表型,成為了信息轉(zhuǎn)化醫(yī)學(xué)應(yīng)用的一個(gè)重要突破口。盡管,近幾年來有一些學(xué)習(xí)成果問世,但這些成果大都基于特定的模型假設(shè),在整合不同信噪比的組學(xué)數(shù)據(jù)時(shí),往往容易遺漏重要信息,甚至得到錯(cuò)誤結(jié)果。 針對整合組學(xué)數(shù)據(jù)中存在的此種難題,陳洛南學(xué)習(xí)組開發(fā)了一套新的整合辦法。該方法從數(shù)據(jù)本身出發(fā),在保留各組學(xué)的生物特性的前提下,將各層數(shù)據(jù)反映出的樣本模式進(jìn)行自動(dòng)非線性整合,并且由優(yōu)化得到符合數(shù)據(jù)固有特征的全局樣本模式。其中,各組學(xué)數(shù)據(jù)對于整合結(jié)果的貢獻(xiàn)得以量化,數(shù)據(jù)偏差得以校正,可以有效地鑒別出數(shù)據(jù)內(nèi)部結(jié)構(gòu)特征。這種無特殊假設(shè)的計(jì)算模型,可真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的整合。學(xué)習(xí)組不僅在數(shù)字實(shí)驗(yàn)上驗(yàn)證了該方法的有效性,還成功應(yīng)用到生物學(xué)數(shù)據(jù)的分析——癌癥細(xì)胞系CCLE數(shù)據(jù)與臨床病人TCGA數(shù)據(jù)上,揭示出整合后的癌癥分型具有更顯著的生物學(xué)或者臨床預(yù)后的重要性。 該學(xué)習(xí)得到了國家重點(diǎn)學(xué)習(xí)發(fā)展項(xiàng)目、中科院戰(zhàn)略性先導(dǎo)專項(xiàng)和上海自然科學(xué)基金等經(jīng)費(fèi)的支持。