讀文獻(xiàn)是科研人員的基本功,一方面是了解學(xué)科發(fā)展,另一方面更現(xiàn)實(shí)一點(diǎn),就是為了發(fā)文章。起步階段讀論文一般是模仿與研究,但到了中后期如果你的視野不夠開闊,很容易陷入到安全區(qū)陷阱,認(rèn)為自己做自己那一小攤就挺好,其實(shí)很有可能大浪過來,全軍覆沒,說直白點(diǎn)就是申不到錢,課題與項(xiàng)目運(yùn)轉(zhuǎn)不下去,思路也會(huì)枯竭。當(dāng)你去開學(xué)術(shù)會(huì)議時(shí),那些大會(huì)報(bào)告的報(bào)告人的開場(chǎng)總有個(gè)全局概覽的視野,這種評(píng)論是需要經(jīng)驗(yàn)去堆的,但其實(shí)也挺虛的:你回頭去看容易知道哪里有坑哪里有丘,但身處時(shí)代浪潮之中是不太容易感知趨勢(shì)的。
但傳統(tǒng)基于核心關(guān)鍵詞的檢索跟全局觀是本質(zhì)相悖的,核心關(guān)鍵詞往往限制了內(nèi)容,雖然有利于聚焦但不利于發(fā)散與概覽。不過當(dāng)前文獻(xiàn)數(shù)據(jù)空前開放,如果你有類似全局視野問題,是可以自己探索的。這里要用到一個(gè)名為自然語(yǔ)言處理(NLP)的工具,簡(jiǎn)單說就是我不去看單篇文獻(xiàn)或薈萃分析,而是通過語(yǔ)義關(guān)系探索大量文獻(xiàn)中的潛在模式,進(jìn)而找出熱點(diǎn)。今天我用pubmed這個(gè)免費(fèi)的文摘數(shù)據(jù)庫(kù)來做個(gè)演示,探索下科學(xué)學(xué)習(xí)的整體前沿,結(jié)論不一定對(duì),但方法思路如果你能掌握并舉一反三,會(huì)有發(fā)現(xiàn)新大陸的感覺。
數(shù)據(jù)獲取
數(shù)據(jù)獲取思路是這樣的:如果想知道整體前沿,最需要的是綜合類期刊,全文的數(shù)據(jù)量我的筆記本也跑不了,就考慮摘要,這樣也過濾了那些沒有摘要的評(píng)論與觀點(diǎn),更多關(guān)注學(xué)習(xí)性論文。期刊選擇為綜合類的科學(xué)、自然與美國(guó)科學(xué)院院刊,收集2016年一整年的論文摘要,用easyPubmed包來搜索并整理成相對(duì)干凈的數(shù)據(jù)集。這里我只收集了題目、摘要、出版期刊與日期進(jìn)行文本數(shù)據(jù)挖掘。
發(fā)文量
首先我們先看看著三份期刊的發(fā)文量:
這三份期刊里,PNAS發(fā)文量最大,占總數(shù)一半。
高頻詞
然后我們看一下各期刊的前十大摘要高頻詞:
這里解釋一下,如果我們單純尋找高頻詞其實(shí)這幾個(gè)期刊都應(yīng)該差不多,但這里我們用的是TF-IDF來加權(quán)篩選,這個(gè)加權(quán)不嚴(yán)謹(jǐn)?shù)恼f就是這個(gè)詞出現(xiàn)在該期刊的詞頻與出現(xiàn)在所有期刊詞頻的比例,通過這個(gè)值我們可以找到單個(gè)期刊比較重要的詞。我們可以看到腫瘤與行為均出現(xiàn)在三個(gè)期刊的十大關(guān)鍵詞中,推測(cè)相關(guān)學(xué)習(xí)應(yīng)該是去年的重點(diǎn)。此外,自然與美國(guó)科學(xué)院院刊都出現(xiàn)了模型這個(gè)詞。就特色而言,自然去年更關(guān)注造血過程、信號(hào)傳遞與衰老問題;科學(xué)雜志則關(guān)心磷酸化、spo11蛋白與火山口還有小尺度問題;美國(guó)科學(xué)院院刊主題特色不算明顯,但比較喜歡強(qiáng)調(diào)學(xué)習(xí)重要性。
如果我們只考慮題目里的文字呢?
這里我們可以看出,自然上的論文題目跟摘要內(nèi)容契合度比較高;科學(xué)上論文題目喜歡出現(xiàn)中美的國(guó)家標(biāo)簽;美國(guó)科學(xué)院院刊看意思題目里專業(yè)名詞比較多。此外,三份期刊的題目里都出現(xiàn)了勘誤,這倒是前沿高影響力期刊的特點(diǎn):容易被質(zhì)疑。
詞關(guān)系
看完整體你應(yīng)該想到,單個(gè)詞并非孤立,那么這些詞之間會(huì)不會(huì)有相關(guān)性呢?這個(gè)問題我們也可以用NLP工具來學(xué)習(xí):
其實(shí)這個(gè)技術(shù)更常見,平時(shí)你用的輸入法就實(shí)現(xiàn)去考察一些字詞的關(guān)系,然后讓其出現(xiàn)的排序更符合常識(shí)。這里我們可以看到,從題目里我們能看到氣候變化、干細(xì)胞以及前面提到的勘誤問題。從摘要里我們則會(huì)發(fā)現(xiàn)大多數(shù)是生物相關(guān)的主題,也就是前沿科研應(yīng)該是生命科學(xué)在導(dǎo)向。但到目前為止我們都是把這一些文本當(dāng)成一個(gè)整體,但科學(xué)是分科的,也就是有不同的主題,此時(shí)我們就要用到主題模型來探索去年前沿科研關(guān)注的主題分類。
主題模型分類
所謂主題模型,就是通過探索字詞間內(nèi)部關(guān)系對(duì)文本進(jìn)行分類的模型,舉例來說某個(gè)潛在的主題包含7個(gè)關(guān)鍵詞,如果某篇文章命中6個(gè),那么這篇文章大概率就屬于這個(gè)潛在主題。當(dāng)然,現(xiàn)實(shí)生活我們并不知道這些潛在主題會(huì)是什么,但通過隱含狄利克雷分布,也就是LDA方法我們就可以去探索結(jié)構(gòu),然后去擬合實(shí)際經(jīng)驗(yàn)。
從上面我們可以看出,有些探索出來的主題大概我們知道是哪個(gè)領(lǐng)域的,有些則屬于誤判或者說界限不明顯的綜合領(lǐng)域,這說明跨學(xué)科學(xué)習(xí)正在崛起。其中,我能識(shí)別出來的主題大體有癌癥、腦科學(xué)、病毒、社會(huì)行為、基因組、膜蛋白結(jié)構(gòu)、氣候變化、進(jìn)化、動(dòng)態(tài)系統(tǒng)、材料。總體來看,細(xì)胞生物學(xué)與分子生物學(xué)還是主流,但病毒、氣候變化等問題導(dǎo)向的學(xué)科也在發(fā)展。其實(shí)也可以直接分析10年的時(shí)間變化趨勢(shì),不過這個(gè)就留成課后題吧(其實(shí)是我個(gè)人電腦跑不動(dòng))。
情感分析
一般認(rèn)為科研人員都是比較樂觀的,但其實(shí)文字背后究竟是否樂觀可以用文本的情感分析來回答。這個(gè)分析的原理就是事先找個(gè)標(biāo)注過情感的語(yǔ)料庫(kù),然后通過語(yǔ)料庫(kù)與詞頻來分析具體文本的情感傾向性。正常這個(gè)語(yǔ)料庫(kù)是要自己根據(jù)語(yǔ)境去構(gòu)建的,例如商品的好評(píng)差評(píng),但作為資深懶漢,我直接用了現(xiàn)成的AFINN語(yǔ)料庫(kù):
結(jié)果基本符合樂觀為主的預(yù)期,不過按說有些詞在科研中屬于中性詞,我們可以通過這個(gè)分析來考慮論文寫作的用詞方法。
其他
其實(shí)這只是一個(gè)很初步的分析,我甚至沒用用到引用與被引用的關(guān)系,也沒有考慮作者與學(xué)習(xí)機(jī)構(gòu)的時(shí)空分布特征,但類似這樣的文本分析應(yīng)該是一個(gè)現(xiàn)代科研人員所具備的屬性。這種分析的好處在于你不是在采樣,而是直接分析所擁有的整體,也就幾十兆的文本量,如果你電腦跑得動(dòng),把十年二十年的文獻(xiàn)沿革都可以概覽一下,這是這個(gè)時(shí)代給我們的紅利,不要白不要。
你可以學(xué)習(xí)一個(gè)大牛幾十年的論文發(fā)表來發(fā)現(xiàn)其獨(dú)到的眼光;也可以針對(duì)某個(gè)期刊挖掘其關(guān)注點(diǎn)的變更;還可以構(gòu)建自己認(rèn)可的課題組的文獻(xiàn)庫(kù),通過其發(fā)表內(nèi)容探索同行那些自己都沒意識(shí)到的行為改變。這個(gè)時(shí)代學(xué)科內(nèi)的經(jīng)驗(yàn)貶值飛速,很多東西沒必要閉門造車慢慢悟,利用開放數(shù)據(jù)的便利性你可以很快了解整體學(xué)術(shù)動(dòng)態(tài),這樣不至于隨波逐流。更麻煩的是如果你不懂而別人懂,那你將很容易體會(huì)到別人眼神中的憐憫,做一個(gè)好奇心使然的科研人員,現(xiàn)在起步從來都不晚。
更重要的是,這類技術(shù)本質(zhì)是讓你滿足好奇心的,你可以用這個(gè)來了解社會(huì),例如紐約時(shí)報(bào)就給個(gè)人提供API,你可以看看其對(duì)川普用詞風(fēng)格的變化;為什么最近比特幣搜索指數(shù)集中在拉美?歐洲吸引難民究竟是政治正確還是勞動(dòng)力人口缺乏?不要等著看新聞來指導(dǎo)自己,要學(xué)會(huì)發(fā)現(xiàn)生活中的閃光點(diǎn);不要通過鍵盤上情感喧囂來面對(duì)社會(huì),要用鍵盤甚至語(yǔ)音編程(我果然很自然的想到了最懶的方法)從繁復(fù)的公開數(shù)據(jù)中挖掘趨勢(shì);不要總是等著大牛來帶,在未知的領(lǐng)域人人都可能成為大牛,你需要掌握一些實(shí)現(xiàn)方法而已,你甚至不需要太了解算法細(xì)節(jié)(會(huì)忘,比如我),但要有自己的兵器庫(kù)隨想隨用。你不需要帶著目的性去學(xué),這說到底只是一種生活方式,你變強(qiáng)了也禿了的可能性是存在的(你能否感到我最近在看漫畫)。
本文實(shí)現(xiàn)代碼可見我的Github。
參考文獻(xiàn)
Text Mining with R
(于淼)文獻(xiàn)閱讀的文本分析流派 |
|