有圖無(wú)真相
在打擊學(xué)術(shù)造假的征途上,學(xué)術(shù)規(guī)范機(jī)構(gòu)又下一城。
來(lái)自美國(guó)紐約雪城大學(xué)(Syracuse University)的機(jī)器學(xué)習(xí)研究員丹尼爾·阿庫(kù)納(Daniel Acuna)等在2018年開(kāi)發(fā)出一套算法,能利用人工智能(AI)識(shí)別學(xué)術(shù)論文中的圖像造假,對(duì)論文圖片進(jìn)行查重。
他們分析了生命科學(xué)領(lǐng)域來(lái)自4324本期刊的76萬(wàn)篇開(kāi)放獲取(Open Access)論文,并從中提出有效的263萬(wàn)張圖片。其中,約有9%的圖像存在高度重復(fù)。該團(tuán)隊(duì)又在其中選取了約4000張可疑圖片進(jìn)行人工核查。經(jīng)測(cè)算,在所有論文中,約1.5%存在學(xué)術(shù)不端的嫌疑,0.6%確認(rèn)存在圖像方面的論文造假。
在學(xué)術(shù)造假上,圖片是藏污納垢的死角!犊茖W(xué)》(Science)雜志和《撤稿觀察》(Retraction Watch)2018年發(fā)布報(bào)告稱,在過(guò)去10年里,學(xué)術(shù)期刊撤回的論文數(shù)量增加了10倍。這些論文中,約有1.7%是因?yàn)榇鄹牧苏撐膱D像被撤回。
圖片造假的案例
美國(guó)賓夕法尼亞大學(xué)生物工程副教授阿榮·拉杰(Arjun Raj)早在2012年就指出,一篇生命科學(xué)領(lǐng)域的研究論文背后的科學(xué)成本約為30萬(wàn)-50萬(wàn)美元。2012年全年,美國(guó)研究人員共發(fā)表該領(lǐng)域論文15.2萬(wàn)篇。如果其中1.7%因圖片造假需要被撤回,則僅在2012年,因此造成的損失就接近10億美元。
根據(jù)出版機(jī)構(gòu)的統(tǒng)計(jì),全球科學(xué)產(chǎn)量每9年就會(huì)翻番。
過(guò)去,圖片審核工作往往要靠人力完成,幾乎沒(méi)有自動(dòng)化的流程!蹲匀弧(Nature)雜志會(huì)對(duì)收到的稿件隨機(jī)抽樣進(jìn)行檢查,并要求作者提供未編輯的圖像作參考;生命科學(xué)領(lǐng)域的重要刊物《細(xì)胞生物學(xué)雜志》(Journal of Cell Biology)和《歐洲分子生物學(xué)組織雜志》(The EMBO Journal)會(huì)對(duì)圖片進(jìn)行手動(dòng)查重。
2018年6月,來(lái)自斯坦福大學(xué)的微生物學(xué)家分析了2009-2016年發(fā)表在《分子與細(xì)胞生物學(xué)》(Molecular and Cellular Biology)上的960篇論文,發(fā)現(xiàn)其中59篇含有“不適當(dāng)?shù)摹敝貜?fù)圖像,約有2%值得再去進(jìn)行圖像證偽。他們將情況反映給出版機(jī)構(gòu)后,42篇論文更正了圖片,5篇被撤稿。
圖片查重費(fèi)時(shí)費(fèi)力,以至于多數(shù)刊物都沒(méi)有這項(xiàng)流程!稓W洲分子生物學(xué)組織雜志》主編表示,人工篩選非常耗時(shí),早就應(yīng)該有一個(gè)常規(guī)的、自動(dòng)化的工具簡(jiǎn)化這一過(guò)程。
美國(guó)誠(chéng)信研究辦公室(the United States Office of Research Integrity, 簡(jiǎn)稱ORI)的數(shù)據(jù)顯示,圖片造假的情況一直在惡化,標(biāo)志性的兩個(gè)時(shí)間是1990年和1996年,Photoshop的Mac版和PC版在這兩年發(fā)布。
但即使是ORI,每年也僅報(bào)告了10例圖片造假的行為。因?yàn)槌杀具^(guò)高,他們不會(huì)主動(dòng)審查學(xué)術(shù)不端,僅在有舉報(bào)的情況下進(jìn)行。
自誕生起,學(xué)術(shù)論文就承擔(dān)著描述科研成果、進(jìn)行學(xué)術(shù)交流的重任。它還被用來(lái)衡量學(xué)者的學(xué)術(shù)水平,是評(píng)定職稱、獲取科研經(jīng)費(fèi)等環(huán)節(jié)中考察的重要的內(nèi)容。因此,判斷一篇學(xué)術(shù)論文是否由抄襲、造假得來(lái)至關(guān)重要。
在計(jì)算機(jī)技術(shù)不夠發(fā)達(dá)、數(shù)據(jù)庫(kù)尚未開(kāi)放共享的時(shí)代,識(shí)別學(xué)術(shù)不端不得不依靠評(píng)審編輯慧眼如炬。在中國(guó),論文文字查重體系一直到2005年前后才建立。后來(lái),人們又不斷優(yōu)化這個(gè)系統(tǒng),從能識(shí)別“復(fù)制粘貼型”抄襲,到能識(shí)別改變用詞和句法的抄襲,但圖片重復(fù)一直是論文查重的死角。
道高一尺,魔高一丈,心懷不軌的研究人員已經(jīng)學(xué)會(huì)了應(yīng)付能識(shí)別文字抄襲的系統(tǒng)。在生命科學(xué)等依賴圖像實(shí)物的研究領(lǐng)域,圖片造假的難度和成本會(huì)更高。
2014年轟動(dòng)學(xué)術(shù)圈的小保方晴子學(xué)術(shù)造假丑聞中,她的團(tuán)隊(duì)被發(fā)現(xiàn)使用了小保方晴子博士學(xué)位論文中的圖片,用來(lái)證明新的發(fā)現(xiàn)。更多時(shí)候,造假來(lái)得更隱秘,研究人員用旋轉(zhuǎn)、裁剪、調(diào)整大小和對(duì)比度的方式調(diào)整圖片。它們常常難以被察覺(jué),直到前赴后繼的科研人員發(fā)現(xiàn)研究成果無(wú)法復(fù)現(xiàn)。此時(shí),大量的人力和資金成本都被浪費(fèi)了。
如何解決這個(gè)問(wèn)題,仍然是擺在我們面前的一座大山。即使是丹尼爾·阿庫(kù)納等人開(kāi)發(fā)出的算法,也面臨很大的困難。在每一個(gè)領(lǐng)域,我們需要專業(yè)人士進(jìn)行足夠數(shù)量的前期人工標(biāo)注。
這套算法的運(yùn)算速度也有限,目前只能考察作者自己發(fā)表的諸多論文中是否存在重復(fù),尚無(wú)法應(yīng)對(duì)以億為單位的出版文獻(xiàn)庫(kù)。出版巨頭愛(ài)思唯爾(Elsevier)誠(chéng)信部門主管也表示,出版商需要?jiǎng)?chuàng)建一個(gè)共享的數(shù)據(jù)庫(kù),以便進(jìn)行相關(guān)檢索,查實(shí)論文圖片重復(fù)使用的情況。
我們似乎無(wú)法阻止“魔”的存在,只能努力讓“道”高得快一點(diǎn)。
- 草菅人命的學(xué)術(shù)造假 2016-07-27
- 南開(kāi)校長(zhǎng)倡議建第三方處理機(jī)制遏止學(xué)術(shù)造假 2011-11-29
- 評(píng)論:學(xué)術(shù)造假與科研經(jīng)費(fèi)造假是一根藤上倆爛瓜 2011-09-05
誠(chéng)邀關(guān)注高分子科技

- 新政·AI智控·增效三重賦能...
- 2025重慶橡塑展亮點(diǎn)劇透,行...
- 國(guó)產(chǎn)替代加速,跨國(guó)巨頭云集...
- 2025涂料原料選料大會(huì)
- 市場(chǎng)破300億!PMEC China 色...
- 搶先注冊(cè)!2025年西部橡塑展...
- “碼”上參觀預(yù)登記,好禮拿...
- 聚合物發(fā)泡行業(yè)技術(shù)培訓(xùn)(第...
- 《塑料改性及加工技術(shù)要領(lǐng)》...
- 中國(guó)生命科學(xué)“36%增速”密...
- 關(guān)于舉辦第六屆中國(guó)實(shí)驗(yàn)室發(fā)...