首頁| 股票|財經|基金|理財|商業|區塊鏈

當前位置:財經中國 > 商業 >

從神經網絡到天體物理 還有什么是AI做不到的?

2019-04-28 09:09 來源:獵云網

  如今,物理學、天文學實驗所產生的海量信息是人類團隊難以企及的。一些實驗每天記錄萬億字節的數據,并且不斷累積增加。世界最大的射電望遠鏡項目Square Kilmeter Array預計在2020年開啟,它每年產生的數據量將相當于整個互聯網的總量。

  爆發式的數據讓科學家不得不求助AI。在人類輸入最少的情況下,AI系統(比如人工神經網絡,模仿大腦功能的計算機模擬神經元網絡)可以挖掘海量數據、突出異常現象,并檢測出人力永遠無法發現的東西。

  計算機應用于科學研究已經有75年歷史,人類對自然數據的觀察研究更是伴隨著人類的發展史。但是,隨著機器學習和AI的發展,科學研究的方法已經發生徹底的革新。其中一種方法稱為生成模型(Generative Modeling),對于觀測數據的不同解釋,它可以僅僅基于數據就辨別出最可信的理論。更重要的是,它不需要關于物理過程的預編程知識。生成模型的支持者認為它非常新穎,可以被視作研究宇宙的“第三類方式”。

  傳統上,人類通過觀察來了解自然。想想十六世紀天文學家約翰尼斯·開普勒正在仔細研究另一位同時期天文學家第谷·布拉赫的行星位置圖,開普勒最終推斷出行星在橢圓軌道上運動。科學通過模擬而進步。天文學家模擬銀河系及其鄰近星系仙女座的運動,并預測它們將在幾十億年后發生碰撞。觀察和模擬都有助于科學家產生假說,再通過進一步的觀察來驗證這些假說。但是,生成模型既不是觀察也不是模擬。

  天體物理學家Kevin Schawinski(供職于蘇黎世聯邦理工學院)是生成模型的積極倡導者,他說:“這是介于觀察和模擬之間的第三類方法,是解決問題的另一種方式。”

  雖然一些科學家仍然把生成模型和其它新技術簡單地看作是傳統科學的補充工具。但大多數人都同意AI正在產生巨大的影響,它在科學研究中的作用必然會越來越大。費米實驗室的天體物理學家Brian Nord使用人工神經網絡研究宇宙,他擔心人類科學家所做的任何事情都可能實現計算機自動化——這有點讓人不寒而栗。

  生成模型帶來的發現

  研究生時代,Schawinski就因數據驅動領域的成就而聞名。攻讀博士期間,他需要根據星系的外觀對它們進行分類。由于沒有現成的軟件可用,所以Galaxy Zoo眾包科學項目誕生了。從2007年開始,普通計算機用戶通過猜測記錄星系分類來幫助天文學家,服從多數原則一般可以得出正確的分類結果。這個項目無疑是成功的,只不過今時今日的AI技術使它顯得過時了。現在,一個有機器學習和云計算背景的優秀科學家可以在一個下午就完成以上任務。

  Schawinski在2016年轉向強大的生成模型工具。本質上,在給定條件X的情況下,生成模型會詢問觀察到結果Y的可能性有多大。這種方法已被證明是非常有效且具有通用性。舉個例子,假設你提供一組人臉圖像給生成模型,并逐一標注年齡。當計算機程序梳理這些訓練數據時,會把年長者面部和皺紋增加聯系起來。最終,計算機可以根據面部判斷年齡,也就是說,它可以通過給定的面部預測其經歷的物理變化。

  這些人臉都不是真的。A 行和B 列的人臉都是由GAN使用真實面部搭建元素來構建的。然后,GAN結合A行臉部的基本特征(包括性別、年齡、臉形)和B列更精細的臉部特征(例如發色、眼睛顏色),創造出上圖中其它的人臉圖像。

  最著名的生成模型系統是“生成式對抗網絡(GAN)”。在充分地暴露于訓練數據之后,GAN可以修復已損壞或丟失像素的圖像,它也可以使模糊的照片變得清晰。GAN通過博弈(術語稱作“對抗”)來學習推斷丟失的信息:網絡的一部分(稱為生成器)生成偽數據,而第二部分(判別器)試圖對真偽數據進行區分。隨著程序的運行,兩個部分都逐漸演化提升。對于最近出現的一些超現實的、GAN制作的“人臉”,有文章評價道:這些計算機創造的詭異假臉跟真人沒有分別。

  更廣泛地說,生成模型采用數據集(通常是圖像),并將每個數據集分解為一組基本的抽象構建模塊,科學家將其稱為數據的“隱空間”。隱空間的概念是抽象的,很難將其視覺化,粗略地類比一下,當你試圖確定人臉的性別時,想想你的大腦可能是怎么思考的,也許你會注意到發型、鼻子形狀等等,還有的判斷模式可能很難用文字表達。相似地,計算機程序也是在數據中尋找突出的特征:雖然它不知道什么是胡子,什么是性別,但如果它接受過數據集的訓練,其中一些圖像被貼上“男人”或“女人”的標簽,一些圖像被貼上“胡子”的標簽,計算機會很快推演出它們之間的聯系。

  在與同事合著的一篇論文中,Schawinski利用生成模型研究了星系在演化過程中所經歷的物理變化。模型創建了人工數據集,以此作為檢驗物理過程假設的方式。例如,恒星猝熄(恒星形成速度急劇下降)如何與星系環境密度增加相關聯。

  關鍵問題在于:有多少關于恒星和銀河系的信息可以單獨從數據中提取出來。Schawinski說:“讓我們抹掉所有關于天體物理學固有的知識。然后僅僅利用數據本身,能在多大程度上重新認知宇宙?”

  首先,星系圖像被縮小到隱空間,然后,Schawinski可以調整空間的一個元素,使其對應星系環境的特定變化(比如周圍的密度)。然后他可以重新生成星系,看看會有什么不同。Schawinski解釋說:“所以現在我有了一個假說生成機器。通過這個過程,我可以讓原本處于低密度環境中的一整束星系看起來像處于高密度環境中。”研究者發現,隨著星系從低密度變為高密度環境,它們的顏色變得更紅,恒星分布更集中。這與現有的星系觀測結果相吻合。問題是為什么會這樣。

  對于這個過程,有兩種可能的解釋:也許星系在高密度環境中顏色更紅,因為它們含有更多的塵埃,又或者是因為其范圍內的恒星趨于衰退。有了生成模型,這兩個想法都可以進行測試:改變隱空間中有關塵埃和恒星形成速率的元素,然后觀察星系顏色的變化。結論很清楚,星系顏色更紅的地方是“恒星形成速率下降的地方”,而不是“塵埃發生改變的地方”。

  通過生成模型,天體物理學家可以研究星系從宇宙的低密度區域到高密度區域是如何變化的,以及是什么物理過程導致了這些變化。

  該方法與傳統的模擬有關,但存在關鍵差別。Schawinski說,模擬“本質上是假設驅動的”,對于某種宇宙現象,我首先假設一個可以解釋它的物理原則,比如說我們對于暗物質、對于恒星形成都有一套理論假設,然后對照假設運行模擬操作,接著再思考:模擬是否符合現實?但是生成模型則不同,某種意義上來說,它與模擬完全相反。我們什么都不知道也不想做任何假設,只是讓數據告訴我們可能會發生什么。

  生成模型的成功應用當然不意味著天文學家要失業,但這也確實讓我們思考,天體物理學研究多大程度上可以由智能系統完成。Schawinski表示,這不是完全自動化的科學,但它表明我們至少能夠部分地構建工具——使科學過程自動化。

  生成模型顯然是強大的,但它是否真正代表了一種新的科學方法仍有待商榷。David Hogg是紐約大學的宇宙學家,它認為,這仍然只是從數據中抓取模型,數個世紀以來天文學家都是這樣進行工作的,只不過如今的技術相當強大。換句話說,生成模型是一種先進的觀察加分析的方式。Hogg自己的工作也嚴重依賴AI。他使用神經網絡根據恒星的光譜對它們進行分類,并使用數據驅動模型來推斷恒星的其它物理屬性。但他不認為生成模型是另類方法。他說:“只是科學家在如何使用數據方面變得更加老練了。特別是在比較數據方面比以前進步很多。但在我看來,我的工作仍處于觀察模式。”

  勤勞的助手

  無可否認,AI和神經網絡顯然已經在當代天文學和物理學研究中發揮了關鍵作用。海德堡理論研究所的物理學家Kai Polsterer領導著一個天文信息學小組,專注于以數據為中心的天體物理學新研究方法。最近,他們在使用機器學習算法從星系數據集中提取紅移信息,這在以前是很艱巨的任務。

  Polsterer將這些基于AI的新系統看作是“勤勞的助手”——可以連續幾個小時梳理數據,而不會感到厭煩或抱怨工作條件。他說,這些系統可以完成所有乏味的繁重工作,讓你有時間進行有趣的科學研究。

  但它們并不完美。特別是算法只能做受過訓練的事情。系統對于輸入信息是“不可測的”。給它一個星系,這個軟件就可以估計它的紅移和年齡,但是給它一個自拍照片,或者一張腐爛的魚的照片,它也會輸出一個(非常錯誤的)年齡。最后,人類科學家的監督仍然是至關重要的。于是問題最終還是回歸研究人員——你才是負責解讀機器的人。

  費米實驗室的Nord警告說:神經網絡輸出的結果也會有誤差。在科學上,如果你進行一項測量,卻不報告誤差估計,結果就沒有意義。和許多AI研究者一樣,Nord也關注神經網絡輸出結果的不可穿透性。通常情況下,系統會給出一個答案,但并不清楚該結果是如何獲得的。然而,并非所有人都認為這是一個問題。法國CEA Saclay理論物理研究所的研究員Lenka Zdeborová指出,人類的直覺往往同樣難以理解。你看著照片立刻認出了一只貓——但你不知道自己是怎么知道的。從某種意義上說,人類大腦就是一個黑匣子。

  不僅天體物理學家和宇宙學家正在向AI驅動、數據驅動的科學靠攏。滑鐵盧大學的量子物理學家Roger Melko也利用神經網絡解決了領域中一些最棘手、最重要的問題,比如:如何表示描述多粒子系統的“波函數”。Melko稱AI是“維度的指數詛咒”,即波函數形式的可能性隨著系統中粒子的數量呈指數增長。困難類似于嘗試在國際象棋或圍棋中下一步最好的棋:你試著下一步棋,想象你的對手會怎么下,然后選擇最好的應對方式,但是每走一步,可能性的數量就會激增。

  當然,AI系統已經掌握了這兩種棋類游戲。20年前的國際象棋人類就輸給了計算機;2016年,AI系統AlphaGo擊敗了頂尖的人類圍棋手。Melko認為這種情況同樣適用于量子物理中的問題。

  機器的思維

  對于AI系統,Schawinski認為這是“第三類”科學研究方法,Hogg則認為不過是傳統觀察分析法的高級版本,不管你支持哪種觀點,有一點是肯定的,AI正在加速改變科學發現的概念。AI革命在科學領域能走多遠?

  偶爾,人們會對“機器人科學家”的成就大加贊揚。十年前,一位名叫Adam的AI機器人化學家研究了面包酵母的基因組,找出了哪些基因負責制造某些氨基酸。當時的新聞標題是:“機器人獨自做出科學發現”。

  最近,格拉斯哥大學化學家Lee Cronin在用機器人隨機混合化學物質,看看會形成什么樣的新化合物。通過質譜儀、核磁共振儀和紅外光譜儀實時監測反應,系統最終學會了預測哪種組合反應性最強。Cronin說,即使這不會帶來進一步的發現,機器人系統也能讓化學家們將研究速度提高約90%。

  去年,蘇黎世理工的另一個科學家小組使用神經網絡從數據集中推導出物理定律。他們的系統是一款機器人開普勒系統,從太陽和火星的位置記錄中重新發現了太陽系的日心模型,并通過觀察碰撞球發現了動量守恒定律。由于物理定律通常可以用不止一種方式來表達,研究人員想知道系統是否可以提供新的方式(也許是更簡單的方式)來思考已知的定律。

  這些都是AI啟動科學發現過程的例子,雖然不同案例中AI的作用影響各有不同。也許最具爭議的問題是,在數據爆炸的今天,單從數據中能收集到多少信息。計算機科學家Judea Pearl和科學作家Dana Mackenzie斷言,數據是“極其愚蠢的”。因果關系的問題永遠不能單靠數據來回答。Schawinski也支持這種立場,他從未聲稱數據可以推演因果關系,而只是認為,我們可以比以往更多地利用數據。

  另一個經常聽到的論點是,科學需要創造力,而且至少到目前為止,我們不知道如何將“創造力”編程到機器中。物理學家Kai Polsterer說:“除了理論和推理,我們還需要創造力——只有人類才具有這項能力。”創造力從何而來?Polsterer懷疑這與“無聊”有關,機器不會感到無聊。要想有創意,你必須討厭無聊的感覺。另一方面,像創意和靈感這樣的詞經常被用來形容Deep Blue(戰勝人類象棋手的計算機)和AlphaGo這樣的智能程序。我們在試圖描述計算機思想的時候,實際上是對自己大腦的映射。

  Schawinski最近離開學術界去了私營部門。他現在經營著一家名為Modulos的創企,公司雇傭了一些ETH科學家,據其網站稱,公司處在AI和機器學習發展的風口浪尖。不管當前AI技術和成熟的人工智慧之間存在什么障礙,Schawinski和同事們都認為機器已經可以接替越來越多人類科學家的工作。

  Schawinski說:“在可預見的未來,是否有可能利用生物硬件建造一臺機器,它可以完成人類無法獨立完成的物理、數學任務?科學的未來最終會不會因為計算機才達到人類難以企及的高度?我不知道。但這是個好問題。”

  原標題:從神經網絡到天體物理 還有什么是AI做不到的?|財經頻道


相關報道:

    相關新聞

    中国体育彩票36选7