國產大模型“諸神之戰(zhàn)”出路何方
1956年,達特茅斯學院的一場會議上,參會者熱烈地討論:如何開發(fā)出像人類一樣能從經驗中自主學習的計算機系統(tǒng)。這場會議被后人視為打響了人工智能研發(fā)的第一槍。
60余年后,美國OpenAI公司八年磨一劍的人工智能大模型ChatGPT3橫空出世,人們爭相在社交媒體展示它那令人吃驚的能力,ChatGPT4更是“所向披靡”:作詩、寫文案已不在話下,它甚至有了邏輯推理能力,還能自我糾錯。那場著名會議的答案似乎已不言自明。
前不久,在2023中國國際大數(shù)據(jù)產業(yè)博覽會上,AI(人工智能)、大模型、ChatGPT、元宇宙等關鍵詞頻頻出現(xiàn)。在以“人工智能”為主題的會場,人頭攢動,聽會的人從會場內排到了會議室門口,還不斷有新來的人擠進來。
在不同的會場和論壇上,來自不同領域的人們似乎都聚焦一個興趣點,他們試圖搞明白人工智能會對未來行業(yè)帶來哪些顛覆性的變革,國產大模型之路應該如何走,還有什么基礎工作要做。
想解決實際問題,大模型還要“念個博士”
孫茂松讓ChatGPT找出《阿房宮賦》中描寫阿房宮的句子,令他驚訝的是,它竟然一字不漏地找出來了。
孫茂松是清華大學計算機科學與技術系教授,也是該校人工智能研究院常務副院長,他研究自然語言處理,跟ChatGPT“專業(yè)對口”。在演講中,他多次感嘆:“它確實厲害!”
考完文字功夫,孫茂松又問ChatGPT,如何根據(jù)《阿房宮賦》繪制阿房宮的圖景。ChatGPT像寫劇本一樣分了5個場景:阿房宮的宏偉壯觀、阿房宮建筑風格、水景與橋梁、春光與武殿、迷宮般的宮殿布局。
今年以來,ChatGPT的博學已經廣為人知,但美國國家工程院院士、東方理工高等研究院常務副院長張東曉認為:“大模型有很強的能力,很博學,相當于中小學生。要解決實際問題,還要上大學,還要念一個專業(yè)、念一個博士,或是成為那個領域的工程師?!?/p>
過去這段時間,ChatGPT所屬公司OpenAI已與科技、教育、金融等行業(yè)的數(shù)百家公司或組織開展合作。
孫茂松認為:“(大模型)可以重塑一個產業(yè),也能夠重塑產業(yè)的生態(tài)?!?/p>
他舉了個例子:有人想訂家酒店,要求價格別太貴,最好離王府井近一點,而且要安靜一些。面對用戶的種種要求,以前要做到這一點很費勁,秘書可能要花兩個小時才能找到這么一家酒店。而人工智能大模型會跟用戶學習訂酒店的習慣,效率大幅提高。
中國產學研合作促進會會長王建華說:“在人工智能影像醫(yī)學這個領域,我們把全國醫(yī)院的放射科和一些影像醫(yī)學相關的企業(yè)進行融合,解決看片子完全靠人去看(的問題)。通過人工智能的話,精準度比較高,而且它不疲勞?!?/p>
王建華注意到,現(xiàn)在有很多智能產品,比如可以通過大數(shù)據(jù)的對比,測定人體糖代謝水平。他認為,人工智能會影響到整個醫(yī)學領域的創(chuàng)新和發(fā)展。
醫(yī)渡科技有限公司創(chuàng)始人徐濟銘更期待的是,人工智能能夠加速新藥研發(fā)。
新藥研發(fā)是個漫長的試錯過程,從細胞實驗,到動物實驗,再到一、二、三期臨床試驗,從實驗室研究到上市可能需要10年、花費10億美元——這被稱為新藥研發(fā)領域的“雙十定律”。近年,輝瑞、阿斯利康等知名藥企開始在新藥研發(fā)領域引入人工智能,希望提高成功率、降低成本。徐濟銘設想,通過人體多模態(tài)的數(shù)據(jù)構建一個模型,模擬人體器官的運作,在臨床實驗之前先通過這些系統(tǒng)模型做實驗,AI可以由此造福人類。
在京東探索研究院資深算法科學家薛超看來,大模型就是未來的操作系統(tǒng),它向上提供應用程序接口(API),向下可以兼容各種各樣的硬件。比如,一個餐館想要建立一個送餐機器人或者對話機器人,店主把餐館的菜單輸進大模型,這樣就可以快速建立起功能機器人。
“AI未來會越來越平民化,越來越低門檻化,可以通過自然語言來控制它的整個交互?!毖Τf。
研發(fā)大模型,提高數(shù)據(jù)“喂養(yǎng)”質量很關鍵
本屆數(shù)博會上,知乎聯(lián)合面壁智能發(fā)布了對話類模型產品“面壁露卡”。發(fā)布會上,主持人請它規(guī)劃在貴州四天三夜的旅游路線。在“露卡”規(guī)劃的旅游方案中,游客每天晚上都要從景點所在地返回出發(fā)點貴陽,第二天再出發(fā)前往下一個市州。路線略顯冗長,好在覆蓋了較為知名的景點和特色小吃。
上海交通大學人工智能研究院常務副院長楊小康稱,國內的大模型研發(fā)可謂是“真正的諸神之戰(zhàn)”,“據(jù)說有70幾個大模型,甚至上百個大模型在研發(fā)”。他認為,研究大模型非常耗能,需要有序引導,形成合力。
貴安新區(qū)科創(chuàng)產業(yè)發(fā)展公司常務副總經理鄧周灰提到“鐵三角”理論:大模型是“大數(shù)據(jù)+大算力+強算法”結合的產物。他認為:“當前數(shù)據(jù)質量是一個比較堪憂的問題,國外進行大模型訓練的時候,有很多不錯的文獻,還有一些科技文獻,所以模型訓練出來的智能化水平很高。但是我們現(xiàn)在在大模型訓練的時候,大部分(語料)來自互聯(lián)網,所以質量就不是特別理想?!?/p>
古人常說,兵馬未動,糧草先行。在人工智能時代,數(shù)據(jù)正是“喂養(yǎng)”大模型的糧草。而在目前,“糧草”供應還存在大量現(xiàn)實困難。
晶泰智藥技術(上海)有限公司副總裁王明泰說,數(shù)據(jù)需要標注和清洗,但醫(yī)藥研發(fā)領域有大量數(shù)據(jù)無法標注。王明泰表示,蛋白質序列可達到十億級以上,但目前能夠找到的蛋白質功能數(shù)據(jù)少之又少,“中間有巨大的差距”。
他還表示:“現(xiàn)在的數(shù)據(jù)主要是靠人做實驗,然后提取錄入系統(tǒng),再‘喂’給機器學習。目前我們保守估計,中國可能有超過20萬人在為全世界醫(yī)藥研發(fā)企業(yè)做實驗,這些人可能都是本科以上學歷,以后可能(招不來)這么多人來做實驗了?!边@意味著數(shù)據(jù)產生的成本極高,而要“喂養(yǎng)”大模型,“必須是廉價產生的數(shù)據(jù)”。
在數(shù)據(jù)的源頭,還存在標準不統(tǒng)一的問題。
達而觀信息科技(上海)有限公司首席戰(zhàn)略官劉江賢認為,要注意梳理我們究竟需要什么樣的數(shù)據(jù)、怎樣才能產生高標準的數(shù)據(jù)。他認為,首先要制訂數(shù)據(jù)產生的標準和流程,選準產生大量有質量、有價值數(shù)據(jù)的區(qū)域,“要制定標準化生產的流程,才能夠產生出我們想要的數(shù)據(jù)?!?/p>
在本屆數(shù)博會的多場論壇上,嘉賓們提到了數(shù)據(jù)流通、交易的問題。
2020年4月,《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》對外公布,將數(shù)據(jù)定義為繼土地、勞動力、資本、技術之后的第五大生產要素。2022年6月,中央全面深化改革委員會第二十六次會議上審議通過了《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,明確要建立數(shù)據(jù)產權制度、要建立合規(guī)高效的數(shù)據(jù)要素流通和交易制度、完善數(shù)據(jù)要素市場化配置機制。
北京雁棲湖應用數(shù)學研究院研究員、清雁科技董事長韓立巖接受中青報·中青網記者專訪時解釋說,數(shù)據(jù)成為生產要素、可以進入資產負債表,意味著它是企業(yè)資產的一部分,可以成為質押標的、幫企業(yè)融資,更可以為企業(yè)增信。這對于輕資產的科創(chuàng)企業(yè)尤為重要。
廣州數(shù)據(jù)交易所總經理魏東說,湛江一家水產公司在廣州數(shù)據(jù)交易所做了合規(guī)登記后,銀行給予它的授信額度不僅增加了數(shù)倍規(guī)模,花費的時間也大為減少。
中國人工智能開源軟件發(fā)展聯(lián)盟副理事長王健宗說,以前數(shù)據(jù)不是生產要素,在企業(yè)產生后也不受重視,“可能都作為廢品處理,有人要就拿走”?!艾F(xiàn)在(數(shù)據(jù))定義為生產要素,毫無疑問大家都重視起來,一旦重視就是香餑餑了,共享和流通就存在了困難?!彼f。
作為清華大學和北京雁棲湖應用數(shù)學研究院聯(lián)合孵化的高科技公司,清雁科技正在建設“可信數(shù)據(jù)空間”,在這個虛擬空間里,他們努力讓數(shù)據(jù)“可用但不可見”,由此既能促進數(shù)據(jù)資產的交易與共享,又能確保數(shù)據(jù)安全。
大模型產業(yè)之路,繞不開科技倫理和就業(yè)焦慮
上海山丘聯(lián)康健康管理有限公司創(chuàng)始人、董事長顏艷春用充滿詩意的語言表達了他的期待:“在工業(yè)文明時代,我們發(fā)現(xiàn)人類變成了機器,我們每個工人變成了流水線上的螺絲釘。ChatGPT會帶來人類巨大的解放?!?/p>
他設想,人類也許不必“996”,“我們也許(每周工作)一天、兩天就夠了,因為有一個更龐大的‘新人類軍團’正在面世?!?/p>
其實,新人類軍團的“先遣部隊”已經面世數(shù)年。早在2018年,戴姆勒金融服務就展示了它的第一個數(shù)字銷售代表Sarah,她可以為人們計算買新款奔馳汽車的性價比,還可以為客戶選擇選裝套件。同年2月,英國蘇格蘭皇家銀行聘用了一位虛擬的客服機器人Cora,她了解客戶喜好,能一眼識別出客戶并叫出名字,一天能處理上千個問題,她還能從錯誤中不斷學習。也是在2018年,瑞銀集團宣布數(shù)字化“復制”了其首席經濟學家,推出數(shù)字人……
顏艷春對于未來非常樂觀:“我們認為,下一個50年,當碳基和硅基生命共生共榮時,每一個人都可能成為一個詩人,成為一個作家,成為一個導演,成為一個畫家。甚至人人都有可能成為老師、醫(yī)生和碼農?!?/p>
他引用了泰戈爾在《飛鳥集》中的一句詩:信念是鳥,它在黎明仍然黑暗之際感覺到光明,唱出了歌。他說:“在當今人類文明高度‘內卷’的當下,我認為人工智能給我們帶來了這樣一場新的光明?!?/p>
一邊是高歌猛進的人工智能技術,一邊是技術擔憂論:人工智能首先帶來的,可能不是勞動力的解放,而是失業(yè)的浪潮。
孫茂松提到,過去20多年,人工智能給一些企業(yè)創(chuàng)造了巨大的價值;它還能使知識工作者的工作效率大大提高,預期到2030年,它會使財會人員的效率提高一倍、讓程序員的編程效率提高兩倍。
“這對公司是好事,對個人不一定是好事。意味著財會人員要砍掉一半,意味著75%的程序員可能不需要了。”他說。而剩下的人,需要擁有更高的水平。
中青報·中青網記者 李雅娟 實習生 盧世龍 來源:中國青年報
版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。
- 鄉(xiāng)村振興特色優(yōu)勢產業(yè)發(fā)展系列藍皮書發(fā)布
- 堅決遏制私拆承重墻等違法違規(guī)行為
- 從“有沒有”向“好不好” 房地產業(yè)邁向品質提升
- 人民視頻︱美麗松花江 魅力馬拉松 2023吉林市馬拉松激情開跑
- 人民視頻 | 吉林省暨長春市2023“文化和自然遺產日”系列活動啟動
- 吉林長春:細化巡察整改責任 掛圖作戰(zhàn)一盯到底
- 為新能源高質量發(fā)展貢獻動能
- 國家助學貸款累計發(fā)放超4000億元(新數(shù)據(jù) 新看點)
- 職教視野:一群中職生發(fā)現(xiàn)“不同的自己”
- 產業(yè)集群涌現(xiàn),應用領域拓寬——多地競逐氫能賽道