當前位置: 華文天下 > 辟謠

對話面壁智慧劉知遠:我們的AI成果不要藏著掖著,要積極融入全球開源社群,全人類一起進步

2024-06-23辟謠

「從橫向來看,我們顯然仍與國際頂尖工作如Sora和GPT-4o有顯著差距;同時,從縱向來看,我們已經從十幾年的nobody,快速成長為人工智慧科技創新的關鍵推動者。面向即將到來的AGI時代,我們應該更加自信積極地投身其中。」

在「大模型四小龍之一」的面壁智慧的模型被海外團隊抄襲的事件在開源社群引發議論,並進而讓面壁上了熱搜後,面壁智慧的聯合創始人劉知遠在朋友圈有感而發寫下這段話。他形容這次的事件「也算側面反映我們的創新成果也一直受到國際關註」。

史丹佛團隊抄襲事件的關鍵點在於,「模型小100倍,效能卻與國外知名開源大模型齊平,訓練成本也極低」,這樣顛覆性的成果來自中國,面壁智慧頗有戲劇性的出圈,一己之力扭轉了「國外一開源,國內就自研」的刻板印象。而整個事件讓開源社群開始註意一件事:

中國大模型開發者已經成為了全球範圍內人工智慧發展的主要推動力量,像面壁智慧這樣的團隊已經能做出今天大模型開源社群最核心最有價值部份的貢獻。

6月7日,清華大學長聘副教授、面壁智慧首席科學家劉知遠與品玩/矽星人創始人駱軼航進行了一場對話,談了談他對此次事件的看法,講述了面壁智慧一系列強大開源模型的開發歷程與面壁對於AGI的理解,並分享了他對中國AI力量在全球開源社群建立影響力的思考。

以下為對話實錄:

駱軼航:

大家好,今天我們有幸與面壁智慧的聯合創始人兼首席科學家劉知遠教授聊一聊。

最近大家都很關註,面壁智慧突然成了一個熱門公司,開源社群發現一個史丹佛的主要由本科生組成的團隊釋出的Llama3-V模型基本上原封不動地照搬了面壁智慧在上個月釋出的MiniCPM。隨著證據和關註越來越多後,對方的團隊公開道歉。

這個事再去追究其實沒有什麽意義。外界更想了解的是,面壁智慧做了些什麽,面壁為整個全球開源模型、開源社群提供了樣本式的「小」語言模型,這個事情本身意味著什麽?對整個開源模型的貢獻是什麽?在全球開源社群,劉知遠老師形容,中國貢獻者正在經歷量變到質變的過程,這個過程是怎麽去實作的。中國團隊如何更好參與到開源的行程裏?

面壁所倡導的開源文化,對行業的推動意義重大,大家底層的價值觀判斷是一樣的

劉知遠: 大家好。特別感謝有這麽一個機會一起來做這個對談,很少有機會參與這種線上的直播方式的交流。關於這個事件本身,細節可能不太值得再去特別深究,我反而特別想分享的是,我們更願意去積極為開源社群做貢獻的這麽一種感受。

因為你可以看到,當有吹哨人把抄襲的相關事實呈現到社群上時,有非常多來自於各個國家,不同語言的從業者會去很認真地看細節資料,審視發生的問題,去譴責不好的行為。這讓我感覺,也許我們是不同的人種、不同的語言、不同國家的人,但我們有共同的底層守則:去尊敬那些為這個社群真正做貢獻的人,去致謝那些做出非常多貢獻的人。

就像我在那個回應裏說的,發自內心地覺得 我們過去這幾十年,整個人工智慧非常快速地發展,就是因為我們可以始終站在最前沿的技術上不斷的往前走。 我們不會說,我們做出一個東西來,我們就藏著掖著,別人還得重新造輪子。 我們全世界的人其實都是以一個整體在去前進。

我一直覺得這是代表人類文明的非常重要的特質。我自己作為當事人特別感動,親身感受到了來自於全世界對這件事情的關心和聲援, 對什麽是正確的,什麽是錯誤的,有一個非常好的判定,我覺得這個是全人類能夠走在一個正確方向上的非常重要的事情,是人類正確的價值判斷的基石。

駱軼航: 剛才知遠把文明和開源聯系在一起的時候,我聽了之後我還是有點感動。我看到開源社群的反應其實是非常直接和純粹的,它背後沒有夾雜著各種各樣其他的因素。其實今天開源世界一半也是商業世界,有那麽多商用的開源模型,是在別人的可商用的開源模型的基礎之上建構起來,整個全球的生成式人工智慧又是一個高度的和資本繫結在一起的事情,它是一個非常商業化的名利場的地方,但就是在這樣的一個地方,開源社群在其中依然非常在意對錯,是一個有簡單樸素的價值觀的地方。我覺得這種精神是人工智慧這一波浪潮背後一個非常重要的一個驅動,背後是很多不折不扣的科學家,學者,教授和真正在做事情的人,他們讓對錯在一個非常名利場和商業化的競爭當中變得非常重要。

劉知遠:我也深有同感。在國際上大家在開源的社群裏非常真實地表達自己的觀點,甚至在推特上 非常多的不同觀點的學者互相會非常直接地進行辯論爭論,我覺得這是我們在國內特別需要去建立的一種文化。我們應該要積極地融入到國際的開源社群,融入到整個人工智慧發展的大家庭。我們應該是要跟全人類一起進步。

過去幾十年裏,人工智慧乃至整個電腦科學正是在這種具有明確判斷標準的環境下迅速發展的。商業公司的參與雖然存在,但與開源共享的精神相比,商業因素並不是主流。開源共享是群體智慧的體現,它能夠集合全人類的智慧,推動社會向前發展。我們現在要構築的是比我們人類智慧還要更加強大的超人工智慧,這個過程一定是我們全人類共同努力才有可能完成。

駱軼航: 全球化的開源社群其實上是全人類共同去構築一個未來的可能會超越人類的人工智慧,甚至是通用人工智慧。這是非常重要的沃土,它是全人類最聰明的人、最能夠把論文學術成果變成現實的這樣的一群人在去做的事情,我覺得這個也很重要。我們現在把問題具體地拉回來,來聊聊面壁智慧今年的釋出成果和國際開源社群的關系。大家可能已經註意到了這兩個重要的釋出:一個是 Mini CPM 2.0,另一個是 Mini CPM 2.5。我首先註意到它在實際上星數、包括評論就非常好了,推特也開始有人去討論了。但一開始不是這樣的,我記得最早到現在刷熱門的搜這個詞的熱門討論,有人轉發這個事情,說2B做成這樣的效果,真的嗎?直到現在都是非常熱的事情,還是很讓大家意外的。

單純的Scaling Law之外,還需要的Scaling Prediction

劉知遠: 對這些問題,我想借著這個機會分享一下我們為什麽會想著要做Mini CPM。 我們在去年8-9月份的時候訓練出來一個千億級別的模型大概能達到GPT3.5的水平。在當時那個階段,可能絕大部份人都會想,接下來目標是去訓練GPT4水平的邏輯。這是很自然的想法,其實我們那個時候就在非常認真地去探討做GPT4水平的模型,我們到底該用多少數據和參數? 如果想要得到GPT4水平的模型,要麽把參數規模做到,要麽參數規模可以不用那麽大,但是把數據量搞到足夠大。不管怎麽樣,都會意味著一件事情——算力是非常高的。而在那個時候我們就會發現,Open AI已經有了非常重要的技術。而 國內的大模型團隊可能在那個時候還沒有建立起來Scaling Prediction的能力。

我們認識到,如果沒有準備好,就無法以最優狀態訓練更大的模型,這可能導致資源浪費而無法達到預期效果 。如果沒有做好準備,會意味著什麽呢?意味著說你沒有辦法以最優的狀態去訓一個更大的模型。那就會導致也許用了更多的算力,更多的參數,更多的數據,但是有非常大的機率是沒有辦法得到一個GPT水平的模型 。有點類似於瞎子摸象的感覺。

駱軼航: 用咱們國內的一個比喻,那麽做就是純煉丹了。

劉知遠: 是的。所以我們那個時候就覺得其實 盲目地說只要把模型規模變大,我就可以讓模型的效果變好,這個的確是事實。但是如果這個過程是一個低品質的成長的話,其實你是不可能達到GPT4水平的。或者是說即使達到,也意味著說你是用了幾倍於別人的算力,幾倍於別人的參數規模。那就會導致訓練出來的模型跟大煉鋼鐵,最後得到的都是廢鋼廢鐵一樣,它本身不是一個高品質的模型的訓練。 所以我們當時經過了大量的研討之後,我們反過來會認為我們應該要非常認真地去研究探索大模型成長的規律也就是scaling prediction,到底是什麽?所以我們在去年下半年就把主要的精力放在了 如何去利用小模型來去建立起對大模型能力的預測上。我們後來把它稱為「模型風洞/沙盒」。

要有一個模擬的環境,到後面要做大量的實驗,我們不可能一下就做到更大的模型上,所以當時我們就在想恰好可以嘗試端側,比如在手機上就能夠執行的模型,看它能達到的成效是怎麽樣。 去年接近年底的時候就相當於把我們本來要做的用來去訓練了一個2.4B的模型,其實就是我們Mini CPM的水平,結果是超越我們自己想象的,我們發現原來我們可以把一個2.4B的模型能力訓練出一個超越我們所有人想象的水平。 這大大超越我們最開始想要開展這個工作的想法,也是我們做Mini CPM非常重要的心路歷程。

說起來沒有那麽高大上, 我們並沒有一上來就看到了端側的巨大空間,而是先透過大量的實驗發現,原來端側模型就已經可以達到這麽好的效果 ,那顯然可以更加重視在端側上的模型,它可以做什麽,這個變成了今年大家一起深度挖掘的行業方向,天馬行空地去想象的命題。

面壁正在努力的,是用大模型的技術去完成知識獲取的過程,不斷進行知識萃取,提升知識密度

劉知遠: Mini CPM做出來之後呢,我們就非常認真地探討,我們好像在端側這個級別的模型都還沒有非常好地挖掘,也促使我們進一步思考:我們訓練大模型的目標到底是什麽?難道就是追求一個說這個模型一定要更大更強嗎?也許我們日常生活中每個人需要AI做的事情,可能不用每一件事都需要一個愛因史坦級別的模型去完成,一個GPT3.5水平的或者GPT3水平就可以了。所以我們在想,用更少算力的消耗把端側先做得足夠好,盡可能快地把大模型讓更多的人享受上它的價值和作用。 我們認為訓練大模型也許不應該單純去追求模型的規模,我們更需求的是高品質的、高效的大模型解決方案。 所以我們更在意的叫做「知識密度」,我們希望能夠在同等規模的模型參數裏面,能夠把更多的知識註入到模型之內,這應該是未來大模型發展最重要的命題,也是我們要不斷利用各種各樣的技術的改進要達成的目標。 我們內部做了一個類比,觀察芯片大規模積體電路過去的70年的發展歷程,會看到它就是要把更多的電路計算的能力,給整合到更少的空間裏面去,它所做的所有的努力,其實都是在做這件事情。 如果人工智慧大模型的技術路線,其實是找到了從數據到知識的非常通用的學習方法,我只要這些數據可以序列化,只要這個數據背後包含知識,我們就可以用現在大模型的技術去完成知識的獲取的過程,這是一個非常通用的方案。接下來我覺得它的非常重要的發展的方向和趨勢,應該是跟大規模積體電路的發展是類似的。即我們要不斷提升知識進行萃取或者進行獲取的密度,我們要把更多的知識放到一個更小的模型之內,我覺得這就是未來的大模型的發展方向。

駱軼航: 就是模型的尺寸變小跟芯片的尺寸變小,其實背後它是一樣的,就是把更多的資訊算力能夠跑的東西放到一個更小的裏面。

劉知遠: 對。所以我們從去年下半年開始,我們決定不盲目跟隨GPT4水平的競爭。因為 我們能夠預測到就是未來在達到GPT4水平賽道裏面一定會擠滿了各種各樣的選手,我們覺得沒有必要在這個階段把一個一定會做成的事情在當前階段就去跟別人去一比高下,這件事情本身沒有太大的意義。我們希望能夠更關註大模型更本質的知識密度的問題。

駱軼航: 在一個可能尺寸更小的模型上灌註盡可能多的知識密度。

劉知遠: 是的。

駱軼航: 這個知識密度其實它也不意味著一個特別大的數據集。

劉知遠: 對。

駱軼航: 可能一個相對比較小的一個,但高品質的數據在一個更小的模型,這個事情我覺得很有意思Scaling Prediction這個詞是我第一次聽到您去講。我們能不能認為Scaling Prediction其實上是我們自己去理解Scaling Law或者認為這個是我們去實作Scaling Law的一個方式?

劉知遠: 嚴格來講 Open AI,包括Deep Mind等很多機構其實都非常關註這個問題,成長可預測。

駱軼航: 就是讓大模型不再煉丹化,讓模型訓練本身不再是單純的煉丹。

劉知遠: 我內部會把它稱為叫做 大模型的科學化問題。我們希望能夠找到它背後的科學規律

駱軼航: 接下來我們今天是要聊整個面壁的以小博大的歷程,以及全球開源社群的歷程。其實2023年初,無論從微軟,因為微軟實際上它在市場的前沿又要做AIPC未來又希望去賣雲和算力,他實際上是最早提出來做小語言模型的。我的理解就是說用一個更小的尺寸,更高效的訓練,在一個更小尺寸的模型上強加更好的知識密度,更高的知識密度,訓練出了一個效能更高的模型,這個事情其實是當時基本上沒有人做的。所以以至於會讓開源社群也好,全球很多人也好,就看上去會比較意外。那這個裏邊實際上出現一個岔子。就是去年Mixtral 8x7B 的橫空出世。但那個時候面壁已經在去訓練自己的東西了。我們能不能去講講Mixtral 8x7B 模型橫空出現時,面壁智慧內部受到了怎樣的觸動和影響?聰明的人幾乎也會同時想到一些同樣的方法,大家都想把Open AI包括他們訓練黑盒開啟的,大家開啟的方式不同,但開啟之後放出來的東西可能多少都互相會有點像。這個過程都發生了些什麽?

我們是需要更科學、更高效,更低成本,更安全的科學規律,探索大模型空氣動力學

劉知遠: 我們去年下半年,其實並沒有預期到我們後面會得到什麽樣的一個結果。只是說我們最後的結論會發現,原來端側可以做到這麽好。我們的探索本身一直有清晰目標。

首先我們非常認真地對待AGI,希望AGI 能夠更早實作。 我們為什麽創辦面壁智慧,然後和OpenBMB 開源社群一起完成奔赴AGI的路程。很重要的原因就是在於我們已經看到大模型所代表的通用智慧的趨勢。因為我們會看到GPT其實已經把之前的各種專用的模型都統一成了一個通用模型,這個模型幾乎可以完成所有的任務。前進的方向已經非常的清晰。

但是只要把AGI實作就圓滿了?如果AGI的實作耗能非常高,每做一次都要花費非常多的時間和算力的話,那還是沒有辦法為人所用。我們一直在內部舉一個例子。說萊特兄弟把飛機飛上了天,但是飛機本身並不能夠乘非常多的人,它本身並不能夠服務於我們人類。它只是證明了,飛機這樣的形態飛上天是可能的。 就跟Open AI 證明我們可以用更多的數據,學出一個更好的模型這件事情是可行的。但是我們還需要發現,讓飛機造的更科學、更高效,成本更低,能更安全的空氣動力學的科學規律。我覺得大模型也需要有這樣的科學規律。這個是我們的內在的邏輯。 我們本身的探索有意外之喜,但是本身的驅動力本身是非常明確的。 我們從2021年創辦這家公司,跟實驗室一起來開展所有的工作,目標是非常明確的,我們就是要非常高效地把模型能夠構建出來,用起來。這件事情是真正的能讓大模型飛入千家萬戶的非常重要的前提。我們做Open BMB的開源社群的slogan就叫「讓大模型飛入千家萬戶」。

回到剛才的問題,去年為什麽我們要去跟Mixtral 對標呢?我們發現Mixtral 創立以來的一些相關的采訪,他特別強調高效的概念,有非常神似的地方。我們會覺得,一個高效的大模型,是通用人工智慧真正的能夠為更多人所用的前提。我們不只是要造出一個大模型,我們還要高效地造出這個大模型,我們能夠把它高效地用起來。

駱軼航: 大家都是把一個模型高效地用起來的Vision,導致大家在差不了兩三個月的時間,實際上做了同樣的事情,我覺得這個也很有意思。最近我在啟動我的全球化AI開發者社群的計畫,這樣的計畫肯定是要推崇開源的,也肯定是要推崇硬體和全球開發者聯合在一起的。我在思考,為什麽全球探索更高效地把模型尺寸做得更小的實踐,一個發生在巴黎,一個發生在北京,而都沒有發生在舊金山灣區,背後的原因是什麽?大家都在做,但現在有很多做小模型的公司都是今年初以來才陸續地去發了自己的東西。這件事我沒有找到答案,我不知道知遠老師對這個事有沒有自己的觀察和看法。

面壁對於行業的判斷:發展端側能力挖掘科學化非常重要,開源的長期影響巨大

劉知遠: 我個人覺得可能法國的算力也不會那麽的多。我們一定是要在有限的資源下,來非常高效地做事情。這也代表著大模型公司兩種不同的思路,可能有的公司會認為,我需要先把這一次或者是更高的水平先做到,再去嘗試著把最佳化它的計算成本和每個環節。對於我們會覺得,如果你都還沒有能夠有一個非常科學的手段,能科學化地預測出你一定能做成,那沒有必要現在就試一下,因為試一下可能就是幾百萬上千萬的成本,而且得到的結果很有可能是一堆廢銅爛鐵。

預計今年將有多家企業達到類似GPT4水平,可能引發價格競爭或開源。我們認為參與這種競爭可能不是明智選擇,不是我們奔向AGI唯一重要的事情。邁向AGI的過程有太多要做的事情了,科學化就是很重要。對我來講,我更關註的是更科學高效的、高品質的大模型構建的過程。我們認為更本質的東西是大模型的科學化的「成長的問題」。 也就是我們剛才反復說的知識密度。

駱軼航: 對,大小其實不是終極的目標。新出來的小模型實作了很多在效能方面最大的可能性,它是一個商用的最佳化路徑,我覺得其實還有一個問題想請教。人們經常會講一種觀點,現在全球很多做具體場景的AI實踐的人都意識到了:我們不僅僅只去追求模型的最先進性,從而才能夠讓一些東西做成和做好。價格敏感這個事不光是只有國內的開發者才重視,我覺得全球開發者都重視。如果我不能夠確保GPT的AGI能夠給我帶GPT-4 Turbo的模型的最佳效果的話,可能我就未必一定要去用。這裏邊有一個概念需要去解釋和澄清,知識密度高的、訓練效率更最佳化的小尺寸小參數模型,它往往更擅長實作在某一個方面更好的結果和效果,而不是一個通用的更好的結果和效果?更小參數更高知識密度的模型,可能部署到某一個法律或者金融或者地產服務的場景更好。是否可以說,小鋼炮在某些方面能夠實作一些更好的效能、更好的結果,而不是追求在通用上更好的效能,更好的結果,這個說法成立嗎?

劉知遠: 當然成立,但是它只是這個結論,只是一部份結論。 我們最近其實畫了一個趨勢圖,我們會把它稱為叫做大模型的莫耳定律。類似於芯片的規律。AI大模型的知識密度正在迅速提高。從2020年的GPT-3到2024年初,我們已經能用更小的2B模型達到GPT-3水平,這顯示了知識密度的提升。知識密度是大模型發展的關鍵因素,類似於積體電路的發展歷程,知識正被壓縮排更小的模型中。

端側芯片的莫耳定律也在推動算力的增強,預示著端側裝置將能夠執行越來越強大的模型。大模型的知識密度提升和端側算力增強正在產生重要的化學反應,預示著未來模型的架構和執行方式將發生變革。我們樂觀估計,未來一年內可以將GPT-3.5水平的模型部署到端側,兩年內實作GPT-4水平的端側部署。 我們相信,在模型架構、數據品質和數量、學習方法方面,仍有巨大的挖掘空間,能夠將更多知識整合到更小的模型中。我們認為,未來大部份計算任務將由端側模型支持,只有少數需求需要雲端模型。隨著AI技術越來越深入人們的日常生活,使用者對私密的保護意識增強。我們預見,將有越來越多的使用者傾向於在端側處理數據,以保護個人私密。提供端側解決方案將更符合使用者對私密保護的需求,利用使用者已有的端側算力,避免數據上傳至雲端。

駱軼航: 這個我特別同意。最近有種言論,說別卷模型了,卷套用吧。與其不斷追求模型規模的擴大,不如將重點放在套用開發上。這種觀點在矽谷尤為明顯,許多企業和組織都在積極開發自己的套用,利用Snowflake等提供的框架和工具,構建適合自己需求的模型,即使這些模型不是業界最強大的,但它們在企業內部使用起來效率更高,更便捷。個人使用者端也呈現出類似趨勢,越來越多人選擇使用端側解決方案來完成日常任務,減少對大型復雜模型的依賴。

劉知遠: 在當前AI領域,開源模型已經提供了高品質的解決方案,如通義千問的最新版所展示的高水平效能。許多情況下,透過微調這些開源模型,已經能夠滿足許多套用需求。對於雲側套用,構建一個「差不多」能用的模型已經足夠應對大多數情況。我們更希望在更嚴格的條件下挑戰自我,即使在算力和記憶體受限的情況下,也能將技術價值發揮到極致,在端側上追求更高的技術實作,是團隊選擇繼續在端側深入探索的重要原因。

駱軼航: 我們剛才聊了很多模型,我覺得接下來還是回到開源。我想知道就是我們為什麽開源開得這麽徹底, 初衷是什麽?收到的反饋又是什麽?

劉知遠: 凡事可能都是多維的。即使我們有萬卡十萬卡,我們也會認為應該要走一個更加高效的路線。因為AGI對我們的要求就是要永續發展,AGI的本質其實就是要高效,如果不高效的話,那它沒有辦法真正的能成為我們人類的工具。這是對我們對自己的內在要求。回到開源這個問題,得其實從幾個角度來考慮,

第一個維度是 在開源社群,你開源的姿態、行動會建立起全球的影響力,包括對人才的號召力,這對於一個團隊非常重要。

第二, 我們認為能夠把一個模型往更高效訓練的方向做的人太少了。我們有太多的團隊在浪費算力,我會覺得如果你沒有找到商業模式的時候,只是在對算力對數據去得到一個更好的效果,我覺得這件事情沒有技術含量。

對於開源社群來講,我們希望能夠透過更多的呈現來告訴大家這個才是正確的方向,而 且我們把所有的實驗所需要的素材全都提供出來,是希望能夠更多的有識之士能夠一起走上正確的道路。 有共同的目標,大家共同努力,我們是希望能夠找到更多的同誌。

第三, 為什麽在當下就敢於去把這麽多開源出來呢?原因是我們認為,現在還處在大模型科學化的非常初級的階段。 物理學第谷他收集所有的天體執行的數據,從這個天體的數據找到規律的那個人是克卜勒,但是克卜勒三定律也知識中間結果,後來還有牛頓的萬有重力定律。我們要做的事情是要找到屬於大模型的萬有重力定律,而目前還處於收集數據的階段。我們希望可以號召全球的有識之士共同探索大模型的規律,相信透過團結合作可以更快地發現關鍵規律,惠及所有人。

在追求AGI的過程中,技術只是一部份,還需要探索屬於AGI的超級套用形態,這是一個廣闊的時代。同行之間應尋求合作而非競爭,透過保持技術敏感性和領先性,快速套用新發現的規律,推動技術進步。開源社群的魅力在於,即使不是第一個發現定律的人,也能迅速利用這些規律,成為技術進步的領跑者。擁抱開源,我們可以走得更快。而且我們會覺得我們是這條路上的最早行進的人。只要我們一直保持在這個方向上的技術上的敏感性和領先性,也許最終發現發現牛頓的定律的人不是我們團隊,但我覺得我們團隊一定是那個最敏感,能夠馬上拿過來去讓我們走的更好的團隊,這就是開源社群非常性感的地方。

駱軼航: 我覺得知遠老師講的開源社群非常性感的地方,我覺得自己也做了一個非常性感的事情,一開始開源開得非常徹底,這裏邊我覺得是不是也有一種可能,就是剛才我講的有識之士大家一起去做。 這裏邊有沒有一種效應,就是我們把東西都開了,一些其他的有識之士,我們開源國際主義大家庭裏邊,也就會開出來更多的東西。然後去促進這樣一個事,大家眾籌當一個牛頓吧!我開得多一點,那麽出於合作出於協作的心態他也有可能會開的更多一點,會不會有這樣一種效應?

劉知遠: 顯然是這樣。就是人人為我,我為人人。我覺得AI領域之所以叠代這麽快。從主動的角度,我們會覺得擁抱開源,我們可以走得更快,當然你也可以理解成它其實就是在卷,全球的人都在同一個地方網站上卷。

駱軼航: 我們接下來聊一個問題,還是聊我們在開源社群的關註度的問題。還得提一句史丹佛事件。年輕的學生是有的時候會比較魯莽,但他們也是在世界上最好的學府受到過嚴謹的學術訓練的,盡管本科生的學術訓練要求不像碩士生博士生那麽高,但他還是做了這樣一個事情,可能寄希望於事情不會被很快地知曉,甚至不會被發現和揭露。基於這樣的背景,我發現了在全球開源社群的貢獻,和公眾在媒體上的曝光度是不對稱的。buff疊的是史丹佛的buff,是在Open AI實習過的buff ,疊在一起可能就會被關註,有非常大的效應。這個側面體現了我們一度的信任會比較高。我們怎麽能夠更好地體現我們在整個全球開源社群的能見度?我們接下來還能做些什麽?

劉知遠: 我覺得這應該是歷史行程的必然。我們作為後進人士,其實是在追趕的過程。不太可能是說已經可以望其項背了,就一下就能讓全世界都知道,這個本身也不現實。客觀來講,史丹佛在全世界占了更高的聚光燈,有更高的曝光度。在國內,可能一個其他高校的人也會覺得,清華大學占了非常大的聚光燈顯示度。從我的角度,我尊重這件事情本身,人類社會客觀的現象,或者一種規律。我們作為追趕者,在追趕的過程中,你的水平跟原來的第一差不多了,也需要持續地去保持自己在這個水平,透過某一系列的事例證明,慢慢地改變大家對你看法或者是感受。我們可能很難說馬上去改變這件事情。我在過去的這十幾年的研究中,太多次看到了同樣的一個成果史丹佛的或者是其他國際高校的工作就是會引起更多的關註,這也是源自這些高校、這些研究組、這些人歷史上積澱下來的聲譽,大家關註了史丹佛,是因為它悠久的歷史本身,對於矽谷的影響力。它是帶來的前人栽樹,後人乘涼,清華在國內也是類似。

看待這個問題,我們應該還是保持平常心。但如何從根本上改變大家心裏的看法? 我們現在所做的每一件事情,都是為我們積累影響力,只要你堅持往正確的方向去做,做到足夠的水平, 總會被更多的人認識,這才是我們應該要做的事情。國內機構在開源社群持續輸出高水平的成果,如報告、論文、模型和數據集,是積累影響力的關鍵。

駱軼航 : 知遠老師講了最重要的一個事情:還是自己在開源社群持續地露出,去有貢獻,讓別人更多地去用到我們的東西,然後去做出更新的東西,以一個持續的態度輸出我們的成果,模型的成果,數據集的成果,各種各樣的成果。我覺得這個事可能也不是一家再去輸出,可能還是更多家再去輸出。大家都密集頻繁的做。大家可能不會想起來,這個是一個中國公司或者這個背後可能是一個中國團隊,大家可能一時半會不會想起來,串在一起多了,大家可能就想起來了。

我接下來還有一個問題,從一個更長期的角度來去看,面壁對於整個全球開源社群的價值和貢獻最重要的點是什麽?是我們持續地去踐行訓練的效率,包括我們發現的莫耳定律,把這件事情做到極致?除了我們不斷地去把模型做小,把訓練的效率變高,把知識的密度壓進去,我們還怎麽能夠去實作這個莫耳定律?

劉知遠: 大模型的莫耳定律很多人都在提。它與大模型的湧現現象一樣,是對某種趨勢的一個總結。這個趨勢背後的推動是什麽呢?就是 背後的全世界的從業者,他們透過開源的社群,能夠非常快速地去把最新的技術擴散出來,大家都能夠迅速共享最新的成果和解決方案, 這可能就是莫耳定律能夠永續發展的一個非常重要的基礎。所以我覺得,我們的這個開源社群給世界帶來了一個更加高效的莫耳定律。所以我們要擁抱開源社群,人人為我,我為人人。 我們不只是給這個社群做了貢獻,我們其實除了收獲社群、行業對我們的認可和尊敬外,我們也收獲了同行的共識和最新的知識。就是既有競爭,又有合作。這是一個很美好的事情。

駱軼航: 很不一樣的一個世界。您都把我想昇華的東西都給昇華完了。這個是我聽到的國際主義密度最高的一次對話。我講句我的感受,中國開源社群正在真正被大家覺得有所貢獻。那個階段大家都覺得中國永遠是索取者而不是給予者,但現在這個階段,基本上今年以來,大家開始覺得中國開始做共享,準確地說我1月份的時候都沒覺得有人註意到這個事。4-5月份之後,現在有人開始覺得好像是這麽回事,這個事件大家也感知到了。可見我們只要做了事,在一個相對比較國際主義的,而不是地緣主義的民粹主義的環境中,我們開源社群的開發者們,基本上都是國際主義的左派同誌們,這個就是我們覺得非常美好的一點。如果我總結一下,就是這個事美好的點,就是接下來的十年、二十年是一幫人工智慧的開源同誌們、五湖四海的開源同誌們在讓這件事情發生。