国产偷亚洲偷欧美偷精品,国产午夜福利亚洲第一,国产精品亚洲五月天高清 ,国产无遮挡18禁网站免费,国产亚洲精久久久久久无码苍井空

初創(chuàng)公司無(wú)需數(shù)據(jù)中心構(gòu)建AI模型

研究人員成功利用全球分布的GPU資源,結(jié)合私有與公開(kāi)數(shù)據(jù)集,研發(fā)出一種創(chuàng)新型大語(yǔ)言模型(LLM),這一突破性進(jìn)展預(yù)示著人工智能構(gòu)建主流模式的潛在變革。Flower AI與Vana兩家致力于非傳統(tǒng)AI研發(fā)的初創(chuàng)企業(yè)聯(lián)手打造了這一新模型,命名為Collective-1。Flower AI通過(guò)其獨(dú)特技術(shù),實(shí)現(xiàn)了訓(xùn)練過(guò)程在數(shù)百臺(tái)互聯(lián)網(wǎng)連接計(jì)算機(jī)上的分布式部署,該技術(shù)已被多家企業(yè)應(yīng)用于AI模型訓(xùn)練,無(wú)需依賴集中化的計(jì)算資源或數(shù)據(jù)。Vana則提供了包括X(Twitter)、Reddit和Telegram上的私密消息等獨(dú)家數(shù)據(jù)源。

Collective-1雖然按現(xiàn)代標(biāo)準(zhǔn)規(guī)模較小,擁有70億個(gè)參數(shù),但相較于當(dāng)前最先進(jìn)的模型(如驅(qū)動(dòng)ChatGPT、Claude和Gemini的模型,參數(shù)量達(dá)數(shù)千億)仍展現(xiàn)出顯著潛力。劍橋大學(xué)計(jì)算機(jī)科學(xué)家、Flower AI聯(lián)合創(chuàng)始人Nic Lane指出,這種分布式方法有望擴(kuò)展至遠(yuǎn)超Collective-1的規(guī)模。Lane補(bǔ)充道,F(xiàn)lower AI正使用常規(guī)數(shù)據(jù)訓(xùn)練一個(gè)300億參數(shù)的模型,并計(jì)劃在本年度晚些時(shí)候訓(xùn)練一個(gè)達(dá)1000億參數(shù)的模型,接近行業(yè)領(lǐng)先者的規(guī)模?!高@或?qū)氐字厮苋藗儗?duì)AI的認(rèn)知,我們正全力以赴推進(jìn)這一進(jìn)程,」Lane強(qiáng)調(diào)。他還透露,F(xiàn)lower AI正將圖像和音頻數(shù)據(jù)納入訓(xùn)練,以開(kāi)發(fā)多模態(tài)模型。

分布式模型構(gòu)建或?qū)?duì)AI行業(yè)的權(quán)力格局產(chǎn)生深遠(yuǎn)影響。當(dāng)前,AI企業(yè)通過(guò)整合海量訓(xùn)練數(shù)據(jù)與集中數(shù)據(jù)中心的大量計(jì)算資源來(lái)構(gòu)建模型,這些數(shù)據(jù)中心配備先進(jìn)GPU,并通過(guò)超高速光纖網(wǎng)絡(luò)互聯(lián),高度依賴通過(guò)抓取公開(kāi)資料(盡管常涉及版權(quán)問(wèn)題)構(gòu)建的數(shù)據(jù)集。這種模式導(dǎo)致只有財(cái)力雄厚的企業(yè)和擁有強(qiáng)大芯片資源的國(guó)家才能開(kāi)發(fā)出最先進(jìn)、最有價(jià)值的模型。即便是一些開(kāi)源模型,如Meta的Llama和DeepSeek的R1,也由具備大型數(shù)據(jù)中心的企業(yè)構(gòu)建。而分布式方法或使小型公司及大學(xué)通過(guò)聚合同質(zhì)資源來(lái)構(gòu)建高級(jí)AI,或讓缺乏傳統(tǒng)基礎(chǔ)設(shè)施的國(guó)家通過(guò)聯(lián)網(wǎng)多個(gè)數(shù)據(jù)中心來(lái)打造更強(qiáng)大的模型。Lane認(rèn)為,AI行業(yè)正朝著允許訓(xùn)練突破單一數(shù)據(jù)中心限制的新方法發(fā)展。分布式方法「以比數(shù)據(jù)中心模型更高效的方式擴(kuò)展計(jì)算能力,」Lane指出。

新興技術(shù)安全中心AI治理專(zhuān)家Helen Toner評(píng)價(jià)Flower AI的方法「有趣且極具相關(guān)性」于AI競(jìng)爭(zhēng)與治理。她認(rèn)為,盡管這種方法可能難以迅速達(dá)到前沿水平,但「可能是一種有趣的快速跟隨策略」。Toner補(bǔ)充道。分而治之分布式AI訓(xùn)練需要重新思考強(qiáng)大AI系統(tǒng)計(jì)算分配方式。創(chuàng)建LLM需將大量文本輸入模型,調(diào)整參數(shù)以生成對(duì)提示的有效響應(yīng)。在數(shù)據(jù)中心內(nèi),訓(xùn)練過(guò)程被分割,分配到不同GPU上執(zhí)行,然后定期整合成單一主模型。新方法則允許通常在大型數(shù)據(jù)中心內(nèi)完成的工作分散到相距數(shù)英里的硬件上,并通過(guò)相對(duì)較慢或不穩(wěn)定的互聯(lián)網(wǎng)連接整合。

一些大型企業(yè)也在探索分布式學(xué)習(xí)。去年,谷歌研究人員展示了一種名為DIstributed PAth COmposition(DiPaCo)的新方案,用于分割和整合計(jì)算,提升分布式學(xué)習(xí)效率。為構(gòu)建Collective-1及其他LLM,Lane與英國(guó)和中國(guó)學(xué)術(shù)合作者開(kāi)發(fā)出一種名為Photon的新工具,顯著提升分布式訓(xùn)練效率。Lane表示,Photon在谷歌方法基礎(chǔ)上,采用更高效的數(shù)據(jù)表示方式及共享與整合訓(xùn)練方案。盡管這一過(guò)程比傳統(tǒng)訓(xùn)練慢,但更具靈活性,允許添加新硬件加速訓(xùn)練。Lane指出,Photon由北京郵電大學(xué)和浙江大學(xué)研究人員合作開(kāi)發(fā),并已以開(kāi)源許可上月發(fā)布,供任何人使用。

Flower AI在構(gòu)建Collective-1中的合作伙伴Vana正開(kāi)發(fā)新方法,讓用戶與AI構(gòu)建者共享個(gè)人數(shù)據(jù)。Vana軟件允許用戶將來(lái)自X和Reddit等平臺(tái)的私人數(shù)據(jù)貢獻(xiàn)給大語(yǔ)言模型訓(xùn)練,并可能指定允許的最終用途,甚至從中獲得經(jīng)濟(jì)利益。Vana聯(lián)合創(chuàng)始人Anna Kazlauskas表示,這一理念是讓未被利用的數(shù)據(jù)用于AI訓(xùn)練,同時(shí)賦予用戶對(duì)其信息如何用于AI的更多控制權(quán)。「這些數(shù)據(jù)通常因非公開(kāi)性無(wú)法納入AI模型,」Kazlauskas強(qiáng)調(diào),「這是用戶直接貢獻(xiàn)的數(shù)據(jù)首次被用于訓(xùn)練基礎(chǔ)模型,用戶對(duì)其數(shù)據(jù)創(chuàng)建的AI模型擁有所有權(quán)?!?/p>

倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)家Mirco Musolesi指出,分布式AI訓(xùn)練方法的關(guān)鍵優(yōu)勢(shì)在于解鎖新型數(shù)據(jù)。他預(yù)測(cè),將其擴(kuò)展到前沿模型將使AI行業(yè)能夠利用分散且隱私敏感的大量數(shù)據(jù),如醫(yī)療保健和金融領(lǐng)域數(shù)據(jù),用于訓(xùn)練,而無(wú)需擔(dān)心數(shù)據(jù)集中化的風(fēng)險(xiǎn)。

本文網(wǎng)址:http://www.iy168.cn/news/3764.html

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開(kāi)。 必填項(xiàng)已用 * 標(biāo)注