二区三区少妇,变态夫妇 波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

車訊網(wǎng) - 專業(yè)汽車新聞資訊門戶
當前位置: 車訊網(wǎng) -> 熱點

四個00后的瘋狂開源計劃:整個互聯(lián)網(wǎng)轉(zhuǎn)成大模型語料,1億token嵌入成

時間:2023-06-12 08:15  |  責任編輯:蘇婉蓉  |  來源: IT之家  |  關(guān)鍵詞:  |  閱讀量:19301  |  

Arxiv 上所有論文轉(zhuǎn)成 Token,加起來不過 14.1GB 而已。

這是最新爆火開源計劃亞歷山大完成的壯舉。

事實上,這還只是第一步。

他們最終是想要將整個互聯(lián)網(wǎng)變成 Tokens,換言之全都轉(zhuǎn)化成 ChatGPT 等大模型理解這個世界的方式。

一旦這樣的數(shù)據(jù)集誕生,那豈不是為開發(fā)出 GPT-4 這樣的大模型又新增一大利器,上知天文下知地理指日可待了?!

消息一出,瞬間引發(fā)巨大關(guān)注。

網(wǎng)友們贊嘆,史詩般的。

而這背后僅是四個平均年齡 20 歲的少年發(fā)起,目前 Arxiv 所有論文數(shù)據(jù)集已經(jīng)發(fā)布,他們將于下周發(fā)布嵌入搜索平臺。

從 Arxiv 上所有論文開始

超過 400 萬個項目、6 億個 token,30.7 億個向量維度。

這個名為亞歷山大的開源計劃,首先從 Arxiv 每篇論文上開始。

選擇的方式是嵌入,簡單來說,就是將現(xiàn)實世界的各種對象具象成計算機所能理解的向量。

最經(jīng)典的例子就是將原始圖像表示為灰度像素。

這種技術(shù)最大的特點就是能夠表示出人類感知到的語義相似性。

比如,當有 10 個詞表示同一事物時,很難通過關(guān)鍵詞查找論文。但嵌入就可以完成,因此很適用于搜索、聚類、推薦和分類。

基于實用性和效率的考慮,開發(fā)團隊只選擇嵌入了論文的標題和摘要。

在測試各種模型之后,最終選擇使用 InstructorXL 文本嵌入模型,通過簡單地提供任務指令,而無需任何微調(diào),適合于多種任務和領(lǐng)域(比如科學、金融、醫(yī)學等)》

下周他們將發(fā)布 Arxiv 搜索。目前為止的流程是,首先對 100 篇最接近的文章進行相似性搜索,然后即時計算這些內(nèi)容的嵌入,并進行第二次更復雜的搜索。

最終目標是一整個互聯(lián)網(wǎng)嵌入計劃。

20 歲少年的瘋狂開源計劃

之所以要開展這樣一次瘋狂的開源計劃,主要有兩方面的原因。

一方面是嵌入巨大的價值。世界上很多問題只是搜索、 聚類、推薦或分類,而這些事情嵌入都非常擅長。而且也如前所述,可以解決一些復雜的難題。

另一方面成本是一次性的且很便宜。大多數(shù)情況下無需對同個文件進行二次計算。目前每 1 億個 Token 只需 1 美元。

但他們并沒有找到任何開放的嵌入數(shù)據(jù)集,因此這樣的組織應運而生。

值得一提的是,背后是一群平均年齡僅為 20 歲的少年 team 完成的。

而他們的團隊名字同樣也很霸氣,Macrocosm聯(lián)盟。

只要你放大到足夠遠,人類就會成為一個單一的生物。

就官方介紹,他們致力于為 ChatGPT 和其他類似產(chǎn)品構(gòu)建插件,同時也在開發(fā)核心產(chǎn)品,基于大模型的個人研究助理,幫助學習、教學和科研。

感興趣的旁友可戳下方鏈接了解~

參考鏈接:

免責聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。

安丘市| 清徐县| 无锡市| 阳泉市| 濮阳市| 舟山市| 新河县| 临西县| 南陵县| 沅陵县| 扶沟县| 定州市| 霍城县| 济宁市| 拜泉县| 普安县| 辽源市| 宜城市| 辉南县| 潞西市| 新河县| 伊通| 澄城县| 龙门县| 金华市| 武乡县| 车致| 田林县| 平阳县| 赫章县| 孝义市| 调兵山市| 垣曲县| 宁蒗| 金塔县| 定远县| 平凉市| 额敏县| 盱眙县| 苏尼特右旗| 会宁县|