四个 00 后的疯狂开源计划：整个互联网转成大模型语料，1 亿 token 嵌入成本只需 1 美元

Arxiv 上所有论文转成 Token，加起来不过 14.1GB 而已。

这是最新爆火开源计划亚历山大完成的壮举。

事实上，这还只是第一步。

他们最终是想要将整个互联网变成 Tokens，换言之全都转化成 ChatGPT 等大模型理解这个世界的方式。

一旦这样的数据集诞生，那岂不是为开发出 GPT-4 这样的大模型又新增一大利器，上知天文下知地理指日可待了？！

消息一出，瞬间引发巨大关注。

网友们赞叹，史诗般的。

而这背后仅是四个平均年龄 20 岁的少年发起，目前 Arxiv 所有论文数据集已经发布，他们将于下周发布嵌入（Embedding）搜索平台。
从 Arxiv 上所有论文开始

超过 400 万个项目、6 亿个 token，30.7 亿个向量维度。

这个名为亚历山大的开源计划，首先从 Arxiv 每篇论文上开始。

选择的方式是嵌入，简单来说，就是将现实世界的各种对象具象成计算机所能理解的向量。

最经典的例子就是将原始图像表示为灰度像素。

这种技术最大的特点就是能够表示出人类感知到的语义相似性。

比如，当有 10 个词表示同一事物时，很难通过关键词查找论文。但嵌入就可以完成，因此很适用于搜索、聚类、推荐和分类。

基于实用性和效率的考虑，开发团队只选择嵌入了论文的标题和摘要。

在测试各种模型之后，最终选择使用 InstructorXL 文本嵌入模型，通过简单地提供任务指令，而无需任何微调，适合于多种任务（比如分类、检索、聚类、文本评估等）和领域（比如科学、金融、医学等）》

下周他们将发布 Arxiv 搜索。目前为止的流程是，首先对 100 篇最接近的文章进行相似性搜索，然后即时计算这些内容的嵌入，并进行第二次更复杂的搜索。

最终目标是一整个互联网嵌入计划。
20 岁少年的疯狂开源计划

之所以要开展这样一次疯狂的开源计划，主要有两方面的原因。

一方面是嵌入巨大的价值。世界上很多问题只是搜索、聚类、推荐或分类，而这些事情嵌入都非常擅长。而且也如前所述，可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每 1 亿个 Token 只需 1 美元。

但他们并没有找到任何开放的嵌入数据集，因此这样的组织应运而生。

接下来他们还将开放更多的数据集，而这些均由这些用户自行选择。在官网上除了已公开的数据集，剩下的几个待开源项目开启了投票通道。

值得一提的是，背后是一群平均年龄仅为 20 岁的少年 team 完成的。

而他们的团队名字同样也很霸气，Macrocosm（宏观世界）联盟。

只要你放大到足够远，人类就会成为一个单一的生物。

就官方介绍，他们致力于为 ChatGPT 和其他类似产品构建插件，同时也在开发核心产品，基于大模型的个人研究助理，帮助学习、教学和科研。

感兴趣的旁友可戳下方链接了解~

https://alex.macrocosm.so/download

参考链接：

[1]https://www.macrocosm.so/

[2]https://twitter.com/willdepue/status/1661781355452325889

[3]https://github.com/macrocosmcorp

[4]https://www.pinecone.io/learn/vector-embeddings/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

四个 00 后的疯狂开源计划：整个互联网转成大模型语料，1 亿 token 嵌入成本只需 1 美元

最新文章

联发科首款台积电 2nm 旗舰 SoC“天玑 9600”完成流片，预计 2026 年底量产

抢先高通：联发科天玑 9500 发布会定档 9 月 22 日，将由 vivo X300 系列首发

[OpenAI 董事长布莱特・泰勒：“AI 泡沫”是良性循环，未来将创造巨大经济价值]

罗永浩质疑西贝筱面村：预制菜争议再起

Linux 6.17-rc3 发布

微软正加大投资训练自己的人工智能模型

随便看看

美国大带宽服务器：raksmart洛杉矶10G\20G\40Gbps带宽不限流量，$399/月起

raksmart美国洛杉矶1Gbps带宽不限流量服务器低至$89/月且有多种线路可选！

my.frantech.ca（buyvm）的Promotion/优惠码是什么？enter promo code if you have one【promo code 促销码哪里找？】

#BuyVM教程# buyvm主机如何购买BLOCK STORAGE SLABS? 如何使用“Block Storage”云存储盘/块挂载教程全命令行（1美元256GB空间!）

速度入手抢位 #BuyVM优惠码卢森堡机房已升级:VPS给10Gbps带宽,免费升级不限流量，AMD Ryzen 9 5950X

四个 00 后的疯狂开源计划：整个互联网转成大模型语料，1 亿 token 嵌入成本只需 1 美元

相关文章

最新文章

随便看看

标签