零一万物自研全导航图向量数据库，横扫权威榜单6项第一

　　发布于2024-12-15　阅读（0）

扫一扫，手机访问

3 月 11 日，零一万物宣布推出基于全导航图的新型向量数据库「笛卡尔（Descartes）」，已包揽权威榜单 ANN-Benchmarks 6 项数据集评测第一名。

向量数据库，又被称为 AI 时代的信息检索技术，是检索增强生成（Retrieval-Augmented Generation, RAG）内核技术之一。对大模型应用开发者来说，向量数据库是非常重要的基础设施，在一定程度上影响着大模型的性能表现。

在国际权威评测平台 ANN-Benchmarks 离线测试中，零一万物笛卡尔（Descartes）向量数据库登顶 6 份数据集评测第一名，比之前榜单上同业第一名有显著性能提升，部分数据集上的性能提升甚至超过 2 倍以上。

零一万物表示，笛卡尔向量数据库将用在近期即将正式亮相的 AI 产品中，未来也将结合工具提供给开发者。

向量数据库成 AI 2.0 基础设施

获资本市场青睐

随着大模型为代表的 AI 2.0 时代到来，图片、视频、自然语言等多模态的非结构化数据量陡增，区别于用来处理结构化数据的传统数据库。向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据；它就像一块外接的记忆盘，可供大模型随时调用，以形成「长期记忆」，也被昵称为大模型记忆的「海马体」。

大模型天然有四个缺陷，向量数据库就像是量身定制的「特效药」，能精准解决每个痛点。

实时信息：大模型训练时间长，更新慢，无法反应最新的信息，其知识存在「截止期」的挑战。向量数据库采用轻量化更新机制，可以快速补充最新信息。
隐私保护：用户的安全隐私数据不宜直接提供给大模型训练，否则会有泄密风险，向量数据通过在推理阶段扮演信息传递的中间载体，破解了隐私保护的难关。
幻觉矫正：大模型常表现出的推理失真或产生幻觉的现象，可以通过向量数据库提供的丰富知识参照，有效矫正和减轻此类问题。
推理效率：大模型推理成本高，向量数据库能够作为一种缓存机制，避免每一次查询请求都需要重新执行复杂的推理计算，大大节省了计算资源。

AI 2.0 掀起的科技变革和平台变革，进一步强化了向量数据库的作用。Google、微软、Meta 等大厂的相关产品先后问世，Zilliz、Pinecone、Weaviate、Qdrant 等创业公司也异军突起。2023 年，OpenAI 的向量数据库合作方 Pinecone 完成了 B 轮 1.38 亿美元融资，国内初创企业 Fabarta ArcNeural 也完成了上亿元 Pre-A 轮融资。

挑战权威榜单

包揽评测六项第一

ANN-Benchmarks 是当下业界最权威的向量数据库性能测试工具，它可以展示不同算法在不同真实数据集下的表现。

在以下 6 份评测数据集涵盖 glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean 六大数据集，横坐标代表召回、纵坐标代表 QPS (每秒内处理的请求数)，曲线位置越偏右上角意味着算法性能越好，零一万物笛卡尔向量数据库在 6 项数据集评测中都处于最高位。

零一万物自研全导航图向量数据库，横扫权威榜单6项第一

^{截至 3 月 10 日，ANN-Benchmarks6 项评测中，零一万物笛卡尔（Descartes）向量数据库均居第一}

「吞吐量 QPS」是衡量信息检索系统（例如搜索引擎或数据库）查询处理能力的重要指标。在原榜单 TOP1 基础上，零一万物笛卡尔向量数据库实现了显著性能提升，部分数据集上的性能提升超过 2 倍以上，在 gist-960-euclidean 数据集维度更大幅领先榜单原 TOP1 286%。

零一万物自研全导航图向量数据库，横扫权威榜单6项第一

^{零一万物笛卡尔向量数据库与原榜单 TOP1 QPS 性能对比}

技术揭秘

令人好奇的是，笛卡尔如何实现上述优秀性能？

众所周知，RAG 是一种结合了检索和生成的技术，它通过从海量数据中检索查询到的信息，来增强语言模型的生成能力。和传统检索方法类似，从本质上讲，RAG 向量检索主要解决两大问题：

1. 通过建立某种索引结构，减少检索考察的候选集；

2. 降低单个向量计算的复杂度。

零一万物笛卡尔向量数据库在处理复杂查询、提高检索效率以及优化数据存储方面相比业界拥有显著的比较优势。针对第 1 个问题，零一万物团队有两大杀手锏：

零一万物自研全导航图向量数据库，横扫权威榜单6项第一

领先的全导航图技术。目前业内现状主要通过哈希、KD-Tree、VP-Tree 等方式，导航效果不够精确，裁剪力度不够，零一万物研发的全局多层缩略图导航技术，图上坐标系导航，既能保证精度，又能裁剪大量无关向量。
首创自适应邻居选择策略，填补业界空白。零一万物自研的自适应邻居选择策略，突破了以往仅依赖真实 topk 或固定边选择策略的局限，新策略使每个节点可以根据自身及邻居的分布特征动态地选取最佳邻居边，更快收敛接近目标向量，从而让 RAG 向量检索性能提高 15%-30%。

针对第 2 个问题，零一万物采用了两级量化方案增强 RAG。零一万物用两级量化降低计算复杂度，同时列式存储充分利用 SIMD 的并发能力，进一步发挥硬件能力，相比传统 PQ 查表，性能得到大幅提升到 2-3 倍。

除此之外，零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

全栈向量技术：精度更高、性能更强

通过上述全栈向量技术的加持，让零一万物笛卡尔向量数据库不仅登顶权威榜单 ANN-Benchmarks6 项评测第一名。更在实际应用场景中具有精度更高、性能更强等核心优势。

零一万物笛卡尔向量数据库目前聚焦于高性能向量数据库。高性能向量数据库通常是指向量数据集规模在千万级及以下（如 2000 万 128 维浮点型向量），通常而言，高性能向量数据库可以轻松应对百分之八九十的日常场景，比如帮助企业客户构建私域知识库、智能客服系统；在自动驾驶领域，使用高性能向量数据库可来加速自动驾驶模型训练等。

零一万物高性能向量数据库具有以下优点：

超高精度：基于多层缩略图和坐标系实现层间导航和图上方位导航，以及图连通性保障，实现精度大于 99%，相同性能下，精度大幅领先业内水平。
超高性能：高效的边选择和裁剪技术，千万数据库 ms 响应。

以电商推荐场景为例，上架商品数量可能千万级，每个商品可以由一个向量表达。即使库中向量数不算很大，如果电商用户基数非常庞大，高峰时每秒用户请求数非常大，可能达到几十万甚至上百万的 QPS。使用高性能向量数据库可以有效提升电商场景里面搜索、广告业务的推荐效果，让大家忍不住一直买买买。

零一万物表示，笛卡尔向量数据库是团队基于 RAG 的初步尝试，将在近期发布的 AI 生产力产品中得到有效应用。未来各家大模型优化到一定程度后，向量数据库的能力可能决定各家大模型的天花板。零一万物后续会持续专注研发和分享，为用户带来更好的技术和体验。

本文转载于：https://www.jiqizhixin.com/articles/2024-03-11-12 如有侵犯，请联系admin@zhengruan.com删除

上一篇：李想指出：恶意P图属于有组织的违法行为

下一篇：如何将电脑的显卡取下

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

我国超过 200 个城市拥有千兆网络，服务超过 5 亿家庭

本站3月11日消息，据工业和信息化部消息，我国千兆城市数量已突破200个。截至目前，共有207个城市达到千兆城市建设标准，这些城市已形成覆盖超过5亿户家庭的千兆网络服务能力。三家主要的电信企业正在围绕国家算力枢纽进行新的规划，其中包括新建130条干线光缆，并且启动了400G全光省际骨干网的建设。这一系列的举措将有助于实现云算力网络的高效互通。根据本站查询结果显示，千兆城市主要评估标准包括移动千兆网络（5G网络）和宽带千兆网络的“双千兆”建设情况，这标志着数字新基建的重要进展。2021年，工业和信息化部发布

11分钟前宽带千兆城市 0
正版软件

即将开启！2024年中国具身智能大会将于3月29-31日在上海举行，与您共同探讨！

由中国人工智能学会主办，CAAI具身智能专委会（筹）、同济大学、中国科学院计算技术研究所、上海交通大学联合承办的中国具身智能大会（CEAI2024）将于2024年3月29-31日在上海市徐汇区西岸智塔召开。本次大会将为具身智能领域的学术界和产业界提供前沿的技术发展动态、丰富多样的学术交流活动、全面前瞻的产业技术宣传平台，以广泛促进学术分享与交流、产业合作与互动，推动产学研联动发展，提升我国具身智能技术的研究与应用水平。此次CEAI2024特别邀请CAAI理事长、中国工程院戴琼海院士，CAAI名誉理事长、中

21分钟前产业 0
正版软件

2024CEAI专题论坛：知识与数据的双重推动力 | 中国智能大会

点击完成注册缴费》》点击了解展览详情》》

36分钟前产业 0
正版软件

机器人综合移动和操作技术讨论会 | CEAI 2024专题论坛 | 中国智能机器人大会

点击完成注册缴费》》点击了解展览详情》》

51分钟前产业 0
正版软件

微软新专利曝光：折叠屏手机或将带来突破

尽管微软的SurfaceDuo系列双屏手机逐渐淡出公众视野，但最近公司公布了一项名为“US-20240069605”的新专利，再次引发了对其移动设备战略的关注。这项专利描述了一种“折叠屏脊椎盖板装置”，其申请公布日为2024年2月29日。根据专利摘要，这项设计包含一种名为“脊椎盖板”的组件，其作用是保护设备内部的铰链。在手机折叠时，脊椎盖板会移动至设备的内部铰链机制，有助于减少设备整体厚度，提升握持感。据了解，之前有消息称微软取消了SurfaceDuo3的开发，转而专注于折叠屏和直板手机的研发。特别是随着

1小时前 04:00 微软 0

零一万物自研全导航图向量数据库，横扫权威榜单6项第一

产品推荐

最新发布

相关推荐

热门关注