【七彩虹教育】向量嵌入
创始人
2025-06-23 20:08:53
0

向量索引技术

向量嵌入只是从图像、文本和音频转换而来的数值表示。简单来说,针对每个项目创建一个单独的数学向量,捕捉该项目的语义或特征。这些向量嵌入更容易被计算系统理解,并与机器学习模型兼容,以理解不同项目之间的关系和相似性。

用于存储这些嵌入向量的数据库称为向量数据库。这些数据库利用嵌入的数学属性,将相似的项目存储在一起。使用不同的技术来将相似的向量存储在一起,将不相似的向量分开。这些就是向量索引技术。

什么是特征向量

向量是一种将实体和应用代数化的表示。向量将实体间的关系抽象成向量空间中的距离,距离的远近代表相似程度。例如:身高、年龄、性别、地域等。

除了图像、文本和音频,理论上所有包含文本在内的任意数据都可以向量化,引用一句网上的热门词就是「万物皆可 Embedding」。

什么是向量索引

向量索引通过将数据表示为向量,并构建高效的索引结构,可以实现快速的相似性搜索和匹配,提高数据检索和匹配的效率。

什么是距离计算

向量检索的过程是计算向量之间的相似度,最后返回相似度较高的 TopK 向量返回,而向量相似度计算有多种方式,不同的计算方式也适用于不同的检索场景。

对于浮点型向量和二值型向量有着不同的距离计算方式。

在实际的应用工程应用场景中,绝大多数使用的浮点型计算,故下面核心介绍浮点型计算距离。

内积距离

内积距离计算的是两个向量在方向上的差异,夹角越小越相似,因此内积值越大越相似。

两条向量内积距离的计算公式为:

内积更适合计算向量的方向而不是大小,通常用于推荐场景。

内积在几何意义上是计算一条向量在另一条向量上的垂直投影长度。

欧式距离

欧氏距离计算的是两点之间最短的直线距离,距离值越小越相似。

欧氏距离的计算公式为:

欧氏距离是最常用的距离计算方式之一,应用广泛,适合数据完整,数据量纲统一的场景。

欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。

余弦距离

余弦距离计算的是两个向量之间的夹角余弦值,夹角越小越相似,因此余弦相似度值越大越相似。

余弦距离的计算公式为:

余弦距离和内积距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题。

基础算法

上述介绍了向量检索的计算相似度方式,接下去就要研究如何加快检索速度。向量检索的本质是近似近邻搜索(ANNS),尽可能减小查询向量的搜索范围,从而提高查询速度,目前业界的近邻搜索算法主要分为基于树、图、量化和哈希四类。考虑到本文核心讲解 RAG 中的工程技术,故本文对此不做过多介绍,有兴趣的读取可以自行深入了解学习。

稠密 & 稀疏向量检索模型

稠密向量检索模型和稀疏向量检索模型是信息检索领域的两种主要方法,主要用于从海量数据中快速查找相关信息。两者的核心区别在于向量表示和搜索方式。

稠密向量检索模型

定义:稠密向量检索模型使用神经网络等深度学习技术,将文档和查询转换为高维稠密向量。每个向量的维度都包含实数值,并且通常维度的数量较少(如几百到几千维)。

特点:

向量表示:每个数据点被表示为一个长度较小、但密集的数值向量。

搜索方式:通过计算向量间的距离(如余弦相似度、欧氏距离)来进行匹配和检索。

优点:能够捕捉复杂的语义关系,表现出色的泛化能力,适合语义相似度计算。

缺点:模型训练需要大量数据和计算资源;搜索阶段需要进行高效的近似最近邻搜索。

稀疏向量检索模型

定义:稀疏向量检索模型通常基于传统的语言模型(如 TF-IDF)和袋装词模型,将文档表示为高维稀疏向量,每个维度对应一个独立的词项。

特点:

向量表示:通用的是利用词项的频率来表示向量,向量的维度非常高(通常和整个词汇表的大小一样),但其中大部分维度的值为零。

搜索方式:通过倒排索引等结构来快速检索和匹配文档。

优点:成熟稳定,解释性强,索引和检索效率高。

缺点:难以捕捉词语间的复杂语义关系,可能对词汇的同义关系不敏感。

区别总结

表示方式:稠密模型使用低维稠密向量,稀疏模型使用高维稀疏向量。

语义能力:稠密模型更擅长捕捉深层语义,稀疏模型在简单文本匹配上更有效。

计算资源:稠密模型通常需要更多计算资源用于训练和检索,稀疏模型则通常拥有更快速的索引和检索过程。

应用场景:稠密模型适合需要深层语义理解的任务,稀疏模型则适用于快速精确匹配场景。

相关内容

71岁蒋厚玉,被查
据安徽省纪委监委6月23日消息:安徽民航机场集团有限公司原董事长蒋...
2025-06-23 22:38:01
突发!美军基地遭袭!霍尔木...
霍尔木兹海峡,持续刷屏! 据最新消息,两艘超级油轮在霍尔木兹海峡突...
2025-06-23 22:09:07
鲁比奥呼吁中国阻止伊朗封锁...
6月23日,外交部发言人郭嘉昆主持例行记者会。 法新社记者提问,美...
2025-06-23 22:09:05
星云股份中标结果:山东圣阳...
证券之星消息,根据天眼查APP信息整理,6月23日公布的《山东圣阳...
2025-06-23 21:38:16
其他电源设备板块6月23日...
证券之星消息,6月23日其他电源设备板块较上一交易日上涨0.76%...
2025-06-23 21:38:15
电源设备行业23日主力净流...
6月23日,电源设备行业上涨1.61%,今日主力资金流入4.39亿...
2025-06-23 21:38:08
茂硕电源收盘上涨1.90%...
6月23日,茂硕电源今日收盘9.13元,上涨1.90%,滚动市盈率...
2025-06-23 21:38:08
茂硕电源:持股 5%以上股...
金融界6月23日消息,茂硕电源公告称,公司持股 5%以上股东、董事...
2025-06-23 21:38:07
股票行情快报:科泰电源(3...
证券之星消息,截至2025年6月23日收盘,科泰电源(300153...
2025-06-23 21:38:06

热门资讯

联想申请信息处理装置以及控制方... 金融界2025年6月23日消息,国家知识产权局信息显示,联想(新加坡)私人有限公司申请一项名为“信息...
嘉楠科技(CAN.US)将终止... 嘉楠科技(CAN.US)将终止其非核心的人工智能半导体业务部门,这是其战略调整的一部分,旨在更专注于...
无锡玖熠半导体申请基于电路成本... 金融界2025年6月23日消息,国家知识产权局信息显示,无锡玖熠半导体科技有限公司申请一项名为“基于...
原创 普... 在这个多事之秋,伊朗最高领袖哈梅内伊的安全问题成为了全球政坛的一颗重磅炸弹,随着以色列对他的威胁不断...
原创 央... 在当今的国际军事舞台上,航母扮演着不可或缺的角色。随着中国海军航母技术的迅速发展,我们即将迎来一个崭...
坤兴科技申请插电适配器多功能电... 金融界2025年6月23日消息,国家知识产权局信息显示,深圳市坤兴科技有限公司申请一项名为“一种插电...
100KVA稳压器最大电流是多... 100KVA稳压器的最大电流通常取决于其额定容量、输出电压以及设计规格。在三相380V输出电压的常见...
【七彩虹教育】向量嵌入 向量索引技术 向量嵌入只是从图像、文本和音频转换而来的数值表示。简单来说,针对每个项目创建一个单独的...
友讯达申请嵌入式系统的多任务监... 金融界2025年6月23日消息,国家知识产权局信息显示,深圳友讯达科技股份有限公司;武汉友讯达科技有...