【七彩虹教育】向量嵌入
创始人
2025-06-23 20:08:53
0

向量索引技术

向量嵌入只是从图像、文本和音频转换而来的数值表示。简单来说,针对每个项目创建一个单独的数学向量,捕捉该项目的语义或特征。这些向量嵌入更容易被计算系统理解,并与机器学习模型兼容,以理解不同项目之间的关系和相似性。

用于存储这些嵌入向量的数据库称为向量数据库。这些数据库利用嵌入的数学属性,将相似的项目存储在一起。使用不同的技术来将相似的向量存储在一起,将不相似的向量分开。这些就是向量索引技术。

什么是特征向量

向量是一种将实体和应用代数化的表示。向量将实体间的关系抽象成向量空间中的距离,距离的远近代表相似程度。例如:身高、年龄、性别、地域等。

除了图像、文本和音频,理论上所有包含文本在内的任意数据都可以向量化,引用一句网上的热门词就是「万物皆可 Embedding」。

什么是向量索引

向量索引通过将数据表示为向量,并构建高效的索引结构,可以实现快速的相似性搜索和匹配,提高数据检索和匹配的效率。

什么是距离计算

向量检索的过程是计算向量之间的相似度,最后返回相似度较高的 TopK 向量返回,而向量相似度计算有多种方式,不同的计算方式也适用于不同的检索场景。

对于浮点型向量和二值型向量有着不同的距离计算方式。

在实际的应用工程应用场景中,绝大多数使用的浮点型计算,故下面核心介绍浮点型计算距离。

内积距离

内积距离计算的是两个向量在方向上的差异,夹角越小越相似,因此内积值越大越相似。

两条向量内积距离的计算公式为:

内积更适合计算向量的方向而不是大小,通常用于推荐场景。

内积在几何意义上是计算一条向量在另一条向量上的垂直投影长度。

欧式距离

欧氏距离计算的是两点之间最短的直线距离,距离值越小越相似。

欧氏距离的计算公式为:

欧氏距离是最常用的距离计算方式之一,应用广泛,适合数据完整,数据量纲统一的场景。

欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。

余弦距离

余弦距离计算的是两个向量之间的夹角余弦值,夹角越小越相似,因此余弦相似度值越大越相似。

余弦距离的计算公式为:

余弦距离和内积距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题。

基础算法

上述介绍了向量检索的计算相似度方式,接下去就要研究如何加快检索速度。向量检索的本质是近似近邻搜索(ANNS),尽可能减小查询向量的搜索范围,从而提高查询速度,目前业界的近邻搜索算法主要分为基于树、图、量化和哈希四类。考虑到本文核心讲解 RAG 中的工程技术,故本文对此不做过多介绍,有兴趣的读取可以自行深入了解学习。

稠密 & 稀疏向量检索模型

稠密向量检索模型和稀疏向量检索模型是信息检索领域的两种主要方法,主要用于从海量数据中快速查找相关信息。两者的核心区别在于向量表示和搜索方式。

稠密向量检索模型

定义:稠密向量检索模型使用神经网络等深度学习技术,将文档和查询转换为高维稠密向量。每个向量的维度都包含实数值,并且通常维度的数量较少(如几百到几千维)。

特点:

向量表示:每个数据点被表示为一个长度较小、但密集的数值向量。

搜索方式:通过计算向量间的距离(如余弦相似度、欧氏距离)来进行匹配和检索。

优点:能够捕捉复杂的语义关系,表现出色的泛化能力,适合语义相似度计算。

缺点:模型训练需要大量数据和计算资源;搜索阶段需要进行高效的近似最近邻搜索。

稀疏向量检索模型

定义:稀疏向量检索模型通常基于传统的语言模型(如 TF-IDF)和袋装词模型,将文档表示为高维稀疏向量,每个维度对应一个独立的词项。

特点:

向量表示:通用的是利用词项的频率来表示向量,向量的维度非常高(通常和整个词汇表的大小一样),但其中大部分维度的值为零。

搜索方式:通过倒排索引等结构来快速检索和匹配文档。

优点:成熟稳定,解释性强,索引和检索效率高。

缺点:难以捕捉词语间的复杂语义关系,可能对词汇的同义关系不敏感。

区别总结

表示方式:稠密模型使用低维稠密向量,稀疏模型使用高维稀疏向量。

语义能力:稠密模型更擅长捕捉深层语义,稀疏模型在简单文本匹配上更有效。

计算资源:稠密模型通常需要更多计算资源用于训练和检索,稀疏模型则通常拥有更快速的索引和检索过程。

应用场景:稠密模型适合需要深层语义理解的任务,稀疏模型则适用于快速精确匹配场景。

相关内容

原创 ...
开车的朋友都有过这种心跳加速的瞬间吧?跟着前车走得好好的,一抬头发...
2025-12-15 01:06:13
2026鲁教版高中地理选择...
为了帮助高中生自主预习与有效复习,我们整理了2026新教材鲁教版高...
2025-12-15 00:08:39
2026鲁教版高中地理选择...
为了帮助高中生自主预习与有效复习,我们整理了2026新教材鲁教版高...
2025-12-15 00:06:53
2026春季新教材鲁教版八...
2026年春季初二学生部分科目将迎来新版教材,新版教材特别强调知识...
2025-12-14 23:40:32
2026春季新教材湘教版八...
2026年春季初二学生部分科目将迎来新版教材,新版教材特别强调知识...
2025-12-14 23:38:36
2026湘教版高中地理选择...
为了帮助高中生自主预习与有效复习,我们整理了2026新教材湘教版高...
2025-12-14 23:36:49
泽连斯基:美欧不支持乌加入...
据央视新闻消息,当地时间12月14日,乌克兰总统泽连斯基在接受采访...
2025-12-14 23:35:19
萨姆纳26分郭昊文空砍42...
【搜狐体育战报】北京时间12月14日CBA常规赛第1轮,主场作战的...
2025-12-14 23:06:25
漏电保护动作电流,该如何选...
漏电保护动作电流该如何选择? 漏电动作电流是如何选择的?还有哪几种...
2025-12-14 22:36:06

热门资讯

2026鲁教版高中地理选择性必... 为了帮助高中生自主预习与有效复习,我们整理了2026新教材鲁教版高中地理选择性必修一电子课本,教材突...
2026湘教版高中地理选择性必... 为了帮助高中生自主预习与有效复习,我们整理了2026新教材湘教版高中地理选择性必修二电子课本,教材突...
从茶艺到动漫、从直播带货到电路... 南都讯 记者伍曼娜职业教育的实训项目究竟有多有趣?近日,深圳市龙岗区第二职业技术学校(以下简称“龙岗...
半导体与电网涨势下大盘中性态势 老樊曾最早喊出“中国缺芯,美国缺电”观点,对应半导体设备和北美电网,如今已成很多机构口号。今日,半导...
集微咨询发布《2025中国半导... 后道设备处于半导体产业链的封装和测试环节,是确保芯片性能和质量的关键环节。在封装环节,后道设备将晶圆...
江苏省省长刘小涛、南京市代市长... 文/徐培琪 最近,位于南京栖霞的人工智能企业出门问问化身区域“新顶流”,不断引来贵客“进门看看”。 ...
为新能源汽车接上“电源” 开栏的话 “离岗不离党、退休不褪色”,退休法官是人民法院的宝贵财富。聘请退休法官担任特邀调解员,让“...
剩余电流测试仪详细说明 产品概述 剩余电流保护装置动作特性测试仪遵循国家标准《剩余电流动作保护器》(GB6829—95)中的...
芯片“大牛股”公司终止收购 扬子晚报网12月14日讯(记者 范晓林 薄云峰)12月12日晚间,芯原股份发布公告称,终止收购芯来智...
新点软件中标:安顺市公共资源交... 证券之星消息,根据天眼查APP-财产线索数据整理,根据安顺市公共资源交易中心12月11日发布的《安顺...