嵌入模型榜单大洗牌:谷歌登顶,阿里开源方案紧追不舍
创始人
2025-07-22 03:09:08
0

谷歌正式将其新的高性能Gemini嵌入模型推向正式商用,目前在备受推崇的大规模文本嵌入基准测试(MTEB)中排名第一。该模型(gemini-embedding-001)现已成为Gemini API和Vertex AI的核心组成部分,使开发者能够构建语义搜索和检索增强生成(RAG)等应用。

虽然第一名的排名标志着强势亮相,但嵌入模型市场竞争异常激烈。谷歌的专有模型正面临强大开源替代方案的直接挑战。这为企业带来了新的战略选择:采用排名第一的专有模型,还是选择性能接近但提供更多控制权的开源挑战者。

谷歌Gemini嵌入模型的核心技术

从本质上讲,嵌入技术将文本(或其他数据类型)转换为数值列表,捕获输入的关键特征。具有相似语义含义的数据在数值空间中的嵌入值更接近。这使得强大的应用超越了简单的关键词匹配,例如构建智能检索增强生成(RAG)系统,为大语言模型提供相关信息。

嵌入技术还可以应用于图像、视频和音频等其他模态。例如,电商公司可能利用多模态嵌入模型为产品生成统一的数值表示,同时融合文本描述和图像信息。

对于企业而言,嵌入模型可以驱动更精确的内部搜索引擎、复杂的文档聚类、分类任务、情感分析和异常检测。嵌入技术也正成为智能体应用的重要组成部分,AI智能体需要检索和匹配不同类型的文档和提示。

Gemini嵌入模型的关键特性之一是其内置的灵活性。它通过俄罗斯套娃表示学习(MRL)技术进行训练,允许开发者获得高度详细的3072维嵌入,同时也可以截断为1536或768等较小尺寸,同时保留最相关的特征。这种灵活性使企业能够在模型准确性、性能和存储成本之间取得平衡,这对于高效扩展应用至关重要。

谷歌将Gemini嵌入模型定位为统一模型,设计为在金融、法律和工程等不同领域"开箱即用",无需微调。这为需要通用解决方案的团队简化了开发流程。该模型支持100多种语言,定价具有竞争力,每百万输入Token收费0.15美元,旨在实现广泛的可访问性。

专有模型与开源挑战者的竞争格局

MTEB排行榜显示,虽然Gemini领先,但差距很小。它面临着OpenAI等成熟模型的挑战,OpenAI的嵌入模型被广泛使用,还有Mistral等专业化挑战者,后者提供专门针对代码检索的模型。这些专业化模型的出现表明,对于某些特定任务,针对性工具可能优于通用工具。

另一个关键参与者Cohere直接瞄准企业市场,推出Embed 4模型。虽然其他模型在通用基准测试中竞争,Cohere强调其模型处理企业文档中常见"噪音现实世界数据"的能力,如拼写错误、格式问题,甚至扫描的手写内容。它还提供虚拟私有云或本地部署,为金融和医疗等受监管行业提供了直接吸引力的数据安全水平。

对专有模型主导地位最直接的威胁来自开源社区。阿里巴巴的Qwen3-Embedding模型在MTEB上仅次于Gemini,并采用宽松的Apache 2.0许可证(可用于商业目的)。对于专注于软件开发的企业,Qodo的Qodo-Embed-1-1.5B提供了另一个令人瞩目的开源替代方案,专门为代码设计,声称在特定领域基准测试中优于更大的模型。

对于已经基于Google Cloud和Gemini模型系列构建的公司,采用原生嵌入模型可以带来多项优势,包括无缝集成、简化的MLOps流水线,以及使用顶级通用模型的保证。

然而,Gemini是一个封闭的、仅API的模型。对于优先考虑数据主权、成本控制或在自有基础设施上运行模型能力的企业,现在在Qwen3-Embedding中有了可信的顶级开源选择,或者可以使用特定任务的嵌入模型之一。

相关内容

电科芯片:射频开关、低噪声...
电科芯片发布异动公告,公司股票于2026年1月9日、1月12日及1...
2026-01-13 20:08:47
瑞尔电气取得量测开关拓扑识...
国家知识产权局信息显示,河南瑞尔电气股份有限公司取得一项名为“一种...
2026-01-13 20:08:45
珠海量引科技申请光开关和硅...
国家知识产权局信息显示,珠海量引科技有限公司申请一项名为“光开关和...
2026-01-13 20:08:44
德高化成取得光耦产品封装用...
国家知识产权局信息显示,天津德高化成新材料股份有限公司取得一项名为...
2026-01-13 20:08:41
北京晨晶电子申请双晶体振动...
国家知识产权局信息显示,北京晨晶电子有限公司申请一项名为“一种双晶...
2026-01-13 20:08:39
沃格光电:预计2025年净...
每经AI快讯,1月13日,沃格光电(603773.SH)发布202...
2026-01-13 20:08:38
山东信为智控申请一体磁传感...
国家知识产权局信息显示,山东信为智控矿山科技有限公司申请一项名为“...
2026-01-13 20:08:37
我国自研原位传感器完成验证...
IT之家 1 月 13 日消息,据新华社报道,近日,中国在深海观测...
2026-01-13 19:37:34
华微电子取得片内时钟网络延...
国家知识产权局信息显示,成都华微电子科技股份有限公司取得一项名为“...
2026-01-13 19:08:48

热门资讯

沃格光电:预计2025年净亏损... 每经AI快讯,1月13日,沃格光电(603773.SH)发布2025年度业绩预告,预计2025年归属...
思特威取得图像传感器专利,可有... 国家知识产权局信息显示,思特威(深圳)电子科技有限公司取得一项名为“图像传感器、电子设备”的专利,授...
江西交投取得电子档案存储方法及... 国家知识产权局信息显示,江西省交通投资集团有限责任公司取得一项名为“一种电子档案存储方法及系统”的专...
华能湖南岳阳发电申请继电保护监... 国家知识产权局信息显示,华能湖南岳阳发电有限责任公司申请一项名为“一种继电保护监测系统及继电柜”的专...
拓荆创益申请温度控制方法及加热... 国家知识产权局信息显示,拓荆创益(沈阳)半导体设备有限公司申请一项名为“一种温度控制方法及加热盘温控...
华为申请高带宽存储器控制方法专... 国家知识产权局信息显示,华为技术有限公司申请一项名为“一种针对高带宽存储器的控制方法及装置”的专利,...
沪电股份拟3亿美元投建高密度光... 雷达财经 文|杨洋 编|李亦辉 1月12日,沪电股份(002463)公告,公司计划在常州市金坛区投资...
山区中学求捐拍立得相机为留守儿... 极目新闻记者 柳之萌 1月12日,有网友在社交平台发帖称,吉安市遂川县一所山区中学发布公益募捐项目,...
迅科达取得数据线检测装置专利,... 国家知识产权局信息显示,深圳市迅科达智能科技有限公司取得一项名为“一种数据线检测装置”的专利,授权公...