亚马逊云科技上线Amazon Nova多模态嵌入模型
专为Agentic RAG与语义搜索量身打造,以行业顶尖的准确率实现跨模态检索 北京 2025年10月29日 /美通社/ -- 亚马逊云科技宣布,Amazon Nova Multimodal Embeddings多模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖多模态嵌入模型。该模型是首个通过单一模型支持文本、文档、图像、视频与音频的统一嵌入模型,能以行业顶尖的准确率实现跨模态检索。 当今,企业正不断寻求解决方案,以期从文本、图像、文档、视频、音频等海量非结构化数据中挖掘价值。例如,某企业可能拥有产品图片、包含信息图与文字的宣传册,以及用户上传的视频片段。嵌入模型被广泛应用于这些场景,它可将文本、视觉、音频输入转换为数值表示形式的嵌入向量,这些嵌入向量会捕捉输入内容的语义信息,供AI系统进行比较、搜索与分析,为语义搜索、检索增强生成(RAG)等场景提供技术支撑。尽管嵌入模型能够挖掘非结构化数据的价值,但传统模型通常仅擅长处理单一类型的内容。这一局限迫使客户要么构建复杂的跨模态嵌入解决方案,要么仅局限于单一内容类型的应用场景。这一问题同样存在于混合模态内容类型,例如文本与图像内容交织的文档,或融合视觉、音频、文本元素的视频,现有模型也难以有效捕捉这类内容中的跨模态关联。 Amazon Nova多模态嵌入模型正为解决上述挑战而生!它为文本、文档、图像、视频、音频构建了统一的语义空间,可支持多种场景,包括混合模态内容的跨模态搜索、基于参考图像的搜索,以及视觉文档检索。 开发团队基于各类基准测试对该模型性能进行了评估,结果显示,其开箱即用的准确率处于领先水平。Amazon Nova多模态嵌入模型支持的上下文长度最高达8000 tokens,可处理的文本语言多达200种,并能通过同步与异步API接收输入。此外,它支持分段处理功能(也称为 "分块",Chunking),可将长文本、视频或音频内容拆分为易于处理的片段,并为每个片段生成嵌入向量。最后,该模型提供四种输出嵌入维度,采用套娃表征学习(Matryoshka Representation Learning,MRL)训练,能在几乎不影响准确率的前提下,实现低延迟的端到端检索。 Amazon Nova 多模态嵌入模型提供四种输出维度选项: 3072 、 1024 、 384 和...
Read more







