欧洲杯体育使得不同模态之间不错通过文本桥接进行高效检索-亚博「中国」yabo官方网站-登录入口

给 AI 看一眼图，它就能找到对应音乐。

比如一艘海上飞行的海盗船，啪一下，就检索到了加勒比海盗经典配乐。

音乐信息检索（Music Information Retrieval, MIR）一直面对着多模态数据的复杂性和多言语文本和会的挑战。

现时的 MIR 系统主要温和特定模态对（如文本 - 音频或文本 - 曲谱），限制了跨模态和会的后劲。

同期，现存的数据集主要以英语为主，艰难多言语销毁，导致 MIR 在非英语环境下的泛化才气受限。

为此，来自中央音乐学院、清华大学、香港科技大学大学、上海纽约大学等机构的征询者推出CLaMP 3（Contrastive Language-Music Pre-training）——一个跨模态、跨言语的长入音乐信息检索框架。

通过对比学习，CLaMP 3 初次罢了了曲谱、演奏信号、音频灌音等音乐模态与多言语文本的结伙对皆，使得不同模态之间不错通过文本桥接进行高效检索。其多言语文本编码器八成适合从未见过的言语，在跨言语检索任务上进展超卓。

CLaMP3 基于检索增强生成（Retrieval-Augmented Generation, RAG）政策，构建了限制达到 2.31M 音乐 - 文本对的 M4-RAG 数据集，并结合把稳的音乐元数据，销毁27 种言语、194 个国度的音乐文化。此外，征询团队还推出了WikiMT-X，一个由曲谱、音频和各样化文本描写构成的 1000 个样本的基准数据集，鼓动跨模态音乐和会的征询。

实验效果标明，CLaMP 3 在多个 MIR 任务上取得了现时最优性能，不仅大幅零散已有基线模子，还在跨模态、跨言语的检索任务中展现了超卓的泛化才气。

图 1：CLaMP 3 展现出弘大的跨模态和跨言语泛化才气。监督对皆（实线箭头）结合成对的模态，而流露对皆（虚线箭头）则弥合未对皆的模态。多言语文本编码器使得在对皆历程中未见（灰色气泡）的言语中也能进行检索。

动机：MIR 需要确切的跨模态、跨言语对皆

音乐是内行性的，但 MIR 的发展仍然面对以下关键问题：

多模态数据对皆难度高：曲谱、MIDI（演奏信号）、音频各自有独有的数据暗示口头，传统要领难以长入处理不同模态。

多言语音乐信息检索受限：现存数据集以英语为主，艰难对其他言语的销毁，导致 MIR 模子难以泛化到内行音乐语境。

艰难高质料的多模态 - 多言语数据：音乐文本数据多为粗俗的标签，艰难把稳的长文本描写，限制了 MIR 系统的和会才气。

为责罚上述问题，CLaMP 3 构建了一个通用的跨模态 - 跨言语检索框架，通过对比学习构建分享暗示空间，使得不同模态的音乐数据不错在无配对履行数据的情况下进行检索。

要领：对比学习 + 检索增强生成，构建长入音乐暗示空间

CLaMP 3 吸收对比学习（Contrastive Learning）算作中枢优化指标，通过多阶段履行政策对皆不同模态，并专揽检索增强生成（RAG）扩张高质料音乐 - 文本数据。

图 2：CLaMP 3 吸收对比学习来对皆不同模态的特征。曲谱和演奏信号被分割为单元（末节或 MIDI 音问），并由符号音乐编码器处理，而音频则被分割为 5 秒片断，并通过音频特征索求器和音频音乐编码器处理。符号和音频暗示均与来自多言语文本编码器的文本暗示对皆。

履行政策：多阶段模态对皆

CLaMP 3 的履行政策鉴戒了 ImageBind 的念念想，吸收四阶段跨模态对皆：

文本与曲谱对皆：履行文本编码器与曲谱编码器。

文本与音频对皆：冻结文本编码器，履行音频编码器。

优化文本对皆：解冻文本编码器，细调文本 - 音频对皆。

修正跨模态漂移：再行对皆文本 - 曲谱，以减少前一阶段的对皆偏差。

这一政策确保了通盘模态最终映射到长入的暗示空间，幸免模态漂移问题。

中枢组件：多模态 Transformer 编码器

CLaMP 3 由多个基于 Transformer 的编码器构成，每个编码器针对不同模态进行处理，以确保跨模态对皆和信息和会。

多言语文本编码器

CLaMP 3 的文本编码器基于XLM-R-base，一个预履行于 2.5TB CommonCrawl 数据的模子，涵盖100 种言语。该编码用具有12 层 Transformer，荫庇维度为768，具备弘大的跨言语泛化才气，可用于处理未见言语的数据。

符号音乐编码器

CLaMP 3 吸收M3算作符号音乐编码器，它是一种自监督学习模子，可处理多轨ABC 记谱样貌和MIDI。

输入样貌：ABC 以末节（bar）为单元分割，MIDI 以音问（message）为单元分割。

模子结构：12 层 Transformer，荫庇层大小 768。

处理才气：相沿 512 个片断（patches）或 32,768 个字符，可捕捉复杂的符号音乐模式。

音频音乐编码器

CLaMP 3 的音频编码器是一个12 层 Transformer，荫庇维度一样为768，专为音乐音频处理而履行。

特征索求：专揽 MERT-v1-95M 预履行特征，MERT 算作冻结的音频特征索求器。

输入单元：将音频分割为 5 秒片断，并计较通盘 MERT 层的时间步均值，生成单个镶嵌向量。

处理才气：最多相沿 128 个镶嵌向量（对应 640 秒音频），八成建模永劫音乐特征。

长入暗示空间

通盘编码器的输出都经过线性层和平均池化（average pooling）处理，最终身周详局语义特征，确保不同模态数据在分享暗示空间中对皆。

数据集：M4-RAG

CLaMP 3 的履行依赖于大限制的高质料多模态多言语音乐数据集M4-RAG。

数据起原

CLaMP 3 结合符号音乐数据和音频音乐数据以构建多模态学习基础：

符号音乐数据：

WebMusicText（WebMT）：1.4M ABC 记谱文献。

Million MIDI Dataset（MMD）：1.5M MIDI 文献。

数据转化：MMD 转化为 ABC，WebMT 转化为 MIDI，最终造成 3M 长入样貌的符号音乐数据。

音频音乐数据：

从麇集收罗 1.8M 音轨，共计 16 万小时音频，并预索求音频特征以减少计较资本。

元数据处理

CLaMP 3 依赖音乐标题（Title）算作主要检索信号，通过检索增强生成（RAG）从 Web 得回丰富的元数据，包括立场、标签、配景信息等，最终借助 Qwen2.5-72B 构建M4-RAG：

数据量：2.31M 元数据条件。

音乐 - 文本对皆：

ABC- 文本：0.58M

MIDI- 文本：0.17M

音频 - 文本：1.56M

元数据涵盖随笔本（如派系、标签）和长文本（如配景先容、音乐分析），提供全面的音乐描写信息。

表 1：M4-RAG 的元数据概览，按基本信息、注视和翻译进行分类。在注视（Annotations）部分，地区（Region）和言语（Language）以英语书写，其他字段罢免对应的言语依次。

言语 & 地舆销毁

M4-RAG涵盖 27 种言语，其中大部分元数据原始言语为英语。

翻译增强：使用Qwen2.5-72B进行翻译，加多低资源言语的数据量（如马来语、缅甸语）。

内行销毁：数据起原于194 个国度，涵盖主流音乐市集及各样化的地域音乐立场。

图 3：M4-RAG 华夏始数据和翻译数据的言语漫衍，销毁 27 种言语。

图 4：M4-RAG 中音乐曲见识国度漫衍，涵盖 194 个国度。

实验：CLaMP 3 在跨模态、跨言语检索上零散现存 SOTA

CLaMP 3 在多个 MIR 任务上取得了现时最优（SOTA）性能，比较前代 CLaMP 2 和其他基线模子，如 CLAP、TTMR++，有权臣进步。

跨模态音乐检索

在文本 - 音频、文本 - 曲谱等任务上，CLaMP 3 在WikiMT-X、MidiCaps、MusicCaps-Remake等基准数据集上的 MRR（Mean Reciprocal Rank）均零散基线：

文本 -ABC 检索：MRR 0.4498（进步>10%）

文本 - 音频检索：MRR 0.1985（零散 CLAP 与 TTMR++）

表 2：英文文本到音乐检索任务的效果，涵盖多个基准数据集。WikiMT 和 MidiCaps 各包含 1,010 对样本，Song Describer Dataset ( SDD ) 包含 706 个音频和 1,106 条规本描写，MusicCaps-Remake ( MC-R ) 包含 2,777 对样本。MC-R 通过使用齐全音频和来自 AudioSet 评估集的重写文本描写，幸免了数据显露。

跨言语音乐检索

在非英语文本到音乐的检索任务中，CLaMP 3 展现了极强的跨言语泛化才气，即使在履行蚁合未见过的言语上，还是能取得优异进展。举例：

俄语 - 曲谱检索：MRR 0.3614

汉文 - 音频检索：MRR 0.1459

芬兰语（未见言语）- 音频检索：MRR 0.1770

表 3：多言语文本到音乐检索任务的效果，基于 WikiMT-X 翻译后的配景注视。标有星号（*）的言语未包含在 M4-RAG 履行数据中。每种言语下方的 BLEU 分数通过 SeamlessM4T 模子对文本进行回译，并与原始英语文本进行对比计较。

无配对跨模态检索

在莫得配对履行数据的情况下，CLaMP 3 还是不错进行跨模态检索，举例：

曲谱→音频（S → A）：MRR 0.0578

音频→曲谱（A → S）：MRR 0.0492

表 4：WikiMT-X 不同音乐模态配对的流露跨模态检索效果。S：曲谱（ABC 记谱）、P：演奏信号（MIDI，由 ABC 转化）、A：音频灌音。

论断：CLaMP 3 开启跨模态、跨言语 MIR 新时期

CLaMP 3 初次罢了了曲谱、演奏信号、音频与多言语文本的长入暗示学习，冲突了 MIR 的跨模态与跨言语限制。

样貌主页：https://sanderwood.github.io/clamp3

在线 Demo：https://huggingface.co/spaces/sander-wood/clamp3

GitHub 代码：https://github.com/sanderwood/clamp3

— 完 —

投稿请责任日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿本色‍

附上论文 / 样貌主页结合，以及连络口头哦

咱们会（尽量）实时回应你

一键温和 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「堤防心」

海涵在批驳区留住你的想法！欧洲杯体育