据伊朗新闻电视台网站 12 月 12 日报谈亚博体育(中国)官方网站,伊斯兰翻新卫队总司令赞赏了该部队在叙利亚作念出的殉难,强调其成员是在番邦维持的武装分子卷土...
本站音信,11月1日,国投瑞银顺祥债券最新单元净值为1.0715元,累计净值为1.2434元,较前一往改日高涨0.07%。历史数据表示该基金近1个月高涨0.3%...
买房时,从屋子里面,楼栋外立面,还有小区环境等,难以划分小区定位到底是哪一档。万一花大钱买的房并不像销售嘴里说的那么“高等”,搁谁心里齐疾苦。而地下车库一般不合...
中信建投、中信证券冲高回落。 中信建投盘中涨停 6日开盘,券商股无数回调,但中信建投大幅高开,盘中波及涨停;中信证券也一度涨超8%。午盘后,两股均涟漪回落。适度...
底下的两个有声书演播片断亚博体育(中国)官方网站,你能分辨是真东说念主如故 AI 合成的吗? 现实上这两个演义片断王人是 AI 合成的,有预备来自于豆包语音模子...
给 AI 看一眼图,它就能找到对应音乐。 比如一艘海上飞行的海盗船,啪一下,就检索到了加勒比海盗经典配乐。 音乐信息检索(Music Information Retrieval, MIR)一直面对着多模态数据的复杂性和多言语文本和会的挑战。 现时的 MIR 系统主要温和特定模态对(如文本 - 音频或文本 - 曲谱),限制了跨模态和会的后劲。 同期,现存的数据集主要以英语为主,艰难多言语销毁,导致 MIR 在非英语环境下的泛化才气受限。 为此,来自中央音乐学院、清华大学、香港科技大学大学、上海纽约大学等机构的征询者推出CLaMP 3(Contrastive Language-Music Pre-training)——一个跨模态、跨言语的长入音乐信息检索框架。 通过对比学习,CLaMP 3 初次罢了了曲谱、演奏信号、音频灌音等音乐模态与多言语文本的结伙对皆,使得不同模态之间不错通过文本桥接进行高效检索。其多言语文本编码器八成适合从未见过的言语,在跨言语检索任务上进展超卓。 CLaMP3 基于检索增强生成(Retrieval-Augmented Generation, RAG)政策,构建了限制达到 2.31M 音乐 - 文本对的 M4-RAG 数据集,并结合把稳的音乐元数据,销毁27 种言语、194 个国度的音乐文化。此外,征询团队还推出了WikiMT-X,一个由曲谱、音频和各样化文本描写构成的 1000 个样本的基准数据集,鼓动跨模态音乐和会的征询。 实验效果标明,CLaMP 3 在多个 MIR 任务上取得了现时最优性能,不仅大幅零散已有基线模子,还在跨模态、跨言语的检索任务中展现了超卓的泛化才气。 图 1:CLaMP 3 展现出弘大的跨模态和跨言语泛化才气。监督对皆(实线箭头)结合成对的模态,而流露对皆(虚线箭头)则弥合未对皆的模态。多言语文本编码器使得在对皆历程中未见(灰色气泡)的言语中也能进行检索。 动机:MIR 需要确切的跨模态、跨言语对皆 音乐是内行性的,但 MIR 的发展仍然面对以下关键问题: 多模态数据对皆难度高:曲谱、MIDI(演奏信号)、音频各自有独有的数据暗示口头,传统要领难以长入处理不同模态。 多言语音乐信息检索受限:现存数据集以英语为主,艰难对其他言语的销毁,导致 MIR 模子难以泛化到内行音乐语境。 艰难高质料的多模态 - 多言语数据:音乐文本数据多为粗俗的标签,艰难把稳的长文本描写,限制了 MIR 系统的和会才气。 为责罚上述问题,CLaMP 3 构建了一个通用的跨模态 - 跨言语检索框架,通过对比学习构建分享暗示空间,使得不同模态的音乐数据不错在无配对履行数据的情况下进行检索。 要领:对比学习 + 检索增强生成,构建长入音乐暗示空间 CLaMP 3 吸收对比学习(Contrastive Learning)算作中枢优化指标,通过多阶段履行政策对皆不同模态,并专揽检索增强生成(RAG)扩张高质料音乐 - 文本数据。 图 2:CLaMP 3 吸收对比学习来对皆不同模态的特征。曲谱和演奏信号被分割为单元(末节或 MIDI 音问),并由符号音乐编码器处理,而音频则被分割为 5 秒片断,并通过音频特征索求器和音频音乐编码器处理。符号和音频暗示均与来自多言语文本编码器的文本暗示对皆。 履行政策:多阶段模态对皆 CLaMP 3 的履行政策鉴戒了 ImageBind 的念念想,吸收四阶段跨模态对皆: 文本与曲谱对皆:履行文本编码器与曲谱编码器。 文本与音频对皆:冻结文本编码器,履行音频编码器。 优化文本对皆:解冻文本编码器,细调文本 - 音频对皆。 修正跨模态漂移:再行对皆文本 - 曲谱,以减少前一阶段的对皆偏差。 这一政策确保了通盘模态最终映射到长入的暗示空间,幸免模态漂移问题。 中枢组件:多模态 Transformer 编码器 CLaMP 3 由多个基于 Transformer 的编码器构成,每个编码器针对不同模态进行处理,以确保跨模态对皆和信息和会。 多言语文本编码器 CLaMP 3 的文本编码器基于XLM-R-base,一个预履行于 2.5TB CommonCrawl 数据的模子,涵盖100 种言语。该编码用具有12 层 Transformer,荫庇维度为768,具备弘大的跨言语泛化才气,可用于处理未见言语的数据。 符号音乐编码器 CLaMP 3 吸收M3算作符号音乐编码器,它是一种自监督学习模子,可处理多轨ABC 记谱样貌和MIDI。 输入样貌:ABC 以末节(bar)为单元分割,MIDI 以音问(message)为单元分割。 模子结构:12 层 Transformer,荫庇层大小 768。 处理才气:相沿 512 个片断(patches)或 32,768 个字符,可捕捉复杂的符号音乐模式。 音频音乐编码器 CLaMP 3 的音频编码器是一个12 层 Transformer,荫庇维度一样为768,专为音乐音频处理而履行。 特征索求:专揽 MERT-v1-95M 预履行特征,MERT 算作冻结的音频特征索求器。 输入单元:将音频分割为 5 秒片断,并计较通盘 MERT 层的时间步均值,生成单个镶嵌向量。 处理才气:最多相沿 128 个镶嵌向量(对应 640 秒音频),八成建模永劫音乐特征。 长入暗示空间 通盘编码器的输出都经过线性层和平均池化(average pooling)处理,最终身周详局语义特征,确保不同模态数据在分享暗示空间中对皆。 数据集:M4-RAG CLaMP 3 的履行依赖于大限制的高质料多模态多言语音乐数据集M4-RAG。 数据起原 CLaMP 3 结合符号音乐数据和音频音乐数据以构建多模态学习基础: 符号音乐数据: WebMusicText(WebMT):1.4M ABC 记谱文献。 Million MIDI Dataset(MMD):1.5M MIDI 文献。 数据转化:MMD 转化为 ABC,WebMT 转化为 MIDI,最终造成 3M 长入样貌的符号音乐数据。 音频音乐数据: 从麇集收罗 1.8M 音轨,共计 16 万小时音频,并预索求音频特征以减少计较资本。 元数据处理 CLaMP 3 依赖音乐标题(Title)算作主要检索信号,通过检索增强生成(RAG)从 Web 得回丰富的元数据,包括立场、标签、配景信息等,最终借助 Qwen2.5-72B 构建M4-RAG: 数据量:2.31M 元数据条件。 音乐 - 文本对皆: ABC- 文本:0.58M MIDI- 文本:0.17M 音频 - 文本:1.56M 元数据涵盖随笔本(如派系、标签)和长文本(如配景先容、音乐分析),提供全面的音乐描写信息。 表 1:M4-RAG 的元数据概览,按基本信息、注视和翻译进行分类。在注视(Annotations)部分,地区(Region)和言语(Language)以英语书写,其他字段罢免对应的言语依次。 言语 & 地舆销毁 M4-RAG涵盖 27 种言语,其中大部分元数据原始言语为英语。 翻译增强:使用Qwen2.5-72B进行翻译,加多低资源言语的数据量(如马来语、缅甸语)。 内行销毁:数据起原于194 个国度,涵盖主流音乐市集及各样化的地域音乐立场。 图 3:M4-RAG 华夏始数据和翻译数据的言语漫衍,销毁 27 种言语。 图 4:M4-RAG 中音乐曲见识国度漫衍,涵盖 194 个国度。 实验:CLaMP 3 在跨模态、跨言语检索上零散现存 SOTA CLaMP 3 在多个 MIR 任务上取得了现时最优(SOTA)性能,比较前代 CLaMP 2 和其他基线模子,如 CLAP、TTMR++,有权臣进步。 跨模态音乐检索 在文本 - 音频、文本 - 曲谱等任务上,CLaMP 3 在WikiMT-X、MidiCaps、MusicCaps-Remake等基准数据集上的 MRR(Mean Reciprocal Rank)均零散基线: 文本 -ABC 检索:MRR 0.4498(进步>10%) 文本 - 音频检索:MRR 0.1985(零散 CLAP 与 TTMR++) 表 2:英文文本到音乐检索任务的效果,涵盖多个基准数据集。WikiMT 和 MidiCaps 各包含 1,010 对样本,Song Describer Dataset ( SDD ) 包含 706 个音频和 1,106 条规本描写,MusicCaps-Remake ( MC-R ) 包含 2,777 对样本。MC-R 通过使用齐全音频和来自 AudioSet 评估集的重写文本描写,幸免了数据显露。 跨言语音乐检索 在非英语文本到音乐的检索任务中,CLaMP 3 展现了极强的跨言语泛化才气,即使在履行蚁合未见过的言语上,还是能取得优异进展。举例: 俄语 - 曲谱检索:MRR 0.3614 汉文 - 音频检索:MRR 0.1459 芬兰语(未见言语)- 音频检索:MRR 0.1770 表 3:多言语文本到音乐检索任务的效果,基于 WikiMT-X 翻译后的配景注视。标有星号(*)的言语未包含在 M4-RAG 履行数据中。每种言语下方的 BLEU 分数通过 SeamlessM4T 模子对文本进行回译,并与原始英语文本进行对比计较。 无配对跨模态检索 在莫得配对履行数据的情况下,CLaMP 3 还是不错进行跨模态检索,举例: 曲谱→音频(S → A):MRR 0.0578 音频→曲谱(A → S):MRR 0.0492 表 4:WikiMT-X 不同音乐模态配对的流露跨模态检索效果。S:曲谱(ABC 记谱)、P:演奏信号(MIDI,由 ABC 转化)、A:音频灌音。 论断:CLaMP 3 开启跨模态、跨言语 MIR 新时期 CLaMP 3 初次罢了了曲谱、演奏信号、音频与多言语文本的长入暗示学习,冲突了 MIR 的跨模态与跨言语限制。 样貌主页:https://sanderwood.github.io/clamp3 在线 Demo:https://huggingface.co/spaces/sander-wood/clamp3 GitHub 代码:https://github.com/sanderwood/clamp3 — 完 — 投稿请责任日发邮件到: ai@qbitai.com 标题注明【投稿】,告诉咱们: 你是谁,从哪来,投稿本色 附上论文 / 样貌主页结合,以及连络口头哦 咱们会(尽量)实时回应你 一键温和 � � 点亮星标 科技前沿进展逐日见 一键三连「点赞」「转发」「堤防心」 海涵在批驳区留住你的想法!欧洲杯体育 |