Posts

Simultaneous Speech-to-Speech Translation Without Aligned Data

📄 Simultaneous Speech-to-Speech Translation Without Aligned Data #语音翻译 #强化学习 #多语言 #低资源 #流式处理 8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8/10 | 前25% | #语音翻译 | #强化学习 | #多语言 #低资源 | arxiv 👥 作者与机构第一作者：Tom Labiausse（Kyutai, Paris, France）通讯作者：未指定个人通讯作者，提供团队邮箱 hibiki@kyutai.org 作者列表：Tom Labiausse（Kyutai）、Romain Fabre（Kyutai）、Yannick Estève（LIA, University of Avignon）、Alexandre Défossez（Kyutai / Gradium）、Neil Zeghidour（Gradium） 💡 毒舌点评通过消除词级对齐数据并用单BLEU奖励驱动RL，Hibiki-Zero简化了同时语音翻译的训练范式，并在多语言环境下取得了有竞争力的质量-延迟折衷，尤其在新语言适应方面展现出潜力。但过程奖励完全依赖BLEU，回避了对翻译自然度、韵律和语义保真度的直接建模；且评测数据及训练目标语音均为合成数据，存在生成-评估偏差风险，在实际场景下的泛化能力仍存疑。 ...

SONAR: Spectral‑Contrastive Audio Residuals for Generalizable Deepfake Detection

📄 SONAR: Spectral‑Contrastive Audio Residuals for Generalizable Deepfake Detection #语音伪造检测 #对比学习 #鲁棒性 #高效推理 7.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.8/10 | 前25% | #语音伪造检测 | #对比学习 | #鲁棒性 #高效推理 | arxiv 👥 作者与机构第一作者：Ido Nitzan Hidekel（Tel Aviv University, School of Electrical Engineering）通讯作者：Ido Nitzan Hidekel（Tel Aviv University, School of Electrical Engineering）作者列表：Ido Nitzan Hidekel（Tel Aviv University, School of Electrical Engineering）、Gal Lifshitz（Tel Aviv University, School of Electrical Engineering）、Khen Cohen（Tel Aviv University, School of Physics and Astronomy）、Dan Raviv（Tel Aviv University, School of Electrical Engineering） 💡 毒舌点评 SONAR巧妙地将低频语义与高频残差的一致性作为深度伪造检测的关键信号，可学习SRM与Jensen-Shannon对齐损失的组合简洁有效，收敛速度大幅领先基线，并且在跨域测试中表现稳健。但整体架构仍属双流融合的增量改进，创新高度有限，对输入带宽高度敏感，依赖16kHz以上的高频信息，一旦低频信号被压制或带宽受限，性能会明显退化，实际部署的边界条件尚需更充分的讨论。 ...

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering #音频修复 #流匹配 #多模态模型 #指令微调 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #音频修复 | #流匹配 | #多模态模型 #指令微调 | arxiv 👥 作者与机构第一作者：Jan Melechovsky （Singapore University of Technology and Design）通讯作者：Jan Melechovsky （Singapore University of Technology and Design）作者列表：Jan Melechovsky（Singapore University of Technology and Design）、Ambuj Mehrish（Ca’ Foscari University of Venice）、Abhinaba Roy（Singapore University of Technology and Design）、Dorien Herremans（Singapore University of Technology and Design） 💡 毒舌点评 SonicMaster在"All-in-One"音乐修复上的尝试是勇敢且及时的，用一套流匹配框架统一了19种退化类型的处理，避免了以往的级联错误。但数据生成高度依赖模拟退化，而真实世界录音的退化远比参数化函数复杂和混沌得多，模型对真实复杂混合退化的泛化能力仍是未知数。VAE潜在空间的引入确实提升了效率，但也带来了可闻的编解码伪影——论文自己都承认会出现“机器人嗓音”和清晰度损失，这在一个标榜“专业级”的母带处理场景下显得不够“clean”。与效应移除模型的对比更像是一场不公平的“表演赛”，高得惊人的SI-SDR背后，很可能只是模型学会了把音频“母带化”得更响、更亮，而非真正忠实地修复了信号。 ...

Sparse Autoencoders for Interpretable Emotion Control in Text-to-Speech

📄 Sparse Autoencoders for Interpretable Emotion Control in Text-to-Speech #语音合成 #语音情感识别 #大语言模型 #可解释性 #零样本 7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7/10 | 前50% | #语音合成 | #大语言模型 | #语音情感识别 #可解释性 | arxiv 👥 作者与机构第一作者：Hongfei Du（威廉玛丽学院计算机系）通讯作者：Ye Gao（威廉玛丽学院计算机系）作者列表：Hongfei Du、Jiacheng Shi、Sidi Lu、Gang Zhou、Ye Gao（均来自威廉玛丽学院计算机系） 💡 毒舌点评用SAE在LLM-TTS语义残差流中寻找情感稀疏特征的想法颇具启发性，论证了情感并非单一全局向量偏移，而是少数几个潜在方向协调作用的结果，构成了本文最核心的分析贡献。但方法高度耦合于IndexTTS2单个骨干，且在特征选择上完全依赖配对情感数据，让“即插即用”的承诺在通用性上打了折扣；缺乏与最新激活转向工作（如EmoSteer-TTS）的直接对比，也让SOTA声明略显仓促。 📌 核心摘要本文针对LLM-based TTS系统情感控制缺乏可解释性的问题，提出利用稀疏自编码器（SAE）在语义骨干中学习并调控情感相关稀疏特征。核心管线的第一步是在冻结的TTS骨干（IndexTTS2）上训练一个过完备的Top-k SAE（维度1280→4096→1280, k=32），将残差流中稠密的隐状态分解为可解释的稀疏特征激活。第二步，在离线分析阶段，通过对齐文本和说话人音色，构建配对的中性-情感样本，并基于提出的句子级情感选择性评分（emotion selectivity score，简化为配对激活频率差），可靠地筛选出与目标情感高度相关的Top-m个潜在特征。 ...

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #模型剪枝 #可解释性 5.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.9/10 | 前50% | #模型剪枝 | #模型剪枝 | #可解释性 | arxiv 👥 作者与机构第一作者：Zheng Fang（武汉大学）通讯作者：Shenyi Zhang（武汉大学数学与人工智能研究所）作者列表：Zheng Fang（武汉大学）、Xiaosen Wang（华中科技大学）、Shenyi Zhang（武汉大学数学与人工智能研究所）、Shaokang Wang（上海交通大学）、Zhijin Ge（西安电子科技大学） 💡 毒舌点评本文以一个直观的梯度能量集中现象为切入点，提出稀疏token选择优化替代传统密集波形更新，想法简单，实验在三款主流ALM上也展示了不错的攻击成功率。但问题同样刺眼：整个方法深绑白盒威胁模型，离实际攻防场景太远；更致命的是无代码、无模型、无Demo，连复现的最小诚意都没有，让其宣称的“促进安全对齐研究”显得像个空口号。 📌 核心摘要本文研究音频语言模型(ALM)的越狱攻击，质疑密集波形更新的必要性。通过分析token对齐的梯度能量，发现梯度高度集中在少数音频token上（例如Qwen3-Omni上前16% token占90%梯度能量）。据此提出Token-Aware Gradient Optimization (TAGO)，在每步迭代中仅保留梯度能量最高的top-k token对应的波形区域进行稀疏更新，并辅以模型兼容的前缀模板和早停(EOS)抑制。在Qwen3-Omni、Qwen2.5-Omni和LLaMA-Omni上，TAGO在token保留率0.25时仍能维持86%的LLM-Judge ASR（Qwen3-Omni），远超随机后剪枝的Post-hoc prune基线，且攻击扰动SNR均在20dB以上，不易察觉。结果表明密集波形更新存在大量冗余，稀疏token级优化足以实现高效越狱。不足之处在于仅适用于白盒设定，且完全未提供开源代码或模型权重。 ...

SPEAR: A Unified SSL Framework for Learning Speech and Audio Representations

📄 SPEAR: A Unified SSL Framework for Learning Speech and Audio Representations #音频理解 #语音识别 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #音频理解 | #自监督学习 | #语音识别 | arxiv 👥 作者与机构第一作者/通讯作者：Xiaoyu Yang（Department of Engineering, University of Cambridge）作者列表：Xiaoyu Yang（University of Cambridge）、Yifan Yang（Shanghai Jiao Tong University）、Zengrui Jin（Tsinghua University）、Ziyun Cui（Tsinghua University, Shanghai Artificial Intelligence Laboratory）、Wen Wu（Shanghai Artificial Intelligence Laboratory）、Baoxiang Li（Shanghai Artificial Intelligence Laboratory）、Chao Zhang（Tsinghua University, Shanghai Artificial Intelligence Laboratory）、Phil Woodland（University of Cambridge） 💡 毒舌点评 SPEAR 用多码本矢量量化（MVQ）这把快刀，把语音和音频两个域的知识剁成离散 token，再让 Zipformer 用掩码预测全吞下去。思路直接有效，在 SUPERB 和 HEAR 上双线刷榜，token mixing 更是让分离任务表现惊艳。但整个框架的命门在于强依赖教师模型质量，训练 pipeline 重得像个工程怪兽，且音频数据仅 13k 小时，想在纯音乐或环境声上压制音频大模型还差火候。说是统一框架，但目前还是个理解专才，生成任务的门都没摸到。 ...

Speech-Audio Compositional Attacks on Multimodal LLMs and Their Defense with SALMONN-Guard

📄 Speech-Audio Compositional Attacks on Multimodal LLMs and Their Defense with SALMONN-Guard #音频理解 #SFT #基准测试 #内容审核 #数据集 8.3/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.3/10 | 前25% | #音频理解 | #SFT | #基准测试 #内容审核 | arxiv 👥 作者与机构第一作者：Yudong Yang（清华大学）通讯作者：Guangzhi Sun（剑桥大学）、Chao Zhang（清华大学）作者列表：Yudong Yang（清华大学）、Xuezhen Zhang（清华大学）、Zhifeng Han（清华大学）、Siyin Wang（清华大学）、Jimin Zhuang（清华大学）、Zengrui Jin（清华大学）、Jing Shao（上海人工智能实验室）、Guangzhi Sun（剑桥大学）、Chao Zhang（清华大学） 💡 毒舌点评本文亮点在于首次系统性地将语音-非语音音频的语义和语境组合引入多模态LLM安全红队评测，攻击方式真实且具有现实威胁性，提出的SALMONN-Guard联合模态守卫设计也展现了防御此类攻击的可行性。然而，攻击构造仍依赖人工预设的声学参数与对话脚本，缺乏自适应的攻击策略优化，使得benchmark的攻击上限不明确；防御仅使用SFT，未与对抗训练等更强基线对比，说服力不足；MSD评估将“理解错误”也计入攻击成功，该设定存在争议，可能高估了实际威胁。 ...

Spherical Procrustes Alignment for Reliable Medical Audio Diagnosis

📄 Spherical Procrustes Alignment for Reliable Medical Audio Diagnosis #音频分类 #音频事件检测 #低资源 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | #音频分类 | #知识蒸馏 | #音频事件检测 #低资源 | arxiv 👥 作者与机构第一作者：Ying Wang（Faculty of Applied Sciences, Macao Polytechnic University, Macao SAR, China）通讯作者：Xiaochen Yuan（Faculty of Applied Sciences, Macao Polytechnic University, Macao SAR, China）作者列表：Ying Wang（Faculty of Applied Sciences, Macao Polytechnic University）、Guoheng Huang（School of Computer Science and Technology, Guangdong University of Technology）、Chan-Tong Lam（Faculty of Applied Sciences, Macao Polytechnic University）、Xiaochen Yuan（Faculty of Applied Sciences, Macao Polytechnic University） 💡 毒舌点评这篇论文精准地抓住了医疗音频模型过度自信的几何病根——范数偏差，用球形约束和动态Procrustes对齐的组合拳切断了特征幅度与置信度的虚假耦合，理念清晰且动机扎实。实验校准效果惊人，将BEATs的ECE从28.51%拉低到4.44%，且做到了零额外推理成本，这一点很漂亮。然而，方法论层面更多是已知几何工具（L2归一化、ETF、SVD）在特定问题上的精巧组装，而非基础性突破。此外，验证局限于两个公开的呼吸音/心音数据集，在标签噪声、跨中心/跨设备泛化上的鲁棒性论证几乎为零，结论的临床闭环说服力仍需大量补充。 ...

Stable Spectral Copula Alignment for Robust Multimodal Learning

📄 Stable Spectral Copula Alignment for Robust Multimodal Learning #鲁棒性 #多模态模型 5.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.4/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.1/1.5 📝 5.2/10 | 后50% | #鲁棒性 | #多模态模型 | arxiv 👥 作者与机构第一作者：Hongkang Zhang（Tsinghua Shenzhen International Graduate School, Tsinghua University）通讯作者：Shao-Lun Huang（Tsinghua Shenzhen International Graduate School, Tsinghua University）作者列表：Hongkang Zhang, Shao-Lun Huang, Yanlong Wang, Ercan Engin KURUOGLU（均为Tsinghua Shenzhen International Graduate School） 💡 毒舌点评这篇论文试图构建一个“可审计”的多模态对齐协议，利用Copula理论与光谱扰动理论提供一种部署阶段抵御分布偏移的稳定契约精神。将错误的溯源与可执行的门控决策结合起来，想法在MLOps导向的多模态学习里算是有新意。然而，作品的写作风格沉重拖沓，导论部分沉迷于宏观宣誓而技术细节被稀释殆尽；更致命的是，全文完全没有提供任何形式的代码或数据链接，在这个号称“可审计”的协议里，自身的可复现性却是零。实验虽覆盖了不少漂移场景，但主要聚焦于情感分析和图像-文本检索，在音频处理的核心高地（如语音识别/分离）上毫无建树，这让它在多模态社区内难以跨越“小圈子自嗨”的界限。 ...

STAR-VAE: Structured Topology-Aware Regularization for Audio Reconstruction and Generation

📄 STAR-VAE: Structured Topology-Aware Regularization for Audio Reconstruction and Generation #音频生成 7.9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前25% | #音频生成 | #变分自编码器 | arxiv 👥 作者与机构第一作者：Huadai Liu（香港科技大学、阿里巴巴通义 Fun Team）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学、阿里巴巴通义 Fun Team）、Wen Wang（阿里巴巴通义 Fun Team）、Kaicheng Luo（阿里巴巴通义 Fun Team）、Qian Chen（阿里巴巴通义 Fun Team）、Xiangang Li（阿里巴巴通义 Fun Team）、Wei Xue（香港科技大学） 💡 毒舌点评这篇论文将音频 VAE 中一个被长期默认的实践——各通道均等 KL 惩罚——上升到"三元悖论"的理论高度，并用一个幂律增长的通道方向约束场（Gamma-Growth）优雅地重构了潜在空间拓扑。洞察清晰、动机扎实，实验也相当全面。然而，方法核心高度依赖对 γ=2.0 这一具体取值的经验消融，缺乏信息论或谱分析层面的严格理论支撑来解释"为何是幂律而非其他函数族"，更缺少对该参数的数据驱动自适应机制；且论文将 STAR 包装为"适用于任何 VAE 架构"的通用正则化器，但在纯 CNN 上的收益幅度远小于结合 Mamba 的跃升，通用性声明的力度可能需要更审慎的限定。此外，无开源代码和模型权重，在当前顶会生态中属于较大减分项。 ...