Icassp-2026

Personal Sound Zones with Flexible Bright Zone Control

📄 Personal Sound Zones with Flexible Bright Zone Control #空间音频 #卷积神经网络 #信号处理 #麦克风阵列 ✅ 7.5/10 | 前25% | #空间音频 | #卷积神经网络 | #信号处理 #麦克风阵列学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenye Zhu（浙江大学；西湖大学 & 西湖高等研究院）通讯作者：Xiaofei Li（西湖大学 & 西湖高等研究院）作者列表：Wenye Zhu（浙江大学，西湖大学 & 西湖高等研究院），Jun Tang（西湖大学 & 西湖高等研究院），Xiaofei Li（西湖大学 & 西湖高等研究院） 💡 毒舌点评亮点：实验设计非常用心，创新性地引入“监控点网格”和“随机网格掩码”训练策略，有效解决了过拟合和泛化性问题，使网络真正学习到空间连续信息，而非仅仅拟合离散控制点。短板：网络架构采用了非常成熟的3D ResNet，缺乏针对声学问题本身的结构性创新；此外，所有实验均基于模拟数据，未在真实房间和硬件系统中进行验证，结论的工程实用性仍需打上问号。 📌 核心摘要问题：传统个人声区（PSZ）系统依赖于固定的麦克风控制网格来测量声学传递函数（ATF），当目标声场或控制点位置变化时，需要重新测量和计算，这限制了其实际应用的灵活性和便捷性。方法核心：提出了一种基于3D卷积神经网络（CNN）的端到端模型，该模型以目标声区的ATF（在灵活或稀疏的麦克风网格上采样）为输入，直接输出用于扬声器阵列的预滤波器组。创新性：与传统压力匹配（PM）等方法相比，该方法在一次训练后，能够同时处理可变的目标声场、灵活的麦克风网格模式以及更稀疏的控制点，显著提升了系统的适应性和轻量化潜力。主要实验结果：在模拟混响环境中，所提方法在亮区相对均方根误差（REB）和声学对比度（AC）等关键指标上全面优于基线PM方法。例如，在3×3稀疏控制网格（Grid-3#1）下，Neural PSZ的REB为-21.79 dB，远优于PM的-9.67 dB；AC为14.12 dB，也高于PM的9.61 dB（见表1）。图表4和表2显示，其性能在网格变得稀疏时下降缓慢，而PM性能则急剧下降。实际意义：该工作推动了PSZ技术向更灵活、轻量化的实际应用迈进，使得利用少量麦克风快速部署和切换不同虚拟声学场景成为可能，适用于AR/VR、家庭娱乐等场景。主要局限性：研究完全基于仿真实验，未涉及真实硬件系统部署；网络架构为通用设计，未探索针对声学问题的特定优化；模型训练细节（如具体迭代次数）和计算开销分析不够详细。 🏗️ 模型架构 ...

PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models

📄 PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models #语音对话系统 #语音大模型 #语音克隆 #零样本 🔥 8.5/10 | 前25% | #语音对话系统 | #语音大模型 | #语音克隆 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Rajarshi Roy (NVIDIA) 通讯作者：未说明作者列表：Rajarshi Roy (NVIDIA), Jonathan Raiman (NVIDIA), Sang-gil Lee (NVIDIA), Teodor-Dumitru Ene (NVIDIA), Robert Kirby (NVIDIA), Sungwon Kim (NVIDIA), Jaehyeon Kim (NVIDIA), Bryan Catanzaro (NVIDIA) 💡 毒舌点评亮点：这是首个在全双工语音对话模型中实现实用级零样本语音克隆和细粒度角色控制的开源工作，其提出的Service-Duplex-Bench为评估此类系统提供了更贴近真实应用的标尺。短板：模型的全部能力均基于大规模合成数据训练，虽然实验验证了有效性，但其在复杂、真实世界交互中的泛化能力和“涌现”行为尚待检验；且合成对话是否覆盖了足够多样的真实交互模式，文中未做深入讨论。 ...

PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion

📄 PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion #语音合成 #语音克隆 #流匹配 #多语言 #零样本 ✅ 7.0/10 | 前50% | #语音合成 | #流匹配 | #语音克隆 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Vikentii Pankov（Rask AI, USA）通讯作者：未说明作者列表：Vikentii Pankov（Rask AI, USA）、Artem Gribul（Rask AI, USA）、Oktai Tatanov（Rask AI, USA）、Vladislav Proskurov（Rask AI, USA）、Yuliya Korotkova（École Polytechnique, France）、Darima Mylzenova（TBC Bank, Uzbekistan）、Dmitrii Vypirailenko（Rask AI, USA） 💡 毒舌点评亮点：将“稳定性”和“自然性”这对矛盾通过一个优雅的推理时融合策略（α(t)调度）进行调和，是解决Flow-Matching TTS痛点的务实且有效的工程创新。短板：实验中声称使用的部分开源基线（如ChatterBox）训练数据规模远大于本文，这种“田忌赛马”式的对比，虽凸显了方法效率，但也可能掩盖了数据量对上限的决定性影响，结论的泛化性需打个问号。 ...

PG-SE: Predictive Acceleration and Correction for Generative Speech Enhancement

📄 PG-SE: Predictive Acceleration and Correction for Generative Speech Enhancement #语音增强 #扩散模型 #生成模型 #预测模型 #语音增强的加速推理 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #生成模型 #预测模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yikai Huang（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院），Shiyin Kang（商汤科技）作者列表：Yikai Huang（清华大学深圳国际研究生院）、Jinjiang Liu（清华大学深圳国际研究生院）、Zijian Lin（清华大学深圳国际研究生院）、Xiang Li（清华大学深圳国际研究生院）、Renjie Yu（清华大学深圳国际研究生院）、Zhiyong Wu（清华大学深圳国际研究生院）、Shiyin Kang（商汤科技） 💡 毒舌点评亮点在于“前后夹击”的架构设计非常巧妙：用前级预测模型为扩散过程提供高质量起点以大幅压缩采样步数，再用后级预测校正器修复加速带来的瑕疵，形成一个闭环。短板是其实验仅在一个广泛使用的合成数据集（VB-DMD）上完成，缺乏在真实复杂声学环境或不同语言上的验证，其通用性和实际部署效果仍需进一步证明。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开模型权重。数据集：使用公开的VB-DMD数据集，但论文中未说明获取方式，需读者自行查找。 Demo：论文中未提供在线演示。复现材料：提供了部分训练细节（优化器、学习率、批大小、训练轮数）、SDE超参数和网络架构（NCSN++），但缺失硬件信息、音频预处理参数、校正器独立损失细节等关键信息。引用的开源项目：论文中未提及具体引用的开源代码库，其基础模型（如NCSN++）来自已发表的论文。总结：论文中未提及开源计划。 📌 核心摘要问题：基于扩散模型的语音增强方法虽然能生成细节丰富的语音，但面临两大挑战：一是噪声抑制能力通常弱于预测（判别式）模型；二是逆采样过程需要大量的神经函数评估（NFEs），导致计算成本高，难以满足低延迟部署需求。方法核心：提出PG-SE框架，在扩散推理的前后阶段分别引入预测模型。前级预测模型（先验估计器）生成粗略估计，并将其扩散到一个浅时间步作为逆过程的起点，从而大幅减少所需采样步数。后级预测模型（校正器）则以原始含噪语音和扩散生成结果为条件，对输出进行细化，以抑制残余噪声和生成伪影。创新点：相比于将预测目标与扩散目标紧密耦合（如CRP），本方法将预测组件解耦为独立的预处理和后处理模块，分别专注于加速和细化，提供了更灵活的优化空间。创新还包括基于KL散度分析来启发式地选择最优的浅层起始时间步。主要实验结果：在VB-DMD数据集上，PG-SE仅需5个NFEs（对比全步骤方法需30+ NFEs），在PESQ、ESTOI、SI-SDR等多项指标上超越了全步骤的SGMSE+、同等NFEs的FlowSE和CRP等SOTA基线。例如，PESQ分数达到3.40，高于FlowSE（3.09）和CRP（3.06）。消融实验显示，去掉校正器后性能仍有竞争力，证明了前级加速的有效性。实际意义：该框架为平衡生成式语音增强的性能和效率提供了一个有效范式，通过将推理NFEs减少80%以上，使其更适用于实时或低延迟的应用场景。主要局限性：实验仅在单一基准数据集上进行，未在真实世界噪声或复杂场景中验证其鲁棒性；论文未提供代码和模型，复现性依赖读者自行实现；此外，性能提升幅度在某些指标上相对有限（如SI-SDR提升0.2dB），且校正器引入了额外的推理计算（尽管NFEs总计仍很低）。 🏗️ 模型架构 PG-SE的整体架构是一个三阶段的流水线，如图1所示。以下是结合图示的详细描述： ...

Phase-Retrieval-Based Physics-Informed Neural Networks For Acoustic Magnitude Field Reconstruction

📄 Phase-Retrieval-Based Physics-Informed Neural Networks For Acoustic Magnitude Field Reconstruction #声场估计 #物理信息神经网络 #相位检索 #音频生成 ✅ 7.0/10 | 前50% | #声源定位 | #物理信息神经网络 | #声场估计 #相位检索学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Karl Schrader（日本国立情报学研究所，以及德国萨尔大学）通讯作者：论文中未明确说明。作者列表：Karl Schrader（日本国立情报学研究所，德国萨尔大学）、Shoichi Koyama（日本国立情报学研究所）、Tomohiko Nakamura（日本产业技术综合研究所）、Mirco Pezzoli（米兰理工大学） 💡 毒舌点评亮点：论文巧妙地将“相位检索”问题转化为一个双网络联合优化问题，并利用重建的复声压来施加亥姆霍兹方程约束，为仅有幅度测量的声场重建提供了新颖的物理信息正则化思路。短板：实验仅限于单一尺寸、低混响时间的仿真房间，且未与其他成熟的相位检索方法或更复杂的基线进行对比，说服力有限；更致命的是，完全缺乏开源信息，使得这篇看似扎实的改进工作大打折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及是否公开。文中说明数据使用pyroomacoustics库生成，但未提供具体生成脚本或参数配置。 Demo：未提及。复现材料：论文提供了较为详细的网络结构（4层256单元MLP，tanh）、训练优化器（AdamW）、初始学习率（1e-3）和衰减策略、损失权重（λdata=0.1, λPDE=0.001）、RFF维度（128）等关键超参数，但未提供训练脚本、环境配置文件、数据生成脚本或预训练模型。引用的开源项目：pyroomacoustics（用于声场仿真）。 📌 核心摘要这篇论文针对仅有空间稀疏的幅度测量值，无法获取相位信息这一场景下的声场幅度分布重建问题，提出了一种基于相位检索的物理信息神经网络方法。其核心思想是使用两个独立的神经网络（MLP）分别预测声场的幅度和相位，将二者组合成复声压，并通过最小化其偏离亥姆霍兹方程（PDE loss）来引入物理约束，同时训练网络使预测幅度匹配测量值。与纯数据驱动的神经场（NF）或最近邻插值相比，该方法在仿真声场重建任务中表现出更低的测试数据损失（Ldata）。实验表明，所提方法（PRB-PINN）在200 Hz、400 Hz、600 Hz三个频率上，随测量点数量（5， 10， 20， 50）增加均优于基线，尤其在低频（200 Hz）和测量点较多时重建效果接近真实值。其实际意义在于为无线麦克风网络、乐器指向性测量等相位数据不可靠的场景提供了更准确的声场估计工具。主要局限是实验基于简化的仿真环境（3m×4m×6m房间， T60=200ms），未在更复杂或真实场景中验证，且重建的相位与真实相位并不一致。 🏗️ 模型架构论文提出的是一种基于隐式神经表示（Neural Field）的双流网络架构（见图2）。整体流程如下： ...

Phase-Space Signal Processing of Acoustic Data for Advanced Manufacturing In-Situ Monitoring

📄 Phase-Space Signal Processing of Acoustic Data for Advanced Manufacturing In-Situ Monitoring #音频事件检测 #信号处理 #工业应用 ✅ 7.0/10 | 前50% | #音频事件检测 | #信号处理 | #工业应用学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明（论文署名列表中未明确排序，但按惯例首作者可能为Pouria Meshki Zadeh）通讯作者：Ehsan Dehghan-Niri (亚利桑那州立大学制造系统与网络学院) 作者列表：Pouria Meshki Zadeh（亚利桑那州立大学制造系统与网络学院）、Shams Torabnia（亚利桑那州立大学制造系统与网络学院）、Nathan Fonseca（亚利桑那州立大学制造系统与网络学院）、Keng Hsu（亚利桑那州立大学制造系统与网络学院）、Ehsan Dehghan-Niri*（亚利桑那州立大学制造系统与网络学院） 💡 毒舌点评亮点是将非线性动力学的“相空间”分析方法引入了工业声学监测这个传统领域，为理解复杂工艺动态提供了新视角；但短板也明显，论文止步于“定性观察”和“潜在价值”的宣示，缺乏将相空间特征转化为可量化、可部署的在线监测指标的完整闭环，更像是一篇方法论的概念验证。 🔗 开源详情论文中未提及任何开源计划，包括：代码：未提及代码仓库链接。模型权重：未提及。数据集：未提及公开数据集或获取方式。 Demo：未提及在线演示。复现材料：未给出详细训练细节、配置或检查点。论文中引用的开源项目：未提及。 📌 核心摘要解决的问题：超声辅助连接工艺（如共振辅助沉积，RAD）具有复杂的非线性动态行为，传统的时域和频域分析方法难以全面描述和监测其状态转换。方法核心：利用相空间重构（伪相空间）和庞加莱映射分析来自工具和基底传感器的声发射（AE）信号，以捕获非线性动力学特征。与已有方法相比新在哪里：传统方法（如频谱分析）只能确认非线性（如谐波存在），但无法区分周期、准周期或混沌行为，也无法清晰揭示过程阶段（如工具-基底接触）的转变。相空间方法提供了这些额外信息。主要实验结果：论文展示了定性结果：频谱分析（图3）：证实了信号中存在基频的谐波和超谐波，表明系统是非线性的。相空间图（PPS）与庞加莱图（图4，图5）：直观显示了不同阶段（非接触期 vs. 接触期）和不同传感器（工具 vs. 基底）信号的几何特征差异。例如，基底信号在非接触期呈近圆形（主频主导），在接触期演变为更复杂的几何形状（多频率混合），暗示了动态行为的变化。庞加莱图将连续轨迹离散化，实现了数据降维。论文未提供任何定量性能指标（如分类准确率、误报率）或与其他监测方法的数值对比。实际意义：为先进制造（特别是增材制造）的原位监测提供了一个新的信号处理框架，相空间和庞加莱图的数据降维特性有利于处理高采样率的流式声学数据，为未来基于AI的质量控制策略奠定了潜在基础。主要局限性：研究停留在定性分析和概念验证阶段。未展示如何将相空间特征转化为可靠的、可自动执行的监测决策；缺乏在不同工艺参数、不同材料下的泛化性验证；未进行定量的性能评估和对比实验；结论中“可能表明混沌行为”的判断需要更严格的数学证明（如李雅普诺夫指数计算）。 🏗️ 模型架构本文并非提出一个神经网络模型，而是描述了一套用于声学信号分析的信号处理流程。其整体架构如下： ...

PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition

📄 PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition #语音识别 #构音障碍语音 #音素混淆矩阵 #大语言模型 #少样本学习 ✅ 7.0/10 | 前50% | #语音识别 | #音素混淆矩阵 | #构音障碍语音 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未明确说明（论文作者列表首位为 Yuxuan Wu）通讯作者：赵杰罗 (Zhaojie Luo)（东南大学生物科学与医学工程学院 / 数字医学工程国家重点实验室；深圳环宇研究院）作者列表： Yuxuan Wu（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Yifan Xu（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Junkun Wang（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Xin Zhao（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Jiayong Jiang（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Zhaojie Luo（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院；深圳环宇研究院） 💡 毒舌点评亮点在于提出了一个清晰、模块化且可解释的“音素中介”框架，将病理语音识别的难题分解为“健康音素识别器+混淆建模+LLM解码”三步，巧妙利用健康数据资源，并通过少量个性化数据即可快速适配，思路非常扎实。短板在于实验仅在单个中文数据集CDSD上进行，缺乏对其他语言、其他疾病类型（如帕金森、中风）或更复杂噪声环境下的验证，其普适性有待商榷；此外，论文声称超越Whisper-FT，但对比的Whisper-FT性能（34.4% CER）似乎异常差，暗示其微调策略或数据处理可能存在未言明的问题，削弱了对比的说服力。 ...

Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

📄 Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction #视觉语音识别 #音素建模 #关键点检测 #大语言模型 #数据增强 ✅ 7.5/10 | 前25% | #视觉语音识别 | #音素建模 #关键点检测 #大语言模型 | #音素建模 #关键点检测学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Matthew Kit Khinn Teng（九州工业大学）通讯作者：未说明作者列表：Matthew Kit Khinn Teng（九州工业大学）、Haibo Zhang（九州工业大学）、Takeshi Saitoh（九州工业大学） 💡 毒舌点评这篇论文巧妙地将人脸关键点的几何信息与视觉外观特征相融合，为解决唇读中的视素歧义问题提供了一条清晰的音素建模路径，其使用紧凑的NLLB模型替代巨型LLM进行句子重建的思路也颇具工程吸引力。然而，论文的“故事”讲得不够完整——关键点特征在复杂场景下的脆弱性（如侧脸、遮挡）被明确提出，却缺乏系统性的解决或更鲁棒的融合机制；同时，核心的两阶段框架高度依赖于上游音素预测的准确性，而实验中对第一阶段（PV-ASR）音素预测性能的分析篇幅和深度，相较于对第二阶段LLM的调优，显得有些头重脚轻。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练或微调后的模型权重。数据集：实验使用的是公开数据集LRS2、LRS3、LRW，但论文未说明其获取方式或是否提供处理后的版本。 Demo：未提供在线演示。复现材料：论文描述了主要架构和训练策略，但未提供完整的配置文件、检查点或附录中的详细实现说明。论文中引用的开源项目：MediaPipe（用于关键点提取）、NVIDIA NeMo toolkit（用于文本规范化）、SoundChoice toolkit（用于音素转换）。这些是工具依赖，而非论文本身的开源贡献。论文中未提及开源计划。 📌 核心摘要解决的问题：视觉语音识别（唇读）面临视素歧义（多个音素对应相似唇部视觉外观）和说话者差异性带来的挑战，导致直接进行词或字符级预测困难且容易出错。方法核心：提出一种两阶段、基于音素的框架（PV-ASR）。第一阶段，将视频帧和密集唇部关键点运动特征分别通过视觉编码器（3D CNN + ResNet-18 + Conformer）和关键点编码器（ST-GCN + Conformer）提取并融合，使用混合CTC/Attention损失预测音素序列。第二阶段，使用预训练的NLLB（No Language Left Behind）编码器-解码器模型，将预测的音素序列重构为自然语言句子。与已有方法相比的新意：1) 创新地融合了密集的唇部/下巴区域关键点运动特征（117个点）与视觉外观特征，以建模发音几何信息；2) 使用紧凑的、非自回归的NLLB模型（而非大型自回归LLM如LLaMA）进行音素到文本的重建；3) 在训练第二阶段LLM时引入音素级数据增强（随机插入、删除、替换），以提高对第一阶段预测噪声的鲁棒性。主要实验结果：在LRS2测试集上达到16.0% WER，在LRS3测试集上达到20.3% WER。消融实验表明，PV-ASR（视频+关键点）优于单独的V-ASR和P-ASR；在训练中引入10%-20%的音素错误率能显著降低第二阶段LLM重建的WER，其中NLLB-1.3B模型表现最佳。具体结果见下表。表1：在LRS2和LRS3数据集上与最新方法的WER(%)对比 ...

Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means

📄 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means #语音表示学习 #离散token #多任务学习 #自监督学习 #语音合成 🔥 8.0/10 | 前25% | #语音表示学习 | #离散token | #多任务学习 #自监督学习学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kentaro Onda（东京大学，索尼集团）通讯作者：未说明作者列表：Kentaro Onda（东京大学，索尼集团）、Hayato Futami（索尼集团）、Yosuke Kashiwagi（索尼集团）、Emiru Tsunoo（索尼集团）、Shinji Watanabe（卡内基梅隆大学） 💡 毒舌点评这篇论文的亮点在于其巧妙地利用多目标优化和可微分k-means，在理论上“纯净”的语音学token和“丰富”的声学token之间找到了一个实用且性能优异的平衡点，尤其在情感识别和语音转换等韵律敏感任务上取得了显著提升。然而，其短板在于对“不同iable k-means”这一核心工具的离散化本质在端到端训练中可能带来的优化挑战（如梯度估计方差）探讨不足，且虽然声码器使用了预训练说话人编码器进行条件化以“剥离”说话人信息，但这种剥离是否彻底以及对下游任务的潜在影响分析不够深入。 🔗 开源详情代码：论文中未提及代码仓库链接。方法基于ESPnet工具包实现。模型权重：未提及是否公开微调后的模型权重。数据集：使用了VCTK， LibriSpeech， RAVDESS， VoxCeleb， LJSpeech， TIMIT， Expresso， LibriLight等公开数据集，获取方式见各自官网。 Demo：提供了在线演示网站：https://ondatk68.github.io/onda-demo/projects/phonological-tokenizer。复现材料：给出了部分训练细节（如两阶段训练、学习率、epoch数、α值），但未提供完整的配置文件、检查点或详细的超参数列表。论文中引用的开源项目：ESPnet， HiFi-GAN（ParallelWaveGAN）， ECAPA-TDNN（SpeechBrain）， WavLM， Qwen2.5， Llama-3.2等。 📌 核心摘要要解决的问题：现有的离散语音token（声学token和语音学token）要么保留过多冗余声学信息（如说话人身份），要么过度抽象丢失关键的韵律信息，都不适合作为语音语言模型（speechLMs）的理想输入。方法核心：提出“音韵Tokenizer”，通过多目标微调预训练的语音学token。核心是使用可微分k-means，联合优化ASR损失（鼓励语言信息）和语音重建损失（鼓励声学细节），并在重建时通过外部说话人编码器提供说话人嵌入以辅助信息解耦。与已有方法相比新在哪里：相较于多码本的混合token（如SpeechTokenizer），本方法实现单码本高效率；相较于仅用ASR优化的语音学token，本方法引入了重建目标以保留韵律；相较于声学token，本方法能有效去除说话人信息。其创新在于利用可微分k-means的灵活性，在单一框架内实现了token属性的精细平衡。主要实验结果：在判别任务上，其情感识别（ER）准确率（51.7%）远超所有基线；语音识别（WER 4.6/8.5）接近最强语音学基线；说话人识别（SID）准确率（29.5%）与语音学基线相当，表明成功保留了韵律、语言信息并抑制了说话人信息。在生成任务上，在域外（TIMIT）语音转换中，其源语音F0相关性（0.456）和自然度（UTMOS 3.88）均优于基线，且保持了较低的目标说话人相似度（SpkSim 0.762），体现了内容/韵律保持与说话人解耦的平衡。在speechLM任务中，其生成语音的自然度（UTMOS 3.86）和生成困惑度（GenPPL 5.60）均为最佳。模型 ASR WER (↓) ER Acc. (↑) SID Acc. (↑) TIMIT VC F0 corr. (↑) TIMIT VC UTMOS (↑) SpeechLM GenPPL (↓) SpeechLM UTMOS (↑) Discrete WavLM (phonetic) 4.3/ 7.1 41.7 27.7 0.371 3.63 5.81 3.60 SpeechTokenizer (hybrid) 9.3/23.5 39.2 29.1 0.383 3.53 5.73 3.64 WavTokenizer (acoustic) 96.7/96.8 24.2 82.7 0.356 2.02 6.34 2.57 Proposed (α=0.1) 4.6/ 8.5 51.7 29.5 0.456 3.88 5.60 3.86 实际意义：为构建更接近人类语音处理机制（兼顾内容与韵律、抽象不必要细节）的speechLM提供了高效的离散表示基础，且单码本设计简化了下游模型架构。主要局限性：论文未与最新的、强大的声学token（如基于RVQ的codec）在重建保真度上进行全面对比（仅与WavTokenizer对比），其“保留韵律”和“去除说话人”的边界和泛化能力在更多样化数据上仍需验证；训练过程涉及多个复杂模块（SSL， ASR， Vocoder）的联合优化，工程实现和调参可能具有一定挑战。 🏗️ 模型架构 Phonological Tokenizer的整体架构如图1所示，其核心目标是微调预训练的语音学token。 ...

Phrased: Phrase Dictionary Biasing for Speech Translation

📄 Phrased: Phrase Dictionary Biasing for Speech Translation #语音翻译 #偏差学习 #多语言 #流式处理 #多模态模型 ✅ 7.5/10 | 前25% | #语音翻译 | #偏差学习 | #多语言 #流式处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Peidong Wang（Microsoft CoreAI）通讯作者：Jinyu Li（Microsoft CoreAI）作者列表：Peidong Wang（Microsoft CoreAI）、Jian Xue（Microsoft CoreAI）、Rui Zhao（Microsoft CoreAI）、Junkun Chen（Microsoft CoreAI）、Aswin Shanmugam Subramanian（Microsoft CoreAI）、Jinyu Li（Microsoft CoreAI） 💡 毒舌点评亮点：本文提出的PHRASED方法具有良好的通用性，能将同一个思路（利用双语短语对）同时应用于传统的流式端到端模型（CTC-GMM）和新兴的多模态大模型，并在后者上实现了显著的短语召回率提升。短板：实验仅在中-英翻译任务上验证，且所用的“短语列表”规模（3K）与真实工业场景（可能包含数十万条目）的匹配度和鲁棒性存疑；此外，论文未提供任何代码或模型，极大地限制了其可复现性和直接应用价值。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：评估使用了RealSI和OntoNote5，但未说明是否提供了预处理后的版本或获取方式。 Demo：未提及。复现材料：论文给出了一些训练超参数（如学习率、步数）和模型规模，但未提供完整的训练配置、数据预处理脚本或评估代码。不足以支撑完全复现。论文中引用的开源项目：未提及依赖的特定开源工具/模型，Phi-4-multimodal为外部开源模型。总体，论文中未提及开源计划。 📌 核心摘要要解决的问题：实体短语（如专有名词、新词）因在训练数据中罕见，在端到端语音翻译（ST）中容易被错误翻译，影响核心语义理解。方法核心：提出短语字典偏差（PHRASED），利用用户提供的源语言-目标语言实体短语对 {I: O} 来增强翻译。核心是先从中间表示（如ASR文本）中匹配源语言短语 I，再对匹配到的目标语言短语 O 进行概率加分。新在何处：首次为端到端语音翻译设计并验证了“短语字典偏差”机制，与传统的仅使用目标短语列表（PLB）的偏差方法不同，它显式利用了源语言信息。同时，将该方法成功适配到流式Transducer模型和多模态大模型两种架构。主要实验结果：在中文到英文的RealSI测试集上，PHRASED使流式CTC-GMM模型的短语召回率相对PLB提升了21%；使Phi-4多模态大模型的BLEU提升2.9点，短语召回率相对基线提升85%，远超PLB在大模型上失败的表现。关键数据见下表。表1：流式语音翻译模型结果（RealSI 中-英） ...