端到端 | 语音/音频论文速递

Improving Contextual Asr Via Multi-Grained Fusion With Large Language Models

📄 Improving Contextual Asr Via Multi-Grained Fusion With Large Language Models #语音识别 #多粒度融合 #大语言模型 #端到端 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #多粒度融合 | #大语言模型 #端到端学术质量 8.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shilin Zhou（苏州大学计算机科学与技术学院）通讯作者：Zhenghua Li*（苏州大学计算机科学与技术学院）作者列表：Shilin Zhou（苏州大学计算机科学与技术学院）、Zhenghua Li*（苏州大学计算机科学与技术学院）。论文中未提及其他作者。 💡 毒舌点评该论文系统性地将上下文ASR中“逐token生成”和“整短语复制”这两种主流但互斥的策略融合进一个统一框架，并利用LLM提供强大的语义先验，在关键词识别上取得了显著提升（最高9.8%的召回率提升），证明了多粒度协同的有效性。然而，其效率提升（RTF）的评估相对初步，且在英文数据集上的绝对优势并不突出，框架的实时性与LLM引入的额外计算开销之间的平衡在工业级大规模部署中仍是潜在挑战。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/zsLin177/MGF-ASR。模型权重：论文提及“We will release the code and models”，但未提供具体的预训练模型下载链接或存储位置，状态为计划公开。数据集：实验所用的Aishell、Slidespeech等为公开数据集。RWCS-NER由作者团队发布，论文中引用了相关论文。 Demo：未提及。复现材料：论文提供了详细的架构图、算法公式和主要实验设置描述，但关键训练细节（如学习率、优化器、具体训练步数）未在正文中给出。依赖的开源项目包括Whisper、Qwen2、Phi-3.5等大模型。引用的开源项目：论文明确使用了Whisper作为ASR骨干，Qwen2和Phi-3.5作为LLM组件。 📌 核心摘要解决的问题：现有上下文语音识别方法通常在token级（细粒度控制，但易破坏关键词完整性）和phrase级（保持短语完整，但易损害非关键词识别）之间二选一，未能有效结合两者的互补优势。方法核心：提出一个多粒度融合框架。该框架以CopyNE为基础，引入大型语言模型（LLM），并行运行两个分支：(1) Token级分支：基于ASR模型与LLM输出token概率的动态不确定性融合。(2) Phrase级分支：联合使用LLM的语义隐藏状态与ASR的声学状态，通过注意力机制选择关键词短语。最后，通过联合融合机制将两个分支的输出统一到一个概率空间进行解码。创新点：首次在统一框架内系统地融合token级和phrase级方法；创新性地将LLM作为语义先验源，用于指导两个粒度的融合过程（token级提供概率，phrase级提供状态）；提出了基于ASR不确定性的自适应融合策略。 ...

Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation

📄 Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation #语音识别 #语音翻译 #自回归模型 #多任务学习 #端到端 ✅ 7.0/10 | 前25% | #语音识别 #语音翻译 | #自回归模型 #多任务学习 | #语音识别 #语音翻译学术质量 0.7/7 | 选题价值 0.75/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Tomohiro Tanaka（NTT, Inc., Human Informatics Laboratories）通讯作者：未说明作者列表：Tomohiro Tanaka（NTT, Inc., Human Informatics Laboratories）、Ryo Masumura（NTT, Inc., Human Informatics Laboratories）、Naoki Makishima（NTT, Inc., Human Informatics Laboratories）、Mana Ihori（NTT, Inc., Human Informatics Laboratories）、Naotaka Kawata（NTT, Inc., Human Informatics Laboratories）、Shota Orihashi（NTT, Inc., Human Informatics Laboratories）、Satoshi Suzuki（NTT, Inc., Human Informatics Laboratories）、Taiga Yamane（NTT, Inc., Human Informatics Laboratories） 💡 毒舌点评这篇论文的核心贡献是清晰且务实的：将多说话人重叠语音的识别（ASR）和翻译（ST）从两个独立的模型合并为一个联合自回归模型，从而解决了输出时说话人数量不匹配和未对齐的痛点。其序列化输出训练（SOT）的扩展应用自然流畅，实验数据也支撑了方法的有效性。然而，论文最大的短板在于实验部分严重依赖通过混合单人语音合成的“多说话人”数据，这与真实世界中包含回声、不同混响、说话人重叠程度变化的会议或对话场景存在显著差距，削弱了其结论在实际应用中的说服力。 ...

Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation

📄 Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation #语音增强 #端到端 #实时处理 #深度学习 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #实时处理 #深度学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Fareedha (National Institute of Technology, Warangal, Telangana, India) 通讯作者：未说明作者列表：Fareedha (National Institute of Technology, Warangal, Telangana, India)、Vasundhara (National Institute of Technology, Warangal, Telangana, India)、Asutosh Kar (Birmingham City University, Birmingham, UK)、Mads Græsbøll Christensen (Aalborg University, Denmark) 💡 毒舌点评论文将深度学习中的估计与控制模块“缝合”得相当流畅，消融实验做得很扎实，有力地证明了注意力机制和双向LSTM在其中的价值。然而，核心创新更多是工程层面的集成优化，而非方法论的革新；且实验场景（主要是飞机噪声）稍显单一，要宣称在“动态环境”下鲁棒，或许还应挑战更多极端的非平稳声学条件。 ...

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network

📄 Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network #音乐理解 #多任务学习 #时频分析 #端到端 ✅ 7.5/10 | 前25% | #音乐理解 | #多任务学习 | #时频分析 #端到端学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhanhong He（The University of Western Australia, Perth, Australia）通讯作者：未说明（根据署名顺序，可能是Defeng (David) Huang或Roberto Togneri，但论文未明确指出）作者列表：Zhanhong He（The University of Western Australia）、Hanyu Meng（The University of New South Wales）、Defeng (David) Huang（The University of Western Australia）、Roberto Togneri（The University of Western Australia） 💡 毒舌点评亮点：将Bark尺度特征与多任务学习框架巧妙结合，把模型参数量从千万级压缩到50万，在保持竞争力的同时大幅提升了实用性，这种“螺蛳壳里做道场”的工程优化思维值得肯定。短板：研究完全局限于肖邦玛祖卡这一特定音乐风格和单一数据集（MazurkaBL），其结论能否泛化到其他乐器、风格乃至更复杂的管弦乐场景，存疑。 ...

K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function

📄 K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function #语音识别 #大语言模型 #领域适应 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #领域适应 #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Shuhe Li（浙江大学）通讯作者：Jiachen Lian（UC Berkeley）作者列表：Shuhe Li（浙江大学），Chenxu Guo（浙江大学），Jiachen Lian（UC Berkeley），Cheol Jun Cho（UC Berkeley），Wenshuo Zhao（浙江大学），Xiner Xu（浙江大学），Ruiyu Jin（浙江大学），Xiaoyu Shi（Duke University），Xuanru Zhou（浙江大学），Dingkun Zhou（华南理工大学），Sam Wang（UC Berkeley），Grace Wang（UC Berkeley），Jingze Yang（浙江大学），Jingyi Xu（浙江大学），Ruohan Bao（浙江大学），Xingrui Chen（TVT），Elise Brenner（UCSF），Brandon In（UCSF），Francesca Pei（UCSF），Maria Luisa Gorno-Tempini（UCSF），Gopala Anumanchipalli（UC Berkeley） 💡 毒舌点评这篇论文为解决儿童语音识别这一“脏活累活”提供了扎实的技术方案，其K-WFST解码器巧妙融合了语音学先验，解释性强且有效，是传统WFST在特定场景下的成功应用。但其宣称的“联合框架”在实现上略显松散，LLM评分部分更像是一个独立的、调用上游转写结果的下游应用，与核心识别模块的“联合”深度不足，更像是一个串行流水线而非一个紧密耦合的整体系统。 ...

Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR

📄 Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR #语音识别 #检索增强 #端到端 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音识别 | #检索增强 | #端到端 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Zhichao Liang（香港中文大学（深圳）数据科学学院）通讯作者：Satoshi Nakamura*（香港中文大学（深圳）数据科学学院与人工智能学院）作者列表：Zhichao Liang（香港中文大学（深圳）数据科学学院）、Satoshi Nakamura（香港中文大学（深圳）数据科学学院与人工智能学院） 💡 毒舌点评该工作巧妙地将语言后验信息“注入”kNN检索的查询空间，使检索过程本身具有语言意识，这是一个非常直观且有效的改进点。然而，实验仅局限于中英代码切换场景，且与更强或更新的基线（如基于大模型的零样本方法）对比不足，削弱了结论的普适性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用的是公开的ASCEND数据集，但未提供获取方式链接（论文中引用了原始数据集论文）。 Demo：未提供在线演示。复现材料：提供了部分实现细节（如使用WeNet和FAISS，关键超参数值），但不足以保证完整复现。论文中引用的开源项目：WeNet [22]， FAISS [24]， Conformer [23]（作为基线模型）， Whisper [16]（在引言中提及）。 📌 核心摘要解决的问题：针对代码切换自动语音识别中语言边界模糊和跨语言声学干扰的挑战，特别是现有门控检索增强CTC模型（如双单语数据存储）存在的边界决策不稳定和语言意识不足的问题。方法核心：提出LIRA-CTC框架，通过将帧级语言后验概率与编码器特征拼接，形成“语言信息注入”的检索查询，使检索空间与语言身份对齐；并设计自适应软硬门控策略，在数据存储距离差大时硬选择，在距离差小时软插值。与已有方法的创新：不同于先前仅使用编码器特征进行检索或在解码器端使用语言信息的方法，该工作将语言后验直接融入检索的“键/查询”构造中，并引入了平滑过渡的软硬混合门控机制。主要实验结果：在ASCEND中文-英文数据集上的实验表明，LIRA-CTC相较于基线Conformer、kNN-CTC和门控kNN-CTC，在官方测试集（TEST）和混合训练集（SMIX）上均取得了更低的混合错误率（MER）。关键数据见下表：方法 TEST MER (%) SMIX MER (%) RTF CTC 26.10 28.77 0.0139 kNN-CTC 25.49 27.24 0.0145 Gated kNN-CTC 24.97 26.33 0.0152 LIRA-CTC 23.60 24.98 0.0155 实际意义：为零样本代码切换ASR提供了一种有效且计算开销增加有限的新框架，通过增强检索过程的语言感知能力和决策稳定性，提升了模型对混合语言语音的识别鲁棒性。主要局限性：实验仅验证于中英代码切换场景，其有效性是否能扩展至其他语言对或更复杂的多语言场景有待证明；与当前前沿的零样本ASR方法（如基于大型预训练模型的方法）对比不足。 🏗️ 模型架构整体架构基于预训练的CTC ASR模型（Conformer编码器+Transformer解码器），核心扩展在于检索增强解码部分。 ...

Lattice-Guided Consistency Regularization of Dual-Mode Transducers for Automatic Speech Recognition

📄 Lattice-Guided Consistency Regularization of Dual-Mode Transducers for Automatic Speech Recognition #语音识别 #自回归模型 #一致性正则化 #端到端 #语码转换 🔥 8.0/10 | 前25% | #语音识别 | #一致性正则化 | #自回归模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wen Ding（NVIDIA Corporation）通讯作者：未说明（论文中未明确指定）作者列表：Wen Ding（NVIDIA Corporation）、Hainan Xu（NVIDIA Corporation）、Jagadeesh Balam（NVIDIA Corporation）、Junjie Lai（NVIDIA Corporation） 💡 毒舌点评亮点：方法设计巧妙，将一致性正则化与语音格（lattice）的后验概率权重相结合，使得训练能聚焦于关键的对齐位置，避免了对无关位置的无效正则化，这比朴素的随机掩码（如HAINAN）更精巧。短板：尽管在语码切换（SEAME）数据集上验证了方法的有效性，但实验主要基于中文和英中切换场景，对于其他语言或更复杂的语音条件（如嘈杂、多说话人）下的泛化能力，论文未提供证据。 🔗 开源详情代码：论文中提到“将把我们的实现在NeMo中开源发布”，但论文中未提供具体代码仓库链接。模型权重：未提及是否公开预训练模型权重。数据集：使用公开数据集AISHELL-1和SEAME，但未提及是否提供经过处理的数据集或相关脚本。 Demo：未提及。复现材料：论文提供了较为详细的模型架构、训练数据、损失函数、优化器、学习率策略、关键超参数（模型大小、词表、TDT参数等）以及推理设置（贪心解码、SAR），复现信息较为充分。论文中引用的开源项目：引用了NeMo作为工具包和即将开源的平台。 📌 核心摘要这篇论文旨在解决双模式（自回归AR与非自回归NAR）语音识别模型中，NAR推理模式通常性能落后于AR模式的问题。方法核心是在Token-and-Duration Transducer (TDT)模型的基础上，提出一种名为Lattice-guided Consistency Regularization (LCR)的训练框架。该框架的损失函数由三部分组成：标准的AR TDT损失、NAR TDT损失（预测器输入被掩码），以及一个一致性正则化损失。新意在于，该一致性损失（L2距离或KL散度）用于最小化AR与NAR预测分布之间的差异，但其权重由格（lattice）后验概率加权，从而聚焦于模型认为最可能发生的语音-文本对齐路径。实验结果显示，在AISHELL-1单语普通话任务上，LCR-T模型在AR模式下相比HAINAN基线获得了6.42%的相对CER降低；在SEAME英中语码切换任务上，获得了7.76%和7.09%的相对MER降低。其实际意义在于提供了一个统一、高效的训练框架，使得单个模型在两种推理模式下都能达到顶尖性能，尤其NAR模式也能超越许多传统AR模型。主要局限性是实验场景相对集中（普通话及英中切换），缺乏对更多语言和复杂声学条件的验证。 ...

Learning to Align with Unbalanced Optimal Transport in Linguistic Knowledge Transfer for ASR

📄 Learning to Align with Unbalanced Optimal Transport in Linguistic Knowledge Transfer for ASR #语音识别 #迁移学习 #知识蒸馏 #端到端 ✅ 6.5/10 | 前50% | #语音识别 | #迁移学习 | #知识蒸馏 #端到端学术质量 3.4/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xugang Lu（日本信息通信研究机构， National Institute of Information and Communications Technology, Japan）通讯作者：未明确说明（论文中未明确指定通讯作者）作者列表：Xugang Lu（日本信息通信研究机构）、Peng Shen（日本信息通信研究机构）、Hisashi Kawai（日本信息通信研究机构） 💡 毒舌点评论文的核心亮点在于将数学理论上的“非平衡最优传输”巧妙地应用于解决ASR知识迁移中声学与语言表征“长对短、多对一、有噪音”的尴尬对齐困境，理论动机清晰。然而，短板也很明显：实验仅在两个中文朗读语料上用CTC系统验证，如同只在一个特定鱼塘测试新渔网；更关键的是，完全不公开代码和模型，让后续研究者“巧妇难为无米之炊”，极大削弱了工作的实际影响力。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：AISHELL-1和MagicData均为公开数据集，但论文未说明具体获取或预处理脚本。 Demo：未提供在线演示。复现材料：给出了主要模型架构尺寸、损失函数权重η、熵正则化系数ε、优化器和学习率等关键信息，但缺乏完整的配置文件、检查点和训练日志。对于UOT求解器的实现细节（如迭代停止条件）描述不足。论文中引用的开源项目：引用了bert-base-chinese（HuggingFace）、Conformer实现（可能基于ESPnet等框架），但未明确说明其代码基于哪个开源项目。总结：论文中未提及开源计划。 📌 核心摘要问题：在基于预训练语言模型（PLM）的跨模态知识迁移中，将语言知识从文本域转移到声学域，核心挑战在于声学序列（帧数多、含噪音）与语言序列（token数少）之间存在固有的、不对齐且不平衡的对应关系。方法核心：提出一种基于非平衡最优传输（UOT）的对齐框架。UOT通过引入边际惩罚项（λ₁, λ₂），放松了传统OT的质量守恒约束，允许声学或语言侧的部分“质量”（信息）不被匹配，从而实现软性、部分的对齐。创新之处：与标准OT（平衡约束）或传统的交叉注意力（仅局部相似性）相比，UOT能显式地建模模态间的分布失配和结构不对称。通过调整λ₁和λ₂，可以灵活控制对齐策略（如优先保证每个语言token都有对应声学帧），从而更鲁棒地处理噪声帧和冗余信息。主要实验结果：在AISHELL-1（普通话）测试集上，最优UOT配置（λ₁=0.5, λ₂=1.0）的CER为4.06%，相比作为基线的标准OT方法（OT-BERT-CTC）的4.19%有约3%的相对改进。在MagicData数据集上，改进更明显，测试集CER从2.17%降至2.02%（约7%相对改进）。实际意义：提供了一种更符合声学-语言对齐先验知识的数学框架，可提升知识迁移的效率和最终ASR性能，且迁移后模型保持CTC解码的高效性。主要局限性：实验范围有限，仅在中文普通话的两个朗读语料库和CTC-based ASR系统上进行验证，未展示在其他语言、自发性语音或主流Transformer-Transducer等系统上的效果；未提供代码，复现困难；对UOT中λ₁, λ₂选择的讨论偏向经验性，缺乏自动选择机制。 🏗️ 模型架构论文提出一个基于UOT的跨模态知识迁移框架，用于增强CTC-based ASR。其整体架构如下图所示（对应原文图1）： ...

Lightweight Implicit Neural Network for Binaural Audio Synthesis

📄 Lightweight Implicit Neural Network for Binaural Audio Synthesis #空间音频 #隐式神经网络 #轻量模型 #端到端 #信号处理 ✅ 7.0/10 | 前25% | #空间音频 | #隐式神经网络 | #轻量模型 #端到端学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xikun Lu（华东师范大学上海市人工智能教育重点实验室，华东师范大学计算机科学与技术学院）通讯作者：Jinqiu Sang（华东师范大学计算机科学与技术学院，邮箱：jqsang@mail.ecnu.edu.cn）作者列表：Xikun Lu（华东师范大学上海市人工智能教育重点实验室，华东师范大学计算机科学与技术学院）、Fang Liu（未说明）、Weizhi Shi（贵州工业职业技术学院大数据与信息工程系）、Jinqiu Sang（华东师范大学计算机科学与技术学院） 💡 毒舌点评亮点：巧妙地将隐式神经表征（INR）从连续场重建迁移到了动态的频谱校正任务上，用一个紧凑的MLP（0.15M参数）就建模了复杂的时变声学传递函数，这种“小而美”的设计思路值得肯定。短板：消融实验止步于“有/无”模块和编码器的比较，未能进一步剖析隐式网络本身的关键超参数（如层数、宽度、频率编码维数）对性能的敏感性，使得最优架构的选择缺乏更深入的理论或经验支撑。 🔗 开源详情代码：提供代码仓库链接：https://github.com/Luxikun669/Lite-INN 模型权重：论文中未提及是否公开预训练模型权重。数据集：使用公开的Binaural Speech数据集，但未说明如何获取或提供下载链接（需参考原始数据集论文）。 Demo：论文中未提及在线演示。复现材料：提供了关键的实现细节，包括：STFT参数（窗长512，帧移256），TDW模块的改编说明，IBC的MLP结构（3层，256单元），频率/时间编码带数（8/12），优化器（AdamW），学习率调度（余弦退火，1e-3至1e-6），损失权重（λ1=1.0, λ2=0.01），训练轮数（100），批次大小（32）。论文中引用的开源项目：改编自WarpNet [10]的时间域翘曲模块。总结：论文提供了代码和核心复现配置，但缺少预训练权重、详细训练日志和更完整的环境说明。 📌 核心摘要问题：高保真双耳音频合成（从单声道生成具有空间感的立体声）是VR/AR等沉浸式体验的关键，但现有基于深度学习的方法模型庞大，难以在计算资源有限的边缘设备上实时运行。方法核心：提出一个名为Lite-INN的两阶段轻量级框架。第一阶段使用时间域翘曲（TDW）模块生成初步的双耳信号以近似双耳时间差（ITD）；第二阶段将初步信号转换到时频域，并通过一个新颖的隐式双耳校正器（IBC）模块，将每个时频点的增益和相位校正建模为空间位置、耳朵索引、频率和时间坐标的连续函数，从而进行精细的频谱修正。新意：将频谱校正任务重新定义为隐式神经表示问题，使用一个小型多层感知机（MLP）直接预测每个时频bin的复数增益。这与之前基于卷积或注意力机制的方法不同，能以极低的参数量（0.15M）建模复杂的动态声学特性。主要实验结果：在Binaural Speech数据集上，Lite-INN相比最轻量的基线NFS，在参数量上减少72.7%（从0.55M到0.15M），计算量（MACs）降低21.5%（从3.40G到2.67G）。主观MOS测试表明，其感知质量（MOS-Q/S/Sim）与最高的WaveNet基线无统计显著差异（p > 0.05），且显著优于NFS和DPATFNet（p < 0.05）。其客观指标如Wave-ℓ2（0.167）、IPD-ℓ2（1.233）处于竞争力水平。模型参数量(M) ↓ MACs(G) ↓ Wave-ℓ2 ↓ IPD-ℓ2 ↓ NFS [13] 0.55 3.400 0.172 1.250 DPATFNet [14] 2.42 15.64 0.148 1.020 Lite-INN (Ours) 0.15 2.670 0.167 1.233 实际意义：成功在合成质量与计算效率之间取得了良好平衡，其极小的模型尺寸（0.15M参数）和低计算需求（RTF 0.121）使其非常适合部署在手机、耳机等边缘设备上，实现实时的高保真空间音频渲染。主要局限性：隐式校正器（IBC）对动态场景（如声源快速移动）的建模能力依赖于输入的连续坐标编码，其泛化能力和对未见轨迹的表现未经充分验证。此外，消融实验未探讨IBC内部网络结构（如深度、宽度）的影响。 🏗️ 模型架构本文提出的Lite-INN是一个两阶段的端到端框架，目标是从单声道音频x和随时间变化的声源位姿P(t)合成双耳音频y。 ...

Lingometer: On-Device Personal Speech Word Counting System

📄 Lingometer: On-Device Personal Speech Word Counting System #语音活动检测 #端到端 #低资源 #数据增强 #模型评估 🔥 8.0/10 | 前25% | #语音活动检测 | #端到端 | #低资源 #数据增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhwan Kim（Korea Advanced Institute of Science and Technology, South Korea）通讯作者：Hyun W. Ka（Korea Advanced Institute of Science and Technology, South Korea）作者列表：Yuhwan Kim（Korea Advanced Institute of Science and Technology, South Korea）、Junghun Lee（Korea Advanced Institute of Science and Technology, South Korea）、Baekho Kim（Korea Advanced Institute of Science and Technology, South Korea）、Hyun W. Ka（Korea Advanced Institute of Science and Technology, South Korea）注：论文注明前两位作者贡献均等。 💡 毒舌点评亮点：系统设计巧妙，通过“PVAD筛选 + WCE计数”的管道式架构，优雅地解决了设备端语音分析中的隐私与功耗矛盾，为数字生物标志物研究提供了合规的实用工具。短板：WCE模型严重依赖词边界（音节起始点）的帧级标注，这在多语言或资源匮乏语言中可能成为瓶颈；实验部分缺少与更强基线（如大型端到端语音识别模型在相同轻量化约束下）的直接对比。 ...