Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

📄 Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition #语音识别 #大语言模型 #多语言 #模型评估 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Peng Wang(上海交通大学 X-LANCE Lab) 通讯作者:未明确标注(推测为 Kai Yu 或 Xie Chen) 其他作者: Yanqiao Zhu(香港中文大学(深圳)) Zixuan Jiang(西安交通大学) Qinyuan Chen(复旦大学) Xingjian Zhao(复旦大学) Xipeng Qiu(复旦大学) Wupeng Wang(阿里巴巴通义Fun团队) Zhifu Gao(阿里巴巴通义Fun团队) Xiangang Li(阿里巴巴通义Fun团队) Kai Yu(上海交通大学 X-LANCE Lab) Xie Chen(上海交通大学 X-LANCE Lab) 💡 毒舌点评 这篇论文把LLM的“打工人”属性开发到了极致:让同一个32B大模型同时兼任裁判、戏精用户和外科医生,硬生生凑出了一套“交互ASR”流水线。S²ER指标确实比WER更懂人话,但这个“交互”本质上是大模型prompt engineering的高级套壳——仿真里的User Simulator比真实用户配合一万倍,10轮纠错上限更像是实验室里的自我感动,真放到车载或音箱场景里,用户可能在第二轮就开始骂娘了。 🔗 开源详情 代码:论文中声明“We will release the code to facilitate future research in interactive and agentic ASR”,但未提供具体的GitHub/GitLab仓库地址、stars数量或代码框架。 模型权重:未公开。实验使用的Qwen3-ASR-1.7B、Qwen3-32B、Index-TTS-1.5均为阿里通义系列已发布的预训练模型,但论文自身未释放新的微调权重。 数据集:未公开新构建的数据集。测试使用的GigaSpeech、WenetSpeech、ASRU2019均为已有公开benchmark。 预训练权重:未提供(推理框架不涉及新预训练权重)。 在线Demo:有。Live demo地址为 https://i-asr.sjtuxlance.com/;项目主页为 https://interactiveasr.github.io/。 依赖的开源项目:Qwen3-ASR-1.7B、Qwen3-32B、Index-TTS-1.5(均属阿里巴巴通义系列)。 结论:论文承诺未来开源,但目前仅提供在线体验Demo和项目主页,尚未公开具体代码仓库。 📌 核心摘要 这篇论文针对传统ASR的两大盲区——WER指标对语义错误不敏感、以及系统无法通过自然交互进行纠错——提出了Interactive ASR框架。首先,作者引入S²ER(Sentence-level Semantic Error Rate),利用LLM-as-a-Judge二元判断识别结果与参考文本是否在句子级别语义等价,人工对齐实验显示LLM评分与人类共识的Pearson相关系数达0.828,甚至超过平均领域专家水平。其次,作者设计了一套LLM驱动的Agentic框架:通过Intent Router判断用户新输入是“继续对话”还是“纠正上一句”,若是后者,则触发基于Chain-of-Thought的Reasoning Corrector,执行“定位-推理-替换”三步手术式修正。为了系统评测,作者还构建了自动化仿真流程,利用语音克隆TTS和LLM模拟用户纠错行为。在GigaSpeech(英语)、WenetSpeech(中文)和ASRU2019(汉英码切换)上的实验表明,仅需1-2轮交互,S²ER即可从约15%-27%骤降至3%-8%,而传统WER/CER几乎纹丝不动,证明语义级指标才是衡量交互收益的关键。当前局限在于系统依赖32B大模型进行推理,实时性与部署成本仍是落地瓶颈。 ...

2026-04-20 · 更新于 2026-06-16 · 3 min · 588 words

The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction

📄 The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction #语音生物标志物 #多模态模型 #跨模态 #模型评估 📝 评分:2.5/10 | arxiv 👥 作者与机构 第一作者:Dhruvin Dungrani(Department of Information Systems, Independent Researchers) 通讯作者:未明确标注 其他作者:Disha Dungrani(Department of Information Systems, Independent Researchers) 💡 毒舌点评 这篇论文最大的学术贡献似乎是给“高管上过播音课所以声音不紧张”这个现象取了一个名叫“Acoustic Camouflage”的酷炫术语;全篇最硬核的技术栈是三个逻辑回归,放在今天大概连Kaggle入门赛都进不了前十。更尴尬的是,图1用MAE默默展示融合后误差其实变小了,与正文疯狂强调的Recall暴跌形成了史诗级互搏。 🔗 开源详情 代码:论文中未提及开源计划,无GitHub/GitLab地址。 模型权重:未公开。 数据集:使用公开数据集MAEC(Li et al., 2020),但论文未提供数据预处理脚本或划分方式。 预训练权重:使用了开源的FinBERT模型(Araci, 2019),但未说明具体版本或下载链接。 在线Demo:无。 依赖工具:仅提及FinBERT与MAEC,未列出具体框架(如PyTorch/TensorFlow/sklearn)。 📌 核心摘要 本研究探讨了在企业财报电话会议中,副语言声学特征(音高、抖动、停顿等)对预测灾难性股价下跌的效用。作者基于MAEC数据集,提取了两种模态的特征:文本端使用FinBERT计算脚本化开场白与即兴Q&A之间的情感极性差异(Sentiment Delta),音频端提取临床语音压力标记的方差特征(音高方差、抖动方差、平均NHR、非 voiced 分数方差)。为避免噪声早期传播,作者采用双流晚期融合架构——两个L1正则化逻辑回归分别处理单模态,再由一个L2正则化逻辑回归元学习器融合概率输出。实验发现,孤立文本流的少数类召回率达到66.25%,而孤立音频流仅50.83%;违背直觉的是,晚期融合后召回率进一步跌至47.08%。作者将这一现象命名为“Acoustic Camouflage”(声学伪装):经过媒体训练的高管能在语音上维持镇定,使音频流释放与真实风险相反的低风险噪声,从而在多模态平均中“稀释”了文本流的高风险信号。该研究为高风险金融预测中的语音处理应用划定了边界条件,但也指出VoIP压缩和降噪算法可能进一步破坏声学信号的真实性。 🏗️ 模型架构 论文提出的系统是一个极简���双流晚期融合诊断架构,整体流程如下: 1. 输入层 数据源:MAEC(Multimodal Aligned Earnings Conference Call)数据集,包含对齐的财报电话会议音频与文本转录。 文本输入:截取每场会议的两个片段——前1,500字符(高度脚本化的管理层开场白)和Q&A环节中1,500字符(非脚本化即兴回答)。 音频输入:与上述文本对齐的电话会议原始音频信号。 2. 特征提取层 ...

2026-04-20 · 更新于 2026-06-16 · 2 min · 402 words