数据集 | 语音/音乐/音频论文速递

Denoising Of Stochastic Ray Tracing Room Impulse Responses

📄 Denoising Of Stochastic Ray Tracing Room Impulse Responses #空间音频 #信号处理 #数据集 #开源工具 #少样本 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #数据集 #开源工具学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Ricardo Falcón-Pérez（Aalto University, Finland； Tampere University, Finland）通讯作者：未说明作者列表：Ricardo Falcón-Pérez（Aalto University， Tampere University）， Carl Schissler（Meta - Reality Labs Research）， Andrew Francl（Meta - Reality Labs Research）， Ishwarya Ananthabhotla（Meta - Reality Labs Research）， Gregor Mueckl（Meta - Reality Labs Research） 💡 毒舌点评亮点：论文最聪明的一点是避开了直接去噪复杂的RIR波形，转而利用射线追踪仿真过程本身产生的“副产品”——内部状态特征（如能量衰减曲线、路径统计直方图）作为输入，这为神经网络提供了宝贵的“仿真收敛度”先验信息，是解决该特定问题的有效设计。短板：作为一篇音频领域的论文，在提出了新的去噪方法后，却完全缺少了基于人类听音的主观评估实验（如MUSHRA或AB测试），无法直接证明其声称的“更准确”在感知上是否成立，这对于一项以提升听觉体验为目标的工作来说，说服链存在关键缺失。 ...

Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset

📄 Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset #语音伪造检测 #数据集 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音伪造检测 | #数据集 | #多语言 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Maria Risques（普渡大学电气与计算机工程学院，视频与图像处理实验室 VIPER）通讯作者：Edward J. Delp（普渡大学电气与计算机工程学院，视频与图像处理实验室 VIPER）作者列表：Maria Risques（普渡大学 VIPER 实验室）、Kratika Bhagtani（普渡大学 VIPER 实验室）、Amit Kumar Singh Yadav（普渡大学 VIPER 实验室）、Edward J. Delp（普渡大学 VIPER 实验室） 💡 毒舌点评亮点：论文精准地切入了一个关键且被忽视的研究空白——西班牙语语音伪造检测，通过构建首个大规模、多口音的合成/真实语音数据集 HISPASpoof，为后续研究提供了不可或缺的基石，填补了领域的重大缺口。短板：论文的核心贡献是“数据集+评估”，并未提出新的检测或归因模型或算法，其学术创新主要体现在数据工程和实验验证层面，而非方法论的突破。 🔗 开源详情代码：提供了评估代码的GitLab仓库链接：https://gitlab.com/viper-purdue/s3d-spanish-syn-speech-det.git。论文中也提及了使用的具体方法代码库来源[47]。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：HISPASpoof数据集已公开，采用CC BY-SA 4.0许可，可通过上述GitLab仓库链接获取。 Demo：论文中未提及提供在线演示。复现材料：提供了数据集的详细分布说明（表I）和实验设置描述（如数据划分），但未提供具体的训练超参数（学习率、优化器、batch size等）、硬件信息和详细的配置文件。论文中引用的开源项目：使用了多个开源的TTS系统生成数据（XTTS-v1/v2, YourTTS, FishSpeech, F5-Spanish），并评估了多个开源检测器实现（LFCC-GMM, MFCC-ResNet, Spec-ResNet, PaSST, Wav2Vec2-AASIST）。总体开源情况：论文在数据集和评估代码开源方面做得较好，但完整复现所需的训练细节和模型权重未提供。 📌 核心摘要问题：当前先进的语音合成（TTS）和语音克隆技术可生成高度逼真的合成语音，带来严重的欺诈和滥用风险。尽管针对英语和中文已有成熟的检测器和数据集，但作为全球6亿人使用的语言，西班牙语在语音取证领域却严重缺乏研究和评估基准。方法核心：本文提出了 HISPASpoof 数据集，这是首个大规模西班牙语合成语音检测与归因数据集。数据集包含来自6个公开语料库（涵盖6种西班牙语口音）的真实语音，以及由6种前沿的零样本TTS系统生成的合成语音。论文利用该数据集，系统评估了5种代表性的检测方法在跨语言（英语→西班牙语）和特定语言（西班牙语）训练下的性能。新意：这是首个专门针对西班牙语的、大规模、多口音、多合成器的语音伪造检测与归因数据集。与以往多语言数据集（如ODSS）相比，HISPASpoof在西班牙语音频数量（超过50万条）、口音多样性（6种）和合成系统多样性（6种）上均有显著提升。主要实验结果：检测性能：实验证明，在英语数据集（ASVspoof2019）上训练的检测器直接应用于西班牙语时性能急剧下降（EER普遍高于30%，最差达49.57%）。在HISPASpoof上训练后，检测性能大幅提升。具体关键结果见下表：训练集测试集 LFCC+GMM EER(%) MFCC-ResNet EER(%) Spec-ResNet EER(%) PaSST EER(%) Wav2Vec2-AASIST EER(%) ASVspoof2019 (英语) UHIS (西班牙语) 42.71 41.72 43.23 32.14 19.92 HISPASpoof (西班牙语) UHIS (西班牙语) 1.57 5.17 0.72 4.10 10.27 HISPASpoof (西班牙语) UODSSSpa (跨数据集) 0.85 48.72 17.09 17.95 43.59 归因性能：在归因（识别合成器）任务中，闭集设置下各方法均接近完美（PaSST准确率100%）。开放集（需识别未见过的合成器）更具挑战性，PaSST表现最佳（准确率78.32%），Spec-ResNet次之（69.73%）。实际意义：HISPASpoof 为西班牙语语音安全研究提供了关键的评测基准，揭示了现有英语检测器在西班牙语上的失效，并验证了使用领域内数据训练的有效性，推动了语音取证研究的包容性发展。主要局限性：论文的核心是提出数据集并进行基线评估，没有提出新的检测或归因算法。开源计划中未提及模型权重的公开。 🏗️ 模型架构本文未提出新的检测或归因模型架构。其核心工作是构建数据集并评估五种已有的代表性方法，这些方法可分为三类： ...

Do Bias Benchmarks Generalise? Evidence from Voice-Based Evaluation of Gender Bias in Speechllms

📄 Do Bias Benchmarks Generalise? Evidence from Voice-Based Evaluation of Gender Bias in Speechllms #模型评估 #基准测试 #语音大模型 #数据集 🔥 8.0/10 | 前25% | #模型评估 | #基准测试 | #语音大模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1 | 置信度高 👥 作者与机构第一作者：Shree Harsha Bokkahalli Satish（KTH皇家理工学院语音、音乐与听觉系）通讯作者：未说明作者列表：Shree Harsha Bokkahalli Satish（KTH皇家理工学院语音、音乐与听觉系）、Gustav Eje Henter（KTH皇家理工学院语音、音乐与听觉系）、Éva Székely（KTH皇家理工学院语音、音乐与听觉系） 💡 毒舌点评亮点：论文直击当前AI公平性评估的软肋，通过巧妙的“注入偏差-测试迁移”实验设计，系统性地质疑了MCQA基准的有效性，逻辑清晰，实验设计具有启发性。短板：所有模型测试均基于合成TTS语音，现实世界中自然语音的变异性可能更大，偏差表现可能不同，这使得结论的普适性打了点折扣；且实验仅关注性别偏差，未扩展到其他社会属性。 🔗 开源详情代码：提供代码仓库链接：https://shreeharsha-bs.github.io/GenderBias-Benchmarks-Generalise/ 模型权重：论文中提及将提供额外结果，��未明确说明是否开源微调后的模型权重。原文“Code, SAGE evaluation suite and additional results”暗示可能包含权重，但未确认。数据集：论文明确创建并开源了SAGE（包括MCQA和长篇部分）评估套件。 Demo：论文中未提及在线演示。复现材料：论文详细说明了实验方法、LoRA应用位置、秩的选择、推理温度、评估维度定义及LLM评委型号，并提供了人工验证的一致性数据。训练数据的具体划分（微调集/测试集无重叠说话人）也已说明。论文中引用的开源项目：引用了LoRA（[26, 27]）、LLM-as-a-judge（[30]）等方法，并依赖Qwen2-Audio、LTU-AS、LLaMA-Omni等预训练模型。开源计划：论文提供了明确的开源链接，表明其承诺开放代码和数据集。 📌 核心摘要问题：当前评估语音大模型（SpeechLLMs）性别偏差主要依赖多选题（MCQA）基准，但此类基准是否能可靠预测模型在更自然、更长篇任务中的真实偏差表现尚不清楚。方法：研究者使用LoRA微调技术，刻意诱导三个SpeechLLM在SAGE和Spoken StereoSet两个MCQA基准上表现出刻板、反刻板或中性/不确定的行为。然后，他们评估这些诱导出的行为是否会跨基准迁移，以及是否会迁移到更现实的长篇生成任务（SAGE-LF评估套件）。创新：与以往侧重缓解偏差或仅讨论MCQA局限性的工作不同，本研究首次在语音领域通过实验证明了MCQA偏差基准的跨任务（跨MCQA基准）和跨格式（MCQA到长篇任务）迁移存在严重不一致性。同时，引入了新的、针对语音和真实场景（如AI治疗、职业建议）的评估套件SAGE。主要结果：实验显示，在单一MCQA基准上微调诱导的行为能近乎完美地保留（如SAGE→SAGE），但跨基准迁移（SAGE→SSS）效果不一致且显著削弱。更关键的是，MCQA上训练出的“反刻板”或“无偏见”行为，在长篇任务中几乎无法可靠地转化为对应的公平输出，效果微弱且维度不一致。例如，微调使LLaMA-Omni模型在长篇任务中为女性建议护理角色，为男性建议管理角色的情况依然存在。实际意义：研究强烈表明，仅依赖MCQA基准来评估和声称SpeechLLMs的公平性是不可靠的。当前基准可能只捕捉到偏差的狭窄切片，无法预测模型在真实应用场景中的行为。这呼吁学术界和工业界转向更全面、更贴近实际使用的多维度评估框架。局限性：实验使用的语音输入均为商业TTS生成，可能缺乏人类语音的自然变异性；评估长篇任务的“公平性”依赖LLM评判器，尽管有人工验证，但仍可能存在偏差；研究仅聚焦性别偏差，未涉及种族等其他交叉性社会属性。 🏗️ 模型架构本文并未提出新的模型架构，而是对现有的三个SpeechLLM进行微调和评估。整体实验流程与架构如下： ...

Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems

📄 Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems #语音合成 #模型评估 #数据集 #语音情感识别 #人类感知评估 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #数据集 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yi-Cheng Lin（National Taiwan University）通讯作者：未说明作者列表：Yi-Cheng Lin（National Taiwan University）、Huang-Cheng Chou（University of Southern California）、Tzu-Chieh Wei（University of Michigan）、Kuan-Yu Chen（National Taiwan University）、Hung-yi Lee（National Taiwan University） 💡 毒舌点评亮点在于精准定义了指令引导TTS领域一个被忽视的关键问题——“指令-感知鸿沟”，并首次系统性地引入了程度副词和情感强度形容词这两个细粒度维度进行量化评估，为未来研究提供了明确的改进靶点和高质量的基准数据集（E-VOC）。短板是，虽然评估框架设计精巧，但论文在分析环节更侧重于现象描述（如“模型倾向于生成成人声音”），对于导致这些现象的模型架构差异、训练数据偏差等深层原因挖掘不足，使得结论的启发性略打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及（论文评估的是已有模型，未提出新模型）。数据集：论文明确表示将公开发布的“Expressive VOice Control (E-VOC) corpus”，包含60,000+人类评分，但未提供当前获取链接。 Demo：未提及。复现材料：论文描述了E-VOC的构建过程（文本生成、提示词设计、标注流程、质量控制协议），并提供了评估指标（表2，表3，表4）和结果图表（图1，图2），为复现其评估实验提供了必要信息。论文中引用的开源项目：引用了Parler-TTS（开源）、PromptTTS++（开源）、UniAudio（开源）的模型或代码库。评估中的其他依赖如CREPE（音高估计模型）、NRC Emotion Intensity Lexicon（情感词典）也是公开资源。论文中未提及开源计划：关于分析流水线（Analysis Pipeline）的具体代码，论文提到将公开，但未给出链接。 📌 核心摘要要解决什么问题：当前指令引导的文本转语音（ITTS）系统虽允许用户通过自然语言控制语音风格，但用户指令与听众感知之间的实际对齐程度，尤其是对细粒度属性（如不同强度的情感、不同年龄的声音）的控制能力，尚未被系统性量化研究，存在一个“指令-感知鸿沟”。方法核心：本文提出了一个全新的评估框架，首次引入“程度副词”（如 slightly, extremely）和“情感强度形容词”（如 Content, Happy, Ecstatic）作为控制维度，结合传统的说话人年龄和词汇重音控制任务，对ITTS系统进行综合评估。为此，他们构建了一个名为E-VOC（Expressive VOice Control）的大规模人类评估数据集，包含超过60,000个人类评分。与已有方法相比新在哪里：不同于以往研究仅使用粗粒度的情感或风格标签（如“快乐”），或依赖自动分类器进行客观评估，本工作首次在人类感知评估中纳入了连续、分级的表达属性（程度和情感强度），并通过大规模众包获得了可靠的人类感知基准，更直接地反映了用户意图与最终感知的差异。主要实验结果如何：评估了5个代表性ITTS系统。结果显示：(1) gpt-4o-mini-tts是唯一能在响度、音高、语速和情感强度上可靠遵循程度指令并产生可感知梯度变化的模型。(2) 所有模型在控制说话人年龄方面表现均不佳（最佳准确率仅29.4%），且普遍倾向于生成“成人”声音，即使指令要求“儿童”或“老人”声音。(3) 词汇重音控制极具挑战性，最佳模型（gpt-4o）的准确率也仅为26.5%。具体关键数据见下表。任务模型关键指标（数值）说话人年龄 (Age) 总体准确率 (最高) 0.294 (Parler-large) 总体准确率 (gpt-4o) 0.289 F1-score (Child, 最高) 0.113 (Parler-large) F1-score (Elderly, 最高) 0.339 (UniAudio) 词汇重音 (Emphasis) 总体准确率 (最高) 0.265 (gpt-4o) 总体准确率 (随机基线) ≈0.143 实际意义是什么：本工作为ITTS系统的评估和开发建立了新的、更贴近真实用户需求的基准。E-VOC数据集的公开将极大推动该领域在细粒度控制、人类感知对齐等方面的研究，并为开发更可靠的自动评估工具提供了训练数据。主要局限性是：研究仅评估了5个模型，结论的普适性需验证；论文未对导致“指令-感知鸿沟”的具体模型架构或训练因素进行深入分析；评估仅限英语，未涉及多语言场景。 🏗️ 模型架构论文中未提供具体的模型架构图或详细描述。本文的核心贡献是评估框架、数据集和分析方法，而非提出一个新的TTS模型。文中所评估的ITTS系统（如Parler-TTS, PromptTTS++, gpt-4o-mini-tts）均为已有系统，论文重点在于评估它们在新维度上的表现，而非剖析其内部架构。 ...

Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems

📄 Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems #语音对话系统 #多模态模型 #大语言模型 #数据集 #预训练 ✅ 7.0/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #数据集学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Guojian Li（西北工业大学计算机学院，音频、语音与语言处理组）通讯作者：Zhonghua Fu（西北工业大学计算机学院），Lei Xie（西北工业大学计算机学院）作者列表： Guojian Li，Chengyou Wang，Hongfei Xue，Shuiyuan Wang，Dehui Gao，Zhonghua Fu，Lei Xie（西北工业大学计算机学院，音频、语音与语言处理组） Zihan Zhang，Yuke Lin，Wenjie Li，Longshuai Xiao（华为技术有限公司） 💡 毒舌点评亮点：论文直击全双工对话系统中轮次检测“缺乏开源、数据稀缺”的痛点，不仅提出了一个性能优越的开源模型，还配套发布了超千小时的专项训练集，堪称“送数据送模型”的良心之作，对社区的实用价值很高。短板：模型架构本质上是Whisper和轻量LLM的常规组合，创新更多体现在工程化整合与ASR+检测的串联范式，理论突破有限；合成数据流程复杂，其与真实用户交互数据的分布差异可能影响模型在极端情况下的鲁棒性。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/ASLP-lab/Easy-Turn 模型权重：论文声明模型权重将公开发布。数据集：论文声明将开源Easy Turn trainset和testset。 Demo：论文未提及在线演示。复现材料：论文提供了详细的训练数据处理流水线（图1）、两阶段训练策略、具体的学习率、批大小、epoch数、硬件环境（8x RTX 4090）以及推理配置（贪心搜索，温度1.0），复现信息较为充分。引用的开源项目/模型：论文明确使用了以下开源工具/模型作为基线或组件：TEN Turn Detection， Smart Turn V2， Whisper， Qwen2.5系列， Wav2Vec2， Paraformer， CosyVoice 2， WeNet toolkit。此外，训练数据构建中使用了MagicData-RAMC， Emilia， AudioQA-1M等开源数据集。 📌 核心摘要问题：在全双工语音对话系统中，需要一个鲁棒的轮次检测模块来判断用户何时说完、未说完、在回应或要求暂停，但现有开源方案或受限于单模态、或模型过大、或需要大量稀缺的全双工数据。方法：提出Easy Turn，一个开源的模块化双模态（声学+语言学）轮次检测模型。它采用“ASR+轮次检测”范式，以Whisper为音频编码器，通过适配器连接轻量级的Qwen2.5-0.5B LLM，先生成语音转录文本，再融合声学与文本特征预测四种对话状态。同时发布了Easy Turn trainset，一个1145小时、覆盖四种状态的大规模训练数据集。创新：主要创新在于：(1) 开源了首个支持四种对话状态、性能领先的轮次检测模型和配套数据集，填补了领域空白；(2) 采用“ASR+检测”范式有效融合声学与语言信息，避免了单模态的局限；(3) 通过模块化设计和轻量级LLM，在性能和效率间取得了平衡。实验结果：在自建的Easy Turn测试集上，Easy Turn在四种状态（完整、不完整、回应、等待）上的准确率（96.33%， 97.67%， 91%， 98%）均显著优于现有开源模型TEN Turn Detection和Smart Turn V2。同时，模型参数量（850MB）、延迟（263ms）和内存占用（2559MB）处于可接受范围。消融实验表明，双模态融合及“ASR+检测”范式对性能提升至关重要（平均准确率从单模态的~86%提升至95.75%）。模型参数量(MB) ↓ 延迟(ms) 内存(MB) 完整(%) ↑ 不完整(%) 回应(%) 等待(%) Paraformer + TEN Turn Detection 7220 204 15419 86.67 89.3 - 91 Smart Turn V2 95 27 370 78.67 62 - - Easy Turn (Proposed) 850 263 2559 96.33 97.67 91 98 实际意义：为全双工语音对话研究提供了即插即用的开源工具和高质量数据，显著降低了研究门槛，有望加速相关技术从实验室走向产品应用。主要局限性：模型在极端真实环境（如极高噪声、多人同时说话）下的鲁棒性尚未充分验证；训练数据中的合成部分可能无法完全覆盖所有自然交互场景；“ASR+检测”的串联设计可能带来一定延迟，且在ASR错误时可能影响检测性能。 🏗️ 模型架构 (注：此为论文描述的架构图，但无法确认其原始URL。上图链接来自论文引用的GitHub仓库，推测为论文中的图2) ...

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Tong Zhang (武汉大学网络空间安全学院) 通讯作者：Yanzhen Ren (武汉大学网络空间安全学院) 作者列表：Tong Zhang (武汉大学网络空间安全学院), Yihuan Huang (武汉大学网络空间安全学院), Yanzhen Ren (武汉大学网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评亮点：这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”，精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点，数据集构建的系统性和全面性值得称道。短板：它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”，在检测模型本身并无创新，且基线评估略显常规，距离真正解决“重放攻击”这一顽疾还有距离。 🔗 开源详情代码：提供。论文明确说明数据集、代码和自动化录制工具已开源，链接为：https://github.com/EchoFake/EchoFake/ 模型权重：未提及。论文仅评估了现有基线模型，未提出新模型。数据集：已公开。EchoFake数据集可通过上述GitHub仓库获取。 Demo：未提及。复现材料：提供了详尽的训练细节（学习率、batch size等）、超参数、数据集划分统计、预处理流程，复现基础良好。论文中引用的开源项目：列出了所使用的多种开源TTS模型，如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等（详见参考文献和数据集构建部分）。论文中未提及开源计划：所��必要的复现材料已在论文发表时一并开源。 📌 核心摘要问题：现有的音频深度伪造检测模型在实验室环境下表现良好，但在面对真实世界中常见的低成本“物理重放攻击”（即将合成语音通过扬声器播放并重新录制）时，性能会急剧下降，严重威胁其实际部署的可靠性。方法：为了解决这一问题，作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音（TTS）生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型：真实语音、重放真实语音、伪造语音、重放伪造语音。创新：与已有数据集（如ASVspoof）主要关注单一攻击方式（仅合成或仅重放真实语音）不同，EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时，它采用了多种最新开源的零样本TTS模型，并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。主要实验结果：使用EchoFake训练的三个基线模型（RawNet2， AASIST， Wav2Vec2）在跨数据集评估中表现出更好的泛化能力，平均EER显著低于在传统数据集上训练的模型（见表3）。模型在EchoFake封闭集评估中表现优异（如AASIST的二分类EER为0.46%），但在开放集评估中性能大幅下降（如AASIST的二分类EER升至14.88%），重放样本是主要错误来源（见表4）。消融实验证明，在训练数据中包含重放样本，能显著提升模型在重放攻击场景下的鲁棒性，而在传统基准上性能损失很小。实际意义：EchoFake提供了一个更接近真实威胁模型的评估基准，有助于推动检测算法从实验室走向实际应用，提升对复杂欺诈攻击的防御能力。局限性：尽管模型在EchoFake上得到提升，但在面对未见过的重放条件（开放集）时，性能仍有明显下降，表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构未说明。本文是一篇数据集论文，其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型（RawNet2, AASIST, Wav2Vec2）的详细架构并非本文创新点，故在此不展开描述。 ...

EEG and Eye-Tracking Driven Dynamic Target Speaker Extraction with Spontaneous Attention Switching

📄 EEG and Eye-Tracking Driven Dynamic Target Speaker Extraction with Spontaneous Attention Switching #语音分离 #多模态模型 #多任务学习 #生物声学 #数据集 ✅ 7.0/10 | 前25% | #语音分离 | #多模态模型 | #多任务学习 #生物声学学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xuefei Wang（南方科技大学电子与电气工程系）通讯作者：Fei Chen（南方科技大学电子与电气工程系）作者列表：Xuefei Wang（南方科技大学电子与电气工程系）、Ximin Chen（南方科技大学电子与电气工程系）、Yuting Ding（南方科技大学电子与电气工程系）、Yueting Ban（南方科技大学电子与电气工程系）、Siyu Yu（南方科技大学电子与电气工程系）、Yu Tsao（台湾中研院资讯科技创新研究中心）、Fei Chen（南方科技大学电子与电气工程系） 💡 毒舌点评这篇论文首次将EEG引导的目标说话人提取问题从静态场景拓展到更符合真实情况的动态注意力切换场景，并为此构建了一个完整的多模态框架，这是其最大亮点；然而，实验仅在参与者数量有限（18人）的自建数据集上进行，且代码与模型未完全开源，极大限制了其结论的普适性与可复现性。 🔗 开源详情代码：论文中未提及代码链接。数据集链接（https://github.com/XXuefeii/AASD）中可能包含部分代码，但论文正文未说明。模型权重：未提及。数据集：是。提供了专门的数据集仓库链接（https://github.com/XXuefeii/AASD），包含EEG和眼动数据。 Demo：未提及。复现材料：论文提供了部分训练超参数（Adam优化器，lr=1e-4， batch size=16），但未提供完整的训练脚本、配置文件或检查点。代码和完整复现指南缺失。论文中引用的开源项目：论文中提到了使用预训练的Wav2vec2.0模型[17]和基于Conv-TasNet[16]的架构。 📌 核心摘要要解决什么问题？论文旨在解决现有EEG引导的目标说话人提取（TSE）方法通常假设听众注意力静态不变，无法处理现实多说话人环境中听众自发在不同说话人之间切换注意力的动态场景。方法核心是什么？提出了一个多模态动态注意力TSE网络（MDATNet），其核心是：(a) 利用EEG和平均注视坐标（眼动）联合解码注意力是否发生切换；(b) 引入一个动态更新单元，当检测到注意力切换时重置历史信息，否则融合历史语音特征，以保持对同一目标说话人跟踪的连续性。与已有方法相比新在哪里？与之前仅基于EEG或假设静态注意力的方法（如BASEN, NeuroHeed等）相比，本文方法首次明确建模并处理了“注意力切换”这一动态过程，通过引入眼动先验和动态历史语音记忆机制，实现了更自适应、更符合认知过程的提取。主要实验结果如何？在自建的EEG自发注意力切换数据集上，MDATNet在所有指标上显著优于基线方法。相比最强的M3ANet，SDR提升了1.77 dB，STOI提升了3.99%。消融实验表明，眼动信息和动态更新单元分别带来了显著的性能提升，二者结合达到最佳效果（SDR 8.79 dB， STOI 88.17%）。实际意义是什么？该研究推动了脑机接口（BCI）与语音处理的交叉领域发展，为开发未来能更自然理解并跟随用户注意力焦点的助听器、耳机或人机交互系统提供了技术路径。主要局限性是什么？主要局限性在于实验数据集规模有限（18位被试，18小时数据），且均为特定实验室环境下的受控数据，跨被试泛化能力、在复杂声学场景（如背景噪音、混响）下的鲁棒性尚未得到充分验证。 🏗️ 模型架构论文提出了一个名为MDATNet（Multimodal and Dynamic Attention Target Net）的端到端神经网络框架，整体架构见图1。 ...

Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling

📄 Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling #语音识别 #语音合成 #数据集 #零样本 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音合成 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Huan Liao（The Chinese University of Hong Kong, Shenzhen）（论文注明与Qinke Ni同等贡献）通讯作者：未明确说明（论文中未明确指出通讯作者）作者列表：Huan Liao（The Chinese University of Hong Kong, Shenzhen），Qinke Ni（The Chinese University of Hong Kong, Shenzhen），Yuancheng Wang（The Chinese University of Hong Kong, Shenzhen），Yiheng Lu（The Chinese University of Hong Kong, Shenzhen），Haoyue Zhan（Guangzhou Quwan Network Technology），Pengyuan Xie（Guangzhou Quwan Network Technology），Qiang Zhang（Guangzhou Quwan Network Technology），Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen） 💡 毒舌点评亮点在于系统性地填补了普通话副语言词级标注数据的空白，并提出了一个可扩展的标注流水线，为“类人”语音建模提供了急需的燃料。短板在于TTS部分的创新更多是“应用验证”而非“方法突破”，且文中对模型训练的关键细节（如超参数）披露不足，让想复现的同行感到些许乏力。 ...

Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers

📄 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers #生物声学 #知识蒸馏 #时频分析 #边缘计算 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Stefano Ciapponi（Fondazione Bruno Kessler, University of Trento）通讯作者：未说明作者列表：Stefano Ciapponi（Fondazione Bruno Kessler, University of Trento），Leonardo Mannini（Fondazione Bruno Kessler），Jarek Scanferla（Eurac Research），Matteo Anderle（Eurac Research），Elisabetta Farella（Fondazione Bruno Kessler, University of Trento） 💡 毒舌点评亮点：论文首次在AudioMoth这类极低功耗微控制器上实现了多物种鸟类分类，将理论创新（半可学习滤波器组）与严格的硬件约束验证（77mJ/推理）紧密结合，工程实用性很强。短板：70种鸟类的全景分类准确率（70.1%）与BirdNET在特定子集上的表现相比仍有差距，对于生物声学实际应用而言，高难度物种的识别鲁棒性可能是更关键的瓶颈。 🔗 开源详情代码：论文提供了公开代码仓库链接：https://github.com/wren-framework/wrennet，包含数据集创建、训练、蒸馏和模型导出脚本。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中未明确说明该70种鸟类数据集是否公开，但提及了音频来源（Xeno-Canto）和预处理方法，部分数据可能需要根据方法自行构建。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练配置、损失函数权重、优化器设置、数据增强方法以及模型架构参数，复现信息较为充分。论文中引用的开源项目：引用了AudioMoth（硬件平台）、BirdNET（教师模型）、ESC-50（环境声数据集）、CMSIS-NN（推理库）等开源项目或标准工具。 📌 核心摘要这篇论文旨在解决在资源极度受限的低功耗边缘设备（如AudioMoth，内存≤1MB）上实现连续、实时的多物种鸟类声音分类的难题。其核心方法是提出了WrenNet神经网络架构，该架构采用流式兼容的因果卷积和GRU进行高效时序建模，并创新性地设计了一种半可学习（Semi-learnable）频谱特征提取器，通过可微的参数化频率映射自适应优化鸟类叫声的频谱分辨率。与固定梅尔尺度的特征提取相比，该设计能自动学习适合不同物种的频率过渡点。在由鸟类学家策划的70种阿尔卑斯鸟类数据集上，WrenNet对声学特征明显的物种准确率达90.8%，全任务准确率为70.1%。在AudioMoth设备上部署时，单次3秒推理仅消耗77mJ，比BirdNET在树莓派上运行能效高出16倍以上。这标志着首个在微控制器硬件上实现多物种鸟类分类的实用框架。主要局限性在于对声学相似的复杂物种组（如莺类、雀类）识别准确率（约77%）仍有提升空间。 ...

Evaluating Bias in Spoken Dialogue LLMs for Real-World Decisions and Recommendations

📄 Evaluating Bias in Spoken Dialogue LLMs for Real-World Decisions and Recommendations #模型评估 #公平性研究 #语音大模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #模型评估 | #公平性研究 | #语音大模型 #基准测试学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yihao Wu (南洋理工大学) 通讯作者：Ziyang Ma (Soul AI Lab) 作者列表：Yihao Wu (南洋理工大学), Tianrui Wang (南洋理工大学), Yizhou Peng (南洋理工大学), Yi-Wen Chao (南洋理工大学), Xuyi Zhuang (南洋理工大学), Xinsheng Wang (Soul AI Lab), Shunshun Yin (Soul AI Lab), Ziyang Ma (Soul AI Lab) 💡 毒舌点评亮点：论文开创性地将多轮对话中“偏见持久性”作为评估维度，揭示了单轮测试可能掩盖的公平性问题，这比静态评估更贴近真实交互场景。短板：研究主要停留在“测量”现象阶段，对于“为何”不同模型或不同属性会产生差异性偏见缺乏深层次的机制探讨，也未能提出任何有效的偏见缓解策略，使得工作的闭环性不足。 ...