语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分 前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分 前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分 前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分 前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分 前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分 前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分 前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分 前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分 前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分 前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分 前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分 前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分 前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分 前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分 前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分 前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分 前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分 前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分 前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分 前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分 前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分 前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分 前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分 前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分 前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分 前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分 前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分 前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分 后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分 前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分 前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分 前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分 前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分 后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分 后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-30 · 更新于 2026-07-03 · 22 min · 4475 words

RedVox: Safety and Fairness Gaps in Speech Models Across Languages

📄 RedVox: Safety and Fairness Gaps in Speech Models Across Languages #基准测试 #模型评估 6.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #基准测试 | #模型评估 | arxiv 👥 作者与机构 Beatrice Savoldi, Sara Papi, Wafa Aissa, Matteo Negri, Luisa Bentivogli。单位:Fondazione Bruno Kessler, Italy。 💡 毒舌点评 这篇论文像是一个“社区驱动的体检报告”,为语音模型的安全与公平性提供了急需的跨国体检数据。它最大的优点是“真实”——真实的人声、真实的研究者作为数据贡献者,以及真实暴露出的、令人不安的漏洞。特别是那个参与者问卷,简直是给所有想搞语音红队的人上了一堂生动的“伦理课”,告诉你收集这些数据有多折磨人。但问题也很明显:五种语言虽然覆盖广,但全是欧洲亲戚(印欧语系高资源语言),模型们对远房亲戚(如亚洲语言)的表现还是个谜。评估框架依赖LLM判官,这个判官自己有没有跨文化偏见,论文没深究。单轮对话的设置也过于“温和”了,现实中的恶意用户可不会只问一回合。总的来说,它把“问题有多严重”说得很清楚,但“如何系统性地解决”或者“如何更全面地诊断”,留下的思考空间比给出的答案更多。它是一份扎实的、揭露问题的报告,但还远非一份解决问题的蓝图。 📌 核心摘要 本文指出,当前语音模型的安全与公平性评估在多语言和自然语音条件下存在严重空白。为应对此问题,作者构建了RedVox,一个基于真实人声、覆盖英法意西德五种语言的多模态安全与公平基准。通过对八款最先进语音模型的评估,研究发现:1)安全漏洞在非英语语言中显著恶化(不安全率翻倍);2)语音输入(相比文本)会加剧模型的不安全响应倾向;3)刻板印象类请求最易引发争议性响应。此外,通过参与者问卷,论文首次记录了语音数据收集过程中独特的隐私与心理负担问题。研究证实了语音安全问题的紧迫性,并强调了跨语言、跨模态评估的重要性。 🔗 开源详情 代码:https://github.com/hlt-mt/redvox 模型权重:论文中未提供。RedVox本身是一个评估基准。论文评估的开源模型权重来自第三方(如HuggingFace上的Qwen2-Audio, Phi4-Multimodal, Voxtral等),并非本文贡献。 数据集:RedVox数据集,获取链接:https://huggingface.co/datasets/FBK-MT/RedVox(需通过审核访问)。 Demo:未提及。 复现材料:论文提及代码仓库可能包含指南(附录B),但未单独提供复现材料链接。评估脚本和输出承诺在论文接收后开源。 论文中引用的开源项目: Whisper (语音转录):https://hf.co/openai/whisper-large-v3-turbo Qwen3Guard (安全护栏):https://huggingface.co/Qwen/Qwen3Guard-Gen-8B MUSAN corpus (背景噪声):论文未提供具体链接。 Silero VAD (语音活动检测):论文未提供具体链接。 SHADES (刻板印象数据集):论文未提供具体链接。 M-ALERT (安全基准数据集):论文未提供具体链接。 🏗️ 方法概述和架构 本文的方法主要分为两个核心部分:RedVox基准构建与基于该基准的模型评估。 ...

2026-06-26 · 更新于 2026-07-03 · 2 min · 240 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-03 · 12 min · 2421 words

BCoughBench: Benchmarking Respiratory Acoustic Foundation Models Under Body-Coupled Wearable Sensor Conditions

📄 BCoughBench: Benchmarking Respiratory Acoustic Foundation Models Under Body-Coupled Wearable Sensor Conditions #基准测试 #模型评估 6.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #基准测试 | #模型评估 | arxiv 👥 作者与机构 Mayur Sanap, Centific Global Solutions Inc., USA Prasanna Desikan, Centific Global Solutions Inc., USA Edgar Lobaton, North Carolina State University, USA ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 377 words

From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models

📄 From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models #语音识别 #基准测试 #模型评估 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #基准测试 | #模型评估 | arxiv 👥 作者与机构 第一作者:Pengfei Zhang (University of California Irvine) 其他作者:Hoang H Nguyen (University of Illinois Chicago), Kazi Shaharair Sharif (Kennesaw State University), Yutong Song (University of California Irvine), Wenjun Huang (University of California Irvine), Henry Peng Zou (University of Illinois Chicago), Pinxin Liu (未注明机构), Honghui Xu (Kennesaw State University), Amir M. Rahmani (University of California Irvine) 通讯机构:University of California Irvine ...

2026-06-25 · 更新于 2026-07-03 · 3 min · 572 words

SpeechEQ: Benchmarking Emotional Intelligence Quotient in Socially Aware Voice Conversational Models

📄 SpeechEQ: Benchmarking Emotional Intelligence Quotient in Socially Aware Voice Conversational Models #基准测试 6.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.2/1.5 ✅ 6.7/10 | 前25% | #语音对话系统 | #基准测试 | arxiv 👥 作者与机构 Liang-Yuan Wu (纽约大学), Zih-Ching Chen (NVIDIA), Tongshuang Wu (卡内基梅隆大学), C.-H. Huck Yang (NVIDIA), Hua Shen (纽约大学, 上海纽约大学) 💡 毒舌点评 一篇扎实的、填补空白的基准测试工作。其核心价值不在于提出新模型,而在于设计了一套严谨且刁钻的“考试”(SpeechEQ),暴露了当前多模态语音对话模型(SLMs)在社会情感智能上的三大“软肋”:依赖文本捷径、安全对齐导致情感扁平化、以及多轮对话中的遗忘。理论基础(EQ-i 2.0)的选择和“语义-声学解耦”的评估范式设计是亮点,体现了对评估科学性的追求。然而,这终究是一个“评测集”论文,其本身的创新天花板有限。更关键的是,作为评测集,其生态效度完全建立在合成数据之上,这是一个无法回避的“阿喀琉斯之踵”。SEQ分数的计算显得有些过于复杂,为了追求形式上的标准化而增加了理解门槛。此外,虽然评估了多个模型,但主要结论(端到端优于级联、模型存在三大局限)的普适性有待更广泛模型(尤其是非Qwen系列)的验证。论文对自身局限的讨论可以更坦诚一些,特别是数据生成管线对特定TTS模型的依赖问题。 ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 307 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-03 · 16 min · 3249 words

ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge

📄 ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge #语音质量评估 #基准测试 8.2/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.2/10 | 前50% | #语音质量评估 | #基准测试 | arxiv 👥 作者与机构 Jisu Jeon (Hongik University, Seoul National University), Seungyeon Jwa (Seoul National University), Joosung Lee (NAVER Cloud, Seoul National University), Jinhyeon Kim (NAVER Cloud, KAIST), Woojin Chung (Hongik University), Hwiyeol Jo (Seoul National University), Jeonghoon Kim (NAVER Cloud, Seoul National University), Jonghyun Choi (Seoul National University), Soyoon Kim (NAVER Cloud, Seoul National University) ...

2026-06-24 · 更新于 2026-07-03 · 3 min · 428 words

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ZONOS2 Technical Report 10.0分 前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分 前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分 前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分 后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分 前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分 前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分 前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分 前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分 前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分 前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分 前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分 前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分 前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分 前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分 前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分 前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分 前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分 前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分 前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分 前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分 前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分 前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分 前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分 前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分 前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分 前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分 前50% - 28. Statistical validation and full-sphere extension of a B 6.7分 前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分 前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分 前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分 前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分 前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分 前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分 前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分 前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分 前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分 后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分 后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分 前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-24 · 更新于 2026-07-03 · 21 min · 4472 words

Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study

📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study #大语言模型 #基准测试 #语音合成 8.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #语音合成 | #大语言模型 | #基准测试 | arxiv 👥 作者与机构 Koriyama, Tomoki. CyberAgent, Japan. 💡 毒舌点评 这篇论文是一篇扎实的工程性基准测试研究,对日语G2P这个具体任务的LLM应用进行了迄今为止最全面的评估。实验设计合理,覆盖了30+模型,分析维度(模型规模、版本、专门化训练、提示模式)清晰。作为一篇面向应用的实证论文,其价值在于为日语TTS领域的从业者提供了明确的模型选择参考和性能基线。然而,其核心贡献是“评估”而非“提出”新方法,创新性相对有限,更像是一篇详尽的系统报告而非顶会级别的理论或方法突破。论文对错误模式的分析不够深入,对“为什么”某些模式有效或失败的探讨可以更进一步。TTS对比实验虽然实用,但对比系统的选择(如使用未提及的CosyVoice 2作为E2E代表)和实验设置(仅微调一个模型)的说服力可以更强。总体而言,这是一篇合格的、有用的工作,但可能更适合作为领域内的技术报告或会议短文,而非顶会主会场论文。 📌 核心摘要 本文首次对超过30种大型语言模型(LLM)在日语字形到音素(G2P)转换任务上的性能进行了大规模基准测试。研究提出并比较了两种LLM应用策略:解析模式(LLM执行形态分析,规则后处理负责发音规则)和直接模式(LLM直接预测假名)。实验使用包含3000句手动标注假名的JVS语料库子集,以假名字符错误率(CER)为指标。结果显示,模型规模、版本更新以及针对日语的专门化训练是提升准确率的关键因素。最优的专有模型(如Claude Opus,解析模式CER 0.52%)超越了最佳传统工具OpenJTalk(CER 1.03%)。解析模式在绝大多数模型上优于直接模式,因其减轻了LLM处理复杂发音规则的负担。此外,研究将LLM预测的假名输入一个微调的假名输入TTS模型(CosyVoice 2),其发音准确度优于多个端到端(E2E)TTS系统(如Gemini 2.5 Flash TTS, Qwen 3 TTS),同时保持了可比的自然度,证明了显式G2P模块在可控发音方面的实用价值。 ...

2026-06-23 · 更新于 2026-07-03 · 3 min · 481 words