人类评估 | 语音/音乐/音频论文速递

Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings

📄 Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings #临床报告生成 #低资源 #零样本 #大语言模型 #认知康复 #人类评估 ✅ 7.5/10 | 扎实工作，位于前列 | #临床报告生成 | #零样本 | #低资源 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongxin Zhou（Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG）通讯作者：论文未明确指定唯一通讯作者。三位作者（Yongxin Zhou, Fabien Ringeval, François Portet）的邮箱地址格式相同（firstname.lastname@univ-grenoble-alpes.fr），且位于同一机构，可视为对等贡献者或共同联系人。作者列表： Yongxin Zhou（Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France） Fabien Ringeval（Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France） François Portet（Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France） 💡 毒舌点评亮点：论文展现了严谨的“专家在环”系统工程方法论，从领域知识提取、特征分类到评估设计都深度依赖并回馈给临床专家，确保了生成报告的临床相关性。这种迭代合作模式为医疗AI应用提供了优秀的范例。短板：对GPT-4的“零样本”控制存在不完全性——即使提示词明确指定了格式，模型仍经常性地忽略生成表格和附录。这暴露了当前LLM在严格遵循结构化输出指令上的不稳定性，也使得两种生成范式之间的“受控对比”在输出结构层面打了折扣。此外，8名评估者的规模限制了统计结论的强度，论文也承认了这一局限性。 ...

语音/音乐/音频论文速递 2026-05-08

语音/音乐/音频论文速递 2026-05-08 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #多模态压缩 1篇 █ #语音增强 1篇 █ #音频事件检测 1篇 █ #语音大模型 1篇 █ #语音克隆 1篇 █ #语音情感识别 1篇 █ #语音生成 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Ne 8.5分前25% #多模态压缩 🥈 Predictive-Generative Drift Decomposition for Speech En 8.5分前25% #语音增强 🥉 MultiLinguahah : A New Unsupervised Multilingual Acoust 8.5分前25% #音频事件检测 4. Minimizing Modality Gap from the Input Side: Your Speec 8.0分前25% #语音大模型 5. X-Voice: Enabling Everyone to Speak 30 Languages via Ze 8.0分前25% #语音克隆 6. Modality-Aware Contrastive and Uncertainty-Regularized 8.0分前25% #语音情感识别 7. WavCube: Unifying Speech Representation for Understandi 7.5分前25% #语音生成 8. PianoCoRe: Combined and Refined Piano MIDI Dataset 7.5分前25% #数据集 9. Do Melody and Rhythm Coevolve? 7.5分前25% #音乐认知 10. Automated Clinical Report Generation for Remote Cogniti 7.5分扎实工作，位于前列 #临床报告生成 11. Linear Semantic Segmentation for Low-Resource Spoken Di 7.5分前25% #语义分割 12. Edge-specific signal propagation on mature chromophore- 7.5分前25% #蛋白质工程 13. Cross-Modal Navigation with Multi-Agent Reinforcement L 7.5分前25% #具身导航 14. Pro-KLShampoo: Projected KL-Shampoo with Whitening Reco 7.5分前25% #大语言模型 15. Optimal Transport Audio Distance with Learned Riemannia 7.0分前10% #音频质量评估 16. PairAlign: A Framework for Sequence Tokenization via Se 7.0分前25% #音频编码 17. Topological Signatures of Grokking 7.0分前25% #模型可解释性 18. Task-Aware Answer Preservation under Audio Compression 6.5分前25% #音频问答 19. NDF+: Joint Neural Directional Filtering and Diffuse So 6.5分前30% #空间音频 20. Quantum Kernels for Audio Deepfake Detection Using Spec 6.5分前50% #音频深度伪造检测 21. More Than Can Be Said: A Benchmark and Framework for Pr 6.5分前25% #基准测试 22. PersonaKit (PK): A Plug-and-Play Platform for User Test 6.0分前50% #全双工对话系统评估 23. Preliminary Insights in Chronos Frequency Data Understa 6.0分前25% #模型评估 📋 论文列表 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv ...

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #人类评估 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #人类评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Srija Anand (AI4Bharat, srijaanand@ai4bharat.org) 通讯作者：未说明作者列表：Srija Anand¹,² (AI4Bharat), Ashwin Sankar² (AI4Bharat), Ishvinder Sethi³ (Josh Talks), Aaditya Pareek² (AI4Bharat), Kartik Rajput² (AI4Bharat), Gaurav Yadav² (AI4Bharat), Nikhil Narasimhan² (AI4Bharat), Adish Pandya² (AI4Bharat), Deepon Halder² (AI4Bharat), Mohammed Safi Ur Rahman Khan² (AI4Bharat), Praveen S V² (AI4Bharat), Shobhit Banga² (AI4Bharat), Mitesh M Khapra¹ (印度理工学院马德拉斯分校)。注：上标1,2,3对应论文中提到的机构：1. Indian Institute of Technology, Madras; 2. AI4Bharat; 3. Josh Talks。 💡 毒舌点评这篇论文堪称语音合成领域的“Consumer Reports”，通过严谨、大规模的控制实验和多维度分析，为印度语言TTS模型的优劣提供了目前最可信的排名和诊断报告，其实证数据的价值很高。然而，它的核心方法论（受控成对评估）并非首创，且“表达力驱动用户偏好”这一结论在缺乏客观声学指标（如MCD, F0轮廓）支撑的情况下，略显单薄，更像是对评估数据的重新解读而非深入机理的揭示。 ...

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（25 篇，按分数降序）排名论文评分分档主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...