交互设计 | 语音/音乐/音频论文速递

📄 Music of Changing Lines: Toward a Culturally Situated Approach to the I-Ching #音乐生成 #大语言模型 #生成模型 #交互设计 #文化计算 📝 5.5/10 | 前50% | #音乐生成 | #生成模型 | #大语言模型 #交互设计 | arxiv 学术质量 4.1/7 | 影响力 0.5/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：Ling Qi（未说明机构）通讯作者：未明确说明作者列表：Ling Qi（未说明）、Aleksandra Teng Ma（未说明）、Alexandria Smith（未说明） 💡 毒舌点评亮点：论文提出了一个概念上有趣且具有批判性的框架，旨在纠正西方实验音乐（以Cage为代表）对《易经》的简化利用，通过构建一个将完整占卜仪式转化为参与式声音体验的系统，试图恢复其文化语义与过程性。短板：技术实现严重缺乏原创性和深度，完全依赖Google的商业API（Gemini, Lyria）和简单的规则化音序生成，未提出任何新的算法或模型。更致命的是，全文没有任何形式的用户研究或效果评估实验，使得其“提升参与感与意义感”的核心主张沦为空谈，学术严谨性严重不足。 📌 核心摘要要解决什么问题：解决西方实验音乐（如John Cage）在借用《易经》时，仅将其作为随机数生成器，而剥离其文化语义、仪式过程和哲学解释的问题。方法核心是什么：构建一个名为“Music of Changing Lines”的Web交互系统，将《易经》占卜（文王卦）的全流程（提问、投币、解卦）转化为一个参与式声音仪式。系统利用规则化概率音乐伴随投币过程，随后调用大语言模型（Gemini）生成基于用户问题的个性化卦象解读，再将此解读作为提示词，驱动生成式音乐模型（Lyria）创作响应式环境音乐。与已有方法相比新在哪里：与Cage等将《易经》作为纯粹随机数发生器不同，本系统强调AI作为“文化解释中介”而非“作曲权威”。其创新在于重新将《易经》的本卦、变卦、爻变等语义要素引入音乐生成流程，使音乐成为占卜仪式和意义阐释过程的伴随与体现，而非由卦象直接映射出的固定结构。主要实验结果如何：论文未提供任何量化实验结果。其结论主要基于系统构建的描述、定性讨论以及一个可访问的在线演示。文中没有用户研究、对比实验、或对生成音乐质量的评估。实际意义是什么：提出了一种将古老文化实践与现代生成式AI结合的新范式，展示了AI在交互艺术中作为“意义中介”而非“内容生成者”的角色，为文化敏感型交互系统和人机共创提供了案例参考。主要局限性：系统高度依赖特定商业API（Gemini， Lyria）的稳定性和解释质量，自身技术深度有限；缺乏任何形式的用户研究或效果验证，无法证明其设计是否真正达到了“提升参与感和意义感”的目标；对《易经》本身的复杂性和不同解经传统做了大幅简化。 🔗 开源详情代码：https://github.com/LingQi000809/iching-sonification 模型权重：论文中未提及模型权重的下载链接。系统使用了通过 API 调用的商业模型（Gemini 2.5 Flash， Lyria）。数据集：论文中未提及。 Demo：https://vimeo.com/1150693113?share=copy&fl=sv&fe=ci 复现材料：论文详细描述了系统的三个阶段（输入、投掷、解释）、声音引擎的实现方式（使用 Web Audio API 和 Tone.js）、用户界面设计，并提供了系统流程图（图3）。这些描述为复现提供了设计和架构信息，但关键实现细节（如提示词、概率模型）缺失。论文中引用的开源项目： Tone.js：一个用于Web音频API的框架。 MIDI.js Soundfonts：用于采样传统乐器声音的soundfont库。链接为：https://github.com/gleitz/midi-js-soundfonts 🏗️ 方法概述和架构整体流程概述：这是一个多阶段的交互式Web系统，端到端流程为：用户输入问题 → 执行文王卦投币模拟（伴随实时概率音乐） → 系统获取原始卦象、变爻与变卦 → 调用LLM生成个性化卦辞解释及音乐关键词 → 调用生成式音乐模型创作环境音乐 → 将音乐与卦象解释一并呈现给用户。 ...

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文评分分档主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...