Music of Changing Lines: Toward a Culturally Situated Approach to the I-Ching

📄 Music of Changing Lines: Toward a Culturally Situated Approach to the I-Ching #音乐生成 #大语言模型 #生成模型 #交互设计 #文化计算 📝 5.5/10 | 前50% | #音乐生成 | #生成模型 | #大语言模型 #交互设计 | arxiv 学术质量 4.1/7 | 影响力 0.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:Ling Qi(未说明机构) 通讯作者:未明确说明 作者列表:Ling Qi(未说明)、Aleksandra Teng Ma(未说明)、Alexandria Smith(未说明) 💡 毒舌点评 亮点:论文提出了一个概念上有趣且具有批判性的框架,旨在纠正西方实验音乐(以Cage为代表)对《易经》的简化利用,通过构建一个将完整占卜仪式转化为参与式声音体验的系统,试图恢复其文化语义与过程性。短板:技术实现严重缺乏原创性和深度,完全依赖Google的商业API(Gemini, Lyria)和简单的规则化音序生成,未提出任何新的算法或模型。更致命的是,全文没有任何形式的用户研究或效果评估实验,使得其“提升参与感与意义感”的核心主张沦为空谈,学术严谨性严重不足。 📌 核心摘要 要解决什么问题:解决西方实验音乐(如John Cage)在借用《易经》时,仅将其作为随机数生成器,而剥离其文化语义、仪式过程和哲学解释的问题。 方法核心是什么:构建一个名为“Music of Changing Lines”的Web交互系统,将《易经》占卜(文王卦)的全流程(提问、投币、解卦)转化为一个参与式声音仪式。系统利用规则化概率音乐伴随投币过程,随后调用大语言模型(Gemini)生成基于用户问题的个性化卦象解读,再将此解读作为提示词,驱动生成式音乐模型(Lyria)创作响应式环境音乐。 与已有方法相比新在哪里:与Cage等将《易经》作为纯粹随机数发生器不同,本系统强调AI作为“文化解释中介”而非“作曲权威”。其创新在于重新将《易经》的本卦、变卦、爻变等语义要素引入音乐生成流程,使音乐成为占卜仪式和意义阐释过程的伴随与体现,而非由卦象直接映射出的固定结构。 主要实验结果如何:论文未提供任何量化实验结果。其结论主要基于系统构建的描述、定性讨论以及一个可访问的在线演示。文中没有用户研究、对比实验、或对生成音乐质量的评估。 实际意义是什么:提出了一种将古老文化实践与现代生成式AI结合的新范式,展示了AI在交互艺术中作为“意义中介”而非“内容生成者”的角色,为文化敏感型交互系统和人机共创提供了案例参考。 主要局限性:系统高度依赖特定商业API(Gemini, Lyria)的稳定性和解释质量,自身技术深度有限;缺乏任何形式的用户研究或效果验证,无法证明其设计是否真正达到了“提升参与感和意义感”的目标;对《易经》本身的复杂性和不同解经传统做了大幅简化。 🔗 开源详情 代码:https://github.com/LingQi000809/iching-sonification 模型权重:论文中未提及模型权重的下载链接。系统使用了通过 API 调用的商业模型(Gemini 2.5 Flash, Lyria)。 数据集:论文中未提及。 Demo:https://vimeo.com/1150693113?share=copy&fl=sv&fe=ci 复现材料:论文详细描述了系统的三个阶段(输入、投掷、解释)、声音引擎的实现方式(使用 Web Audio API 和 Tone.js)、用户界面设计,并提供了系统流程图(图3)。这些描述为复现提供了设计和架构信息,但关键实现细节(如提示词、概率模型)缺失。 论文中引用的开源项目: Tone.js:一个用于Web音频API的框架。 MIDI.js Soundfonts:用于采样传统乐器声音的soundfont库。链接为:https://github.com/gleitz/midi-js-soundfonts 🏗️ 方法概述和架构 整体流程概述:这是一个多阶段的交互式Web系统,端到端流程为:用户输入问题 → 执行文王卦投币模拟(伴随实时概率音乐) → 系统获取原始卦象、变爻与变卦 → 调用LLM生成个性化卦辞解释及音乐关键词 → 调用生成式音乐模型创作环境音乐 → 将音乐与卦象解释一并呈现给用户。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 264 words

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分 前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分 前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分 前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分 前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分 前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分 前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分 前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分 前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分 前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分 前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分 前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分 前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分 前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分 前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分 前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分 前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分 前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分 前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分 前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分 前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分 前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分 前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分 前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分 前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分 前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分 前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分 前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分 前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分 前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分 前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分 前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分 前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分 前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分 前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分 前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分 后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分 后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分 前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分 后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

2026-05-21 · 更新于 2026-06-12 · 26 min · 5389 words