音频编解码

📄 CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction #语音分离 #语音编码 #多任务学习 #音频编解码 ✅ 7.5/10 | 前25% | #语音分离 | #多任务学习 | #语音编码 #音频编解码学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hui-Peng Du（中国科学技术大学，语音及语言信息处理国家工程研究中心）通讯作者：Yang Ai（中国科学技术大学，语音及语言信息处理国家工程研究中心）作者列表：Hui-Peng Du（中国科学技术大学）、Yang Ai*（中国科学技术大学）、Xiao-Hang Jiang（中国科学技术大学）、Rui-Chen Zheng（中国科学技术大学）、Zhen-Hua Ling（中国科学技术大学）。所有作者均隶属于“语音及语言信息处理国家工程研究中心，中国科学技术大学，合肥，中国”。 💡 毒舌点评论文精准地瞄准了“既要分离又要压缩”这个被忽略的实用场景，并设计了逻辑自洽的模型，实验也充分证明了其在极低码率下吊打简单级联方案。然而，模型本质上仍是Transformer、RVQ和LSTM等成熟模块的“拼接乐”，缺乏更底层的方法论创新；且实验仅限于两人说话，面对更复杂的多人鸡尾酒会能否保持住这个“1 kbps”的优势，恐怕要打个问号。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开的Libri2Mix数据集，但未提及是否提供了处理后的版本或新的数据集。 Demo：提供了在线语音样本演示：https://redmist328.github.io/CodeSep/ 复现材料：论文给出了主要模型架构和超参数的大致描述，但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：论文主要依赖了MDCTCodec [19]，并引用了Sepformer [10]作为基线，ConvNeXt v2 [20]，AdamW [22]等公开方法/工具。 📌 核心摘要问题：本文针对一个实际但未被充分研究的场景——同时进行语音分离与语音压缩。在在线会议、对话归档等应用中，需要从混合语音中分离出说话人，并将其表示为紧凑的离散token以便高效传输或存储。 ...