<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>风险控制 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E9%A3%8E%E9%99%A9%E6%8E%A7%E5%88%B6/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 02 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E9%A3%8E%E9%99%A9%E6%8E%A7%E5%88%B6/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Confident and Adaptive Generative Speech Recognition via Risk Control</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-confident-and-adaptive-generative-speech/</link>
      <pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-confident-and-adaptive-generative-speech/</guid>
      <description>&lt;h1 id=&#34;-confident-and-adaptive-generative-speech-recognition-via-risk-control&#34;&gt;📄 Confident and Adaptive Generative Speech Recognition via Risk Control&lt;/h1&gt;
&lt;p&gt;#语音识别 #风险控制 #大语言模型 #自适应&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.0/10&lt;/strong&gt; | 前50% | #语音识别 | #风险控制 | #大语言模型 #自适应&lt;/p&gt;
&lt;p&gt;学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Amit Damri (&lt;a href=&#34;mailto:amitdamti@mail.tau.ac.il&#34;&gt;amitdamti@mail.tau.ac.il&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;通讯作者：Bracha Laufer-Goldshtein (&lt;a href=&#34;mailto:blaufer@tauex.tau.ac.il&#34;&gt;blaufer@tauex.tau.ac.il&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;作者列表：Amit Damri（特拉维夫大学电气与计算机工程学院）、Bracha Laufer-Goldshtein（特拉维夫大学电气与计算机工程学院）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;亮点：这篇论文巧妙地将“学习-然后-测试”这一理论严谨的风险控制框架嫁接到语音识别后处理中，为“应该给LLM看几个假设”这个工程问题提供了有理论保证的解决方案，并在实验中实现了显著的计算节省（最高达52%）。短板：方法的理论根基扎实，但核心创新更偏向于一项应用良好的工程整合，对于追求全新模型架构或根本性算法突破的读者来说，可能会觉得“不过如此”；此外，框架的有效性高度依赖于ASR置信度分数的质量，论文对此讨论略显不足。&lt;/p&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码：提供代码仓库链接：&lt;code&gt;https://github.com/amitdamritau/adaptive-ger&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;模型权重：论文中未提及是否公开微调后的LLM权重。&lt;/li&gt;
&lt;li&gt;数据集：实验使用了公开的基准数据集（TedLium-3, CHiME-4, CommonVoice, FLEURS），但论文中未说明是否提供经过处理的数据或专门的下载脚本。&lt;/li&gt;
&lt;li&gt;Demo：未提供在线演示。&lt;/li&gt;
&lt;li&gt;复现材料：提供了非常详细的训练配置（超参数、优化器、学习率调度、硬件、训练时长）、风险校准流程细节（算法1）以及大量消融研究的设置和结果，复现材料充分。&lt;/li&gt;
&lt;li&gt;论文中引用的开源项目：
&lt;ul&gt;
&lt;li&gt;Whisper（用于ASR）&lt;/li&gt;
&lt;li&gt;LLaMA-2（作为LLM基础）&lt;/li&gt;
&lt;li&gt;PEFT/LoRA（用于参数高效微调）&lt;/li&gt;
&lt;li&gt;Hugging Face Transformers相关库（推断，用于模型实现）&lt;/li&gt;
&lt;li&gt;evaluate2库（用于语料级WER计算）&lt;/li&gt;
&lt;li&gt;HyPoradise、RobustGER等基准框架（用于数据和实验设置）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;p&gt;这篇论文针对基于大语言模型的语音识别生成式错误纠正（GER）方法中，固定使用N-best假设集导致的计算资源浪费和性能不保证的问题，提出了一个自适应框架。该框架利用ASR模型的置信度分数，通过设定阈值动态决定每个输入音频所需的最优假设数量，并采用“学习-然后-测试”（LTT）风险控制方法来校准该阈值，从而以高概率保证纠正后的词错率（WER）相对于该模型在该假设集上的最佳可能性能的退化不超过预设水平。与已有固定大小的方法相比，本文的创新在于首次将风险控制理论引入GER任务，实现了难度感知的资源分配和理论性能保证。在三个不同难度的基准数据集（TedLium-3， CHiME-4， CommonVoice）上的实验表明，该方法在保持或略微提升纠正性能（WER变化在-0.13%到+2.28%相对值内）的同时，平均假设集使用量减少了23%至52%，实现了显著的计算节省，且实证风险控制成功率均超过理论最小值（1-δ）。其实际意义在于为ASR后处理提供了可量化风险、高效率的部署方案。主要局限性在于框架参数（如归一化参数γ）的选择需要基于数据集特性的预先分析，且其理论保证依赖于风险函数的有界性和一定条件下的单调性假设。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-confident-and-adaptive-generative-speech-recognition-via-risk-control">📄 Confident and Adaptive Generative Speech Recognition via Risk Control</h1>
<p>#语音识别 #风险控制 #大语言模型 #自适应</p>
<p>🔥 <strong>8.0/10</strong> | 前50% | #语音识别 | #风险控制 | #大语言模型 #自适应</p>
<p>学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Amit Damri (<a href="mailto:amitdamti@mail.tau.ac.il">amitdamti@mail.tau.ac.il</a>)</li>
<li>通讯作者：Bracha Laufer-Goldshtein (<a href="mailto:blaufer@tauex.tau.ac.il">blaufer@tauex.tau.ac.il</a>)</li>
<li>作者列表：Amit Damri（特拉维夫大学电气与计算机工程学院）、Bracha Laufer-Goldshtein（特拉维夫大学电气与计算机工程学院）</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>亮点：这篇论文巧妙地将“学习-然后-测试”这一理论严谨的风险控制框架嫁接到语音识别后处理中，为“应该给LLM看几个假设”这个工程问题提供了有理论保证的解决方案，并在实验中实现了显著的计算节省（最高达52%）。短板：方法的理论根基扎实，但核心创新更偏向于一项应用良好的工程整合，对于追求全新模型架构或根本性算法突破的读者来说，可能会觉得“不过如此”；此外，框架的有效性高度依赖于ASR置信度分数的质量，论文对此讨论略显不足。</p>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：提供代码仓库链接：<code>https://github.com/amitdamritau/adaptive-ger</code></li>
<li>模型权重：论文中未提及是否公开微调后的LLM权重。</li>
<li>数据集：实验使用了公开的基准数据集（TedLium-3, CHiME-4, CommonVoice, FLEURS），但论文中未说明是否提供经过处理的数据或专门的下载脚本。</li>
<li>Demo：未提供在线演示。</li>
<li>复现材料：提供了非常详细的训练配置（超参数、优化器、学习率调度、硬件、训练时长）、风险校准流程细节（算法1）以及大量消融研究的设置和结果，复现材料充分。</li>
<li>论文中引用的开源项目：
<ul>
<li>Whisper（用于ASR）</li>
<li>LLaMA-2（作为LLM基础）</li>
<li>PEFT/LoRA（用于参数高效微调）</li>
<li>Hugging Face Transformers相关库（推断，用于模型实现）</li>
<li>evaluate2库（用于语料级WER计算）</li>
<li>HyPoradise、RobustGER等基准框架（用于数据和实验设置）</li>
</ul>
</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<p>这篇论文针对基于大语言模型的语音识别生成式错误纠正（GER）方法中，固定使用N-best假设集导致的计算资源浪费和性能不保证的问题，提出了一个自适应框架。该框架利用ASR模型的置信度分数，通过设定阈值动态决定每个输入音频所需的最优假设数量，并采用“学习-然后-测试”（LTT）风险控制方法来校准该阈值，从而以高概率保证纠正后的词错率（WER）相对于该模型在该假设集上的最佳可能性能的退化不超过预设水平。与已有固定大小的方法相比，本文的创新在于首次将风险控制理论引入GER任务，实现了难度感知的资源分配和理论性能保证。在三个不同难度的基准数据集（TedLium-3， CHiME-4， CommonVoice）上的实验表明，该方法在保持或略微提升纠正性能（WER变化在-0.13%到+2.28%相对值内）的同时，平均假设集使用量减少了23%至52%，实现了显著的计算节省，且实证风险控制成功率均超过理论最小值（1-δ）。其实际意义在于为ASR后处理提供了可量化风险、高效率的部署方案。主要局限性在于框架参数（如归一化参数γ）的选择需要基于数据集特性的预先分析，且其理论保证依赖于风险函数的有界性和一定条件下的单调性假设。</p>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>本文提出的是一个框架，而非单一的神经网络模型。其核心流程是在现有GER流程中插入一个自适应假设集选择模块。</p>
<p>整体架构如图1(b)所示，与固定N的流程对比：</p>
<ol>
<li>标准GER流程：输入音频 → ASR模型生成固定大小N=5的N-best假设集 → LLM（微调后的LLaMA-2）生成纠正转录。</li>
<li>本文自适应GER流程：
<ul>
<li>输入：音频信号<code>x</code>。</li>
<li>ASR假设生成：使用Whisper模型通过波束搜索生成排名后的N-best假设列表<code>HN</code>及其对数似然分数<code>c</code>。</li>
<li>自适应假设集选择（核心模块）：
<ul>
<li>首先，对原始对数似然分数<code>c</code>进行变换<code>ϕγ(c)</code>和温度缩放<code>τ</code>，得到归一化分数<code>s</code>（公式10）。<code>ϕγ</code>是一个插值函数（公式11），通过参数<code>γ</code>在恒等变换和倒数变换之间平滑切换，以适应不同数据集的分数分布特性。</li>
<li>然后，将分数转换为累积和，并与一个从校准集中选出的阈值<code>λ</code>进行比较。动态假设集<code>Γλ(HN)</code>由累积分数首次达到或超过<code>λ</code>的假设数量<code>n</code>决定（公式5-6）。
LLM生成：将筛选出的、大小可变的假设集输入到LLM（<code>MH2T</code>）中，生成最终纠正转录<code>ŷ</code>。</li>
</ul>
</li>
<li>阈值校准：阈值<code>λ</code>并非固定，而是在一个校准集上通过LTT程序（算法1）离线确定，以满足给定的风险水平<code>α</code>和错误率<code>δ</code>。</li>
</ul>
</li>
</ol>
<p><img alt="方法示意图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/ck5T7QeiDh-0.png">
图1(b)：标准GER（固定5个假设）与本文自适应GER（动态选择变长假设集并用风险控制约束性能退化）的对比示意图。</p>
<p><img alt="性能计算权衡曲线" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/ck5T7QeiDh-1.png">
图2：三个数据集上的性能-计算权衡曲线。曲线表示使用固定大小假设集（N=1至5）的WER性能。虚线为Oracle性能（每个样本单独选择最优大小的WER）。彩色标记点代表本文自适应方法在不同<code>α</code>值下的工作点，展示了其在WER和平均假设集大小上相比固定基线的更优权衡。</p>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>自适应假设集选择框架：提出了一种基于ASR置信度分数的自适应机制，动态决定传递给LLM的假设数量，替代了传统的固定大小策略。这实现了“难度感知”的资源分配，对简单输入用小集，对复杂输入用大集。</li>
<li>将风险控制（LTT）应用于GER：首次将“学习-然后-测试”（LTT）这一分布无关的风险控制框架引入生成式语音识别错误纠正任务。这提供了关键的理论突破，能够以高概率保证纠正性能相对于模型最佳表现的退化受到控制（公式9），填补了该领域缺乏性能保证的空白。</li>
<li>相对性能退化的损失函数设计：定义了以“相对词错率退化”为核心的损失函数（公式8），即当前选择假设集的WER与该样本在固定大小集上能达到的最佳WER之差。这个设计避免了设定绝对WER目标的难度，且其损失特性更适合风险控制框架的应用。</li>
<li>兼顾效率与保证的实证验证：通过大量实验（包括跨数据集、不同LLM规模、零样本设置及跨任务扩展到语音翻译），系统性地证明了该框架能在大幅减少计算量（平均假设集大小降低23-52%）的同时，维持甚至提升性能，并且实证风险控制成功率始终超过理论保证水平。</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>GER模型训练：使用HyPoradise基准数据集。TedLium-3（50k语句，35.5k训练/验证）、CHiME-4（9.6k训练语句用于训练/验证）、CommonVoice（50k样本，35k用于训练/验证）。预处理包括去除重复语句。</li>
<li>风险控制校准：从上述数据集的测试集中划分出一部分（30-50%）作为校准集，用于训练LTT程序。</li>
</ul>
</li>
<li>损失函数：核心是相对WER退化损失<code>ℓ</code>（公式8），定义为使用动态假设集的WER减去该样本在N=1到N=5所有固定大小假设集下能达到的最小WER。该损失在实验中被裁剪（clipped）在<code>B=1.25</code>以满足理论有界性要求。</li>
<li>训练策略：
<ul>
<li>GER模型：使用LoRA对LLaMA-2-7B进行微调。优化器：AdamW。有效批大小：32（批大小8 + 4步梯度累积）。学习率调度：余弦退火，预热比例0.05。LoRA参数：秩r=16，缩放α=32。训练轮数：5-10轮，取决于数据集大小。学习率范围：5e-5到1e-4。</li>
<li>LTT校准：离线进行。在校准集上，对参数网格<code>Λ</code>中的每个阈值<code>λ</code>计算经验风险，使用Hoeffding-Bentkus不等式计算p值，并通过固定序列检验（FST）控制族错误率，以确定满足风险约束<code>α</code>的阈值<code>λ</code>。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li><code>γ</code>：分数归一化插值参数（0到1），根据数据集信噪比（SNR）特性预设（TedLium-3: 1.0， CHiME-4: 0.5， CommonVoice: 0.0）。</li>
<li><code>τ</code>：温度参数，用于缩放归一化分数（TedLium-3: 0.05， CHiME-4: 1.0， CommonVoice: 1.0）。</li>
<li><code>α</code>：目标风险水平，即允许的预期相对WER退化上限。在各数据集的可行范围内选取。</li>
<li><code>δ</code>：LTT框架的错误率参数，根据校准集大小设置（论文中报告为0.10或0.25）。</li>
<li><code>β</code>：重复假设惩罚因子，设为1.25。</li>
</ul>
</li>
<li>训练硬件：模型训练在单块NVIDIA RTX 6000 Ada GPU（48GB显存）上进行。训练时间：CHiME-4约1小时，TedLium-3和CommonVoice各约3-4小时。</li>
<li>推理细节：ASR解码使用波束搜索（Whisper-base波束宽度60， Whisper-large-v2波束宽度50），取top-5。LTT校准和假设集选择是推理预处理的一部分。LLM生成采用标准自回归方式。</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<p>主要基准结果（LLaMA-2-7B微调）：</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">测试集</th>
          <th style="text-align: left">基准 (Whisper top-1)</th>
          <th style="text-align: left">GER (固定N=5)</th>
          <th style="text-align: left">本文方法 (LTT)</th>
          <th style="text-align: left">α(%)</th>
          <th style="text-align: left">δ</th>
          <th style="text-align: left">成功率</th>
          <th style="text-align: left">Oracle</th>
          <th style="text-align: left">平均集大小</th>
          <th style="text-align: left">WER相对变化</th>
          <th style="text-align: left">集大小减少</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">TedLium-3</td>
          <td style="text-align: left">9.3</td>
          <td style="text-align: left">7.53</td>
          <td style="text-align: left">2.48</td>
          <td style="text-align: left">2.48</td>
          <td style="text-align: left">0.10</td>
          <td style="text-align: left">0.94</td>
          <td style="text-align: left">5.58</td>
          <td style="text-align: left">2.3</td>
          <td style="text-align: left">-0.13%</td>
          <td style="text-align: left">-50.08%</td>
      </tr>
      <tr>
          <td style="text-align: left">CHiME-4</td>
          <td style="text-align: left">11.49</td>
          <td style="text-align: left">6.24</td>
          <td style="text-align: left">3.866</td>
          <td style="text-align: left">3.866</td>
          <td style="text-align: left">0.25</td>
          <td style="text-align: left">0.98</td>
          <td style="text-align: left">4.71</td>
          <td style="text-align: left">2.7</td>
          <td style="text-align: left">+2.06%</td>
          <td style="text-align: left">-22.68%</td>
      </tr>
      <tr>
          <td style="text-align: left">CommonVoice</td>
          <td style="text-align: left">12.44</td>
          <td style="text-align: left">8.32</td>
          <td style="text-align: left">3.29</td>
          <td style="text-align: left">3.29</td>
          <td style="text-align: left">0.10</td>
          <td style="text-align: left">0.92</td>
          <td style="text-align: left">6.96</td>
          <td style="text-align: left">1.9</td>
          <td style="text-align: left">+2.28%</td>
          <td style="text-align: left">-34.2%</td>
      </tr>
  </tbody>
</table>
<p>注：WER列为实例平均WER。相对变化和减少率是与固定N=5的GER结果相比。</p>
<p>关键发现：</p>
<ol>
<li>在计算节省方面：所有数据集上，平均假设集大小显著减小，TedLium-3节省50%，CommonVoice节省34%，CHiME-4节省23%。</li>
<li>在性能方面：在TedLium-3上，WER略有下降（性能提升0.13%）；在CHiME-4和CommonVoice上，WER有小幅上升（性能损失约2%），但仍在Oracle性能范围内。</li>
<li>在风险控制方面：实证成功率（0.92-0.98）均高于理论下限<code>1-δ</code>（0.90或0.75），验证了理论保证。</li>
</ol>
<p>消融与扩展实验：</p>
<ol>
<li>更大模型：在LLaMA-2-13B上，趋势一致。例如，在TedLium-3上实现了51.9%的计算节省，WER几乎不变（-0.01%）。</li>
<li>零样本设置：使用GPT-3.5-turbo，仍能实现42-56%的假设集大小减少，WER仅增加0.67-1.17%。</li>
<li>跨任务扩展：应用到语音翻译任务（FLEURS数据集），使用TER作为实例级损失，BLEU作为最终指标。结果显示，可实现36-66%的假设减少，同时保持甚至提升BLEU分数。</li>
<li>CRC实现：作为对比，使用符合风险控制（CRC）实现也获得了类似的实证性能，但缺乏严格理论保证。</li>
<li>多参数优化：使用Pareto Testing联合优化<code>(γ, τ, λ)</code>，发现了比手动参数选择更优的性能-效率权衡曲线。</li>
</ol>
<p>图示结果：
<img alt="性能-计算权衡曲线" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/ck5T7QeiDh-1.png">
图2（重复）：清晰展示了自适应方法的工作点（彩色点）相对于固定集大小曲线（蓝线）在WER-集大小权衡上的优势，即更靠近左下角。</p>
<p><img alt="代表性案例分析" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/ck5T7QeiDh-2.png">
表2（图）：通过三个具体案例，说明了分数分布如何影响最优假设集大小。案例1（全集必需）分数密集，需要全部5个假设才能达到0% WER。案例2（单假设最优）分数区分度高，仅需第1个假设即可达到0% WER，更多假设会引入噪声。案例3（性能平台）分数密集但WER已稳定，自适应方法可通过选择较小集合节省计算而不损失性能。</p>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：6.0/7
<ul>
<li>创新性：将LTT风险控制框架引入GER任务是明确且有价值的创新点，为解决该领域长期存在的计算效率和性能保证问题提供了新思路。</li>
<li>技术正确性：方法论构建扎实，从损失函数设计（公式8）到算法实现（算法1），再到理论保证的讨论（有界性、单调性）都非常清晰和严谨。</li>
<li>实验充分性：实验非常充分。包括跨三个不同难度的数据集、使用不同规模和类型的LLM（微调LLaMA-2 7B/13B、零样本GPT-3.5）、扩展到语音翻译任务、以及多项消融研究（替代目标函数、训练集大小分析、CRC对比、多参数优化）。结果多维度呈现了方法的效力。</li>
<li>证据可信度：提供了多次独立运行（T=30）的平均结果，并报告了风险控制的成功率，这直接验证了核心理论承诺。实验设置和基线选择（如Oracle性能）合理。</li>
</ul>
</li>
<li>选题价值：1.5/2
<ul>
<li>前沿性：结合LLM与ASR后处理是当前热点，但本文更深入一层，关注该流程内部的效率优化与可靠性，切中实际部署痛点。</li>
<li>潜在影响：对于构建高效、可靠的LLM增强ASR系统有直接指导意义，所提出的框架是即插即用的，易于集成到现有系统。</li>
<li>应用空间：主要应用于需要高准确率和可靠性的语音识别场景，如会议记录、医疗听写、法律转录等。</li>
<li>读者相关性：对于从事ASR、语音处理、以及LLM应用开发的研究者和工程师有较高参考价值。</li>
</ul>
</li>
<li>开源与复现加成：0.5/1
<ul>
<li>论文明确提供了代码仓库链接（<code>https://github.com/amitdamritau/adaptive-ger</code>）。</li>
<li>详细描述了LLM的训练超参数、模板、硬件环境（RTX 6000 Ada GPU）。</li>
<li>提供了关键的校准参数选择策略（基于SNR和熵的启发式规则）和消融实验的补充材料。</li>
<li>未提及是否公开预训练模型权重或原始数据集的获取方式（但数据集本身多为公开基准）。整体复现指引清晰，加成较高。</li>
</ul>
</li>
</ul>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>语音识别</category>
      <category>风险控制</category>
      <category>大语言模型</category>
      <category>自适应</category>
    </item>
  </channel>
</rss>
