UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

📄 UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating #扩散模型 #多模态模型 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.9/10 | 前25% | #扩散模型 | #多模态模型 | arxiv 👥 作者与机构 第一作者Jiehui Huang来自香港科技大学(†表示该工作在快手技术Kling团队实习期间完成),通讯作者Jiaya Jia同样来自香港科技大学。合作机构包括香港中文大学、清华大学、中山大学以及快手技术Kling团队。论文为作者列表提供了机构归属上标和脚注。 💡 毒舌点评 这篇论文在解决一个真实且重要的问题:如何在长序列中保持身份和场景的一致性。双存储器槽(LTM/STM)加边界感知门控的思路直观且有效,工程实现也颇为扎实,特别是发布的多文化基准测试集很有价值。然而,审稿人(也就是我)必须指出几点:第一,这篇工作的核心贡献(记忆驱动的视频生成)并非语音/音乐/音频领域的直接突破,其“音频”部分主要是一个固定的说话人锚点注入,缺乏对音频内容动态生成的深入建模,因此对纯音频读者的吸引力有限。第二,部分技术细节的阐述流于表面,例如门控函数的具体形式为何选择线性?Strata-RoPE的自动衰减效果有无可视化验证?这些关键设计选择缺乏令人信服的理论或实验支撑。第三,消融实验存在明显缺口,未能单独验证“边界条件门控”(尤其是音频信号融合)的必要性。最后,将Gemini-2.5-Pro作为唯一的“裁判”来评估所有多模态一致性指标,这种做法的鲁棒性和公平性值得怀疑。总体来说,这是一篇工程做得不错、想法也靠谱的音视频生成论文,但若想冲击顶级会议,还需要在技术深度的挖掘和评估方法的严谨性上再下功夫。 📌 核心摘要 UnityShots是一个基于双流扩散Transformer(LTX-2.3)的、由记忆驱动的多镜头音视频生成系统。其核心设计是引入了两个固定大小的视频记忆槽:一个长期记忆(LTM)槽锚定于初始镜头,用于保持全局身份一致;一个短期记忆(STM)槽保存前一镜头的尾帧,用于维持局部连续性。这两个记忆槽在每次镜头切换时,通过一个边界条件门控机制进行更新,该机制融合了视觉切割概率和音频节拍信号。音频方面,系统在每个镜头注入一个固定的参考说话人令牌以保持音色一致性,而非使用滑动的音频记忆窗口。论文还构建了一个包含200个序列、覆盖六大文化区域的多文化多镜头评估基准。实验表明,在I2V、T2V、R2V三种条件下,UnityShots在跨镜头一致性指标(如NC, Story, Char)上领先所有开源基线,并与强大的闭源系统Kling相当。 🔗 开源详情 代码:https://github.com/JIA-Lab-research/UnityShots (已提供) 模型权重:论文中未提供模型权重的直接下载链接。论文基于LTX-2.3模型进行构建。 数据集:论文中提及发布了一个包含200个多文化多镜头序列的评估基准测试集,但未在论文中提供具体下载链接。训练数据集(146,000个标注镜头)的构建流程在附录C中详细描述,但未提供独立的数据集下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 训练配置:详细的阶段2训练超参数列于附录A的表1中。 数据集构建流程:训练数据和基准测试集的构建流水线在附录C中详细描述。 推理伪代码:完整的内存更新和推理循环伪代码在附录F中提供(算法1和算法2)。 模型检查点:论文中提到会发布模型检查点,但未提供具体下载地址。 论文中引用的开源项目: LTX-2.3:核心基础模型。 TransNetv2:用于镜头分割和视觉剪切概率计算。 WhisperX:用于转录和说话人分割。 DEMUCS:用于音频源分离。 Qwen3-VL:用于初始的多模态标注。 Gemini3-Pro:用于细粒度叙述性字幕生成。 ElevenLabs eleven_multilingual_v2:用于生成基准测试集中的参考音频。 DeepSpeed:用于分布式训练优化。 DDIM:用于推理的去噪方法。 VBench, ViCLIP:用于文本-视频对齐评估。 DINOv2:用于计算镜头间相似度(TSIM)。 Audiobox:用于音频美学评估。 CLAP:用于音频-字幕相似度评估。 (注:上述项目均为论文中明确提及或使用的工具/模型,但论文文本中未提供它们的独立开源链接。) 🏗️ 方法概述和架构 UnityShots旨在生成内容连贯、身份一致的多镜头音视频序列。其整体架构基于预训练的22B参数双流扩散Transformer(LTX-2.3),该模型能够同时去噪视频和音频潜变量。系统的核心创新在于引入了显式的、结构化的跨镜头记忆机制,该机制主要由以下组件构成: ...

2026-06-26 · 更新于 2026-07-03 · 3 min · 508 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-03 · 12 min · 2421 words

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

📄 Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models #语音识别 #语音翻译 #参数高效微调 #多模态模型 #低资源 5.8/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #语音翻译 #多模态模型 | arxiv 👥 作者与机构 Tomoya Mizumoto, Yusuke Fujita, Hao Shi, Lianbo Liu, Atsushi Kojima, Yui Sudo. (作者所属机构未在提供的原文片段中明确提及) 💡 毒舌点评 这篇文章就像一个精心设计的“方言压力测试”。它思路清晰,实验控制得当,像个规规矩矩的优等生作业,把“SLM继承LLM能力”和“数据/微调有用”这两个直觉验证得漂漂亮亮。但问题在于,这个“压力测试”的跑道(翻译任务)太窄,沙坑(CPJD数据集)太小,连计时器(TTS标准语音)都可能不准。结果就是,你得到了一份关于“如何在特定小跑道上跑得更稳”的精致报告,但对于“方言问题到底有多复杂、在真实世界中如何解决”的宏大命题,贡献就比较有限了。它证明了一些常识,但缺乏让人“Wow”的突破或深刻的洞见。分数给高了对不起那些真正硬核的创新,给低了又委屈了它的严谨和工整,所以卡在中间。 ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 368 words

Joint Residual Reweighting for Classifier Free Guidance in Flow-Matching Zero-Shot TTS

📄 Joint Residual Reweighting for Classifier Free Guidance in Flow-Matching Zero-Shot TTS #语音合成 #语音增强 #生成对抗网络 #自监督学习 #生成模型 #多模态模型 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音增强 #自监督学习 | arxiv 👥 作者与机构 作者:Runwu Shi, Yujin Wang, Hongjin Song, Chunxiang Jin 机构:Institute of Science Tokyo, Wuhan University, Beijing Institute of Technology, Ant Group ...

2026-06-25 · 更新于 2026-07-03 · 3 min · 458 words

STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity

📄 STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity #语音翻译 #语音合成 #语音识别 #多模态模型 #大语言模型 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.8/10 | 前50% | #语音翻译 | #语音合成 | #语音识别 #多模态模型 | arxiv 👥 作者与机构 作者:Sitong Cheng, Weizhen Bian, Songjun Cao, Jin Li, Bei Liu, Chunyang Jiang, Yike Zhang, Weihao Wu, Yiming Li, Chi-Min Chan, Long Ma, Wei Xue 单位:香港科技大学,腾讯优图实验室,清华大学深圳国际研究生院 ...

2026-06-25 · 更新于 2026-07-03 · 3 min · 567 words

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

📄 Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models #语音合成 #语音识别 #多模态模型 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 1.5/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Wan Team, Alibaba Group 💡 毒舌点评 这篇工作野心很大,试图用一个模型解决实时交互的“全双工”问题。优点是系统集成度高,从感知到生成一气呵成。但作为一篇会议论文,它更像是一份优秀的工程报告,而非一篇算法或理论创新驱动的学术论文。最令人遗憾的是,几乎所有关键的技术细节都被“黑箱化”了:Transformer的具体结构?多模态token如何调度?流匹配解码器细节?统统没有。实验部分更是避重就轻,用大量篇幅和不规范的表格对比“延迟”,却对生成质量避而不谈。消融实验?不存在的。这就像一个厨师说他的新菜“又快又好吃”,但拒绝透露菜谱、食材和火候,只给你看了一个计时器。对于顶会论文而言,这种程度的细节披露严重不足,可复现性基本为零。作者提出的v0.1版和192p分辨率也暗示这更像一个技术演示而非成熟方案。 📌 核心摘要 Wan-Streamer是一个原生流式、端到端的实时交互基础模型,旨在实现低延迟、全双工的音视频交互。它在一个单一的Transformer中建模文本、音频和视频的输入与输出,无需依赖外部的ASR、TTS、动画或视频生成等级联模块。论文的核心贡献包括:1)提出了一种全因果的多模态架构,包括因果VAE、因果编解码器、块因果注意力以及全历史自回归流式处理;2)设计了“思想家-执行者”(thinker-performer)推理流水线,通过KV缓存交换实现理解与生成过程的重叠,实现了约200毫秒的模型端响应延迟和约550毫秒(含350ms网络延迟)的总交互延迟。论文强调,这种端到端设计使得感知、推理、生成、响应时机控制和轮次管理能在统一的模型中联合优化,从而减少流水线延迟和误差累积。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:https://wan-streamer.com/ 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 Wan-Streamer的设计核心是“流式性作为建模约束”,其整个技术栈均围绕因果性进行重构。 ...

2026-06-25 · 更新于 2026-07-03 · 1 min · 94 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-03 · 16 min · 3249 words

Audio--Image Alignment as a Continued-Pretraining Stage Improves Low-Resource ASR

📄 Audio–Image Alignment as a Continued-Pretraining Stage Improves Low-Resource ASR #语音识别 #自监督学习 #对比学习 #低资源 #多模态模型 6.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构 作者:Sujith Pulikodan, Nihar Desai, Prasanta Kumar Ghosh。 机构:论文中未明确说明作者所属机构。根据作者姓名和研究领域推测,可能来自印度的相关研究机构(例如印度科学研究所 IISc Bangalore)。 💡 毒舌点评 改进幅度的“相对性”:论文在FLEURS上的21.26%相对WER降低听起来很惊人,但这主要是因为基线模型在FLEURS(未见语言)上表现极差(WER 67.78%)。从绝对数值看,最佳模型将WER从0.68降到0.53,仍属于“不可用”到“勉强可读”的范畴。在资源更丰富的Vaani上,改进仅在1-2%之间,这种“蚊子腿”级别的增益在实际部署中几乎无感。 数据集依赖性过强:核心假设——易获取的音频-图像对——严重依赖于Vaani这个特定收集范式(图片提示说话)。在绝大多数真实低资源场景中,这种精心配对的多模态数据并不存在。方法泛化能力存疑。 成本转嫁而非消除:声称“无需转录”,但获取数十万小时高质量且配对的音频-图像数据,其成本真的远低于获取转录文本吗?Vaani数据集本身的收集就是一项巨大的工程。这更像是将一种稀缺资源(转录文本)的成本转嫁到了另一种稀缺资源(配对多模态数据)上。 消融不足:声称改进来自“对齐阶段”而非更多数据,但对比实验仅用了三个检查点的微小差异。更彻底的消融应包括:a) 使用相同音频但随机配对图像的模型;b) 使用相同音频但无图像(纯文本描述)的模型。现有证据链不够强。 工程细节模糊:虽然描述了架构,但关键超参数(如对齐阶段各组件的学习率缩放因子0.05的具体依据)未解释。三种对齐配置的对比更像是超参搜索,而非对不同模态交互机制的深度分析。 📌 核心摘要 本文针对低资源语音识别问题,提出了一种在自监督音频预训练和监督微调之间引入“音频-图像对齐”的中间适应阶段。该方法利用预先冻结的视觉编码器(如SigLIP2、Qwen3-VL)提取图像语义特征,通过对比学习(SigLIP损失)训练音频编码器,使其输出表示与图像特征对齐,全程无需转录文本。实验在Vaani(48种语言)和FLEURS(14种南亚语言)数据集上进行。结果表明,经过对齐的模型在两个基准上均优于直接微调的基线,尤其是在FLEURS这种更极端低资源场景下,最佳模型的词错误率(WER)实现了21.26%的相对下降,且统计检验显示该提升具有显著性。论文认为,此对齐阶段有效提升了音频表示的鲁棒性和泛化能力。 ...

2026-06-24 · 更新于 2026-07-03 · 3 min · 524 words

Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement

📄 Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement #扩散模型 #对比学习 #多模态模型 #语音增强 8.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #语音增强 | #对比学习 | #扩散模型 #多模态模型 | arxiv 👥 作者与机构 Colombe Mboungou, Mostafa Sadeghi, Jean-Eudes Ayilo, Romain Serizel Université de Lorraine, CNRS, Inria, Loria, Nancy, France 💡 毒舌点评 这篇论文做了一件相对简单但合理的“缝合”工作:在一个现有的扩散式无监督视听语音增强(AV-UDiffSE+/DiffUSEEN)框架上,增加了一个训练时的对比损失来强化视听对齐。想法直接,实验也显示了收益。但作者似乎对这项工作的定位过于乐观。它本质上是一个模块化改进,而非架构或范式上的突破。论文在讨论中声称“明确研究了跨模态对齐的作用”,但其实验主要展示了“增加对比损失能提升性能”,对于“为何现有交叉注意力机制不够”以及“对比损失具体如何改善表示空间”的深层机制探讨不足。将这样一个相对增量的工作发表在顶会,需要更强的洞察力和更全面的分析来支撑。 ...

2026-06-24 · 更新于 2026-07-03 · 2 min · 335 words

AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression

📄 AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression #多模态模型 #模型压缩 8.4/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.4/10 | 前25% | #多模态模型 | #模型压缩 | arxiv 👥 作者与机构 作者:Yijing Chen, Wenhui Tan, Xiaoyi Yu, Yuyue Wang, Xin Cheng, Kaisi Guan, Hao Jiang, Xiangyang Li, Guojie Zhu, Ruihua Song 机构:中国人民大学高瓴人工智能学院,华为技术有限公司 ...

2026-06-24 · 更新于 2026-07-03 · 3 min · 495 words