10_Data Augmentation as Free Lunch: Exploring the Test-Time Augmentation for Sequential Recommendation

Posted Sep 21, 2025 Updated Sep 23, 2025

By hhhi21g

4 min read

来源：SIGIR‘25 https://arxiv.org/abs/2504.04843

代码：https://github.com/KingGugu/TTA4SR

现有的数据增强方法在模型训练过程中生成数据，使用他们需要重新训练、改动结构或引入额外的可学习参数；
- 启发式方法(heurisitc): 引入更差质量的数据，有时甚至干扰模型表现；
- 基于模型的数据增强方法(反事实增强，扩散模型，双向Transforer)：需要专门的数据增强模块。

由此引出，使用TTA则不需要重新训练或改变原始的模型结构

结论：

测试当现有数据增强方法被用于TTA的表现：
- Mask (额外引入无效信息，削弱最终推荐效果) (一般为第二好)和Substitute (选择相似item需要高的计算和时间花费) 最好；
- 它们能够在保留原始序列模式的同时引入正确的扰动：
  - Mask增强数据与原始数据相似度最高，Substitute第二高
使用大语言模型获得原始序列的关键交互部分，基于结果研究数据增强进行的位置的影响：
- 随机选择最好: 由于关键词只占一小部分，对于TTTA的恰当选择应该是，一小部分关键交互和一大部分非关键交互。

由此提出两个TTA方法：