Skip to content

基于细颗粒度注意力,层次 Transformer 在表格时序的应用

作者:老余捞鱼

原创不易,转载请标明出处及原作者。

写在前面的话:本文介绍了表格时间序列数据在多个实际应用中的重要性,并提出了一种名为 Fieldy 的新型细粒度层次化模型,该模型通过在行和列级别上对字段进行上下文化,以捕捉字段间的复杂关系。通过与现有最先进模型在回归和分类任务上的比较,展示了 Fieldy 在性能上的提升。

1. 引言 (Introduction)

顺序表格数据在工业中应用广泛,如银行数据库中的金融交易记录、医院存储的医疗记录或 CRM 系统中的客户购买历史。表格时间序列数据与传统多变量时间序列数据存在不同之处,特别是表格时间序列数据中记录跨越多行且包含时间相关字段。此外,文章还涉及了变换器架构在表格数据处理中的应用,以及这些架构如何通过注意力机制学习时间步骤之间的关系模式,从而在表格数据建模中提取有意义的模式。

2. 相关工作 (Related Work)

文章首先关注标准表格数据的深度学习方法,然后转向表格时间序列的特殊案例。以表格1为例,展示了如何将表格时间序列视为具有时间依赖性的记录集合,这些记录可以被机器学习模型作为输入。

文章中提到了变换器模型在表格时间序列建模中的应用。FT-Transformer 模型通过计算行内字段间的注意力来对每行进行编码。Tabbie 模型则通过平均行和列的表示来编码每个表格字段,形成上下文化的字段表示。TabBERT 模型采用两阶段变换器架构,首先分别编码行或列,然后处理这些编码来生成整个表格时间序列的表示。

FT-Transformer 模型是单阶段架构,设计用于传统表格数据。它通过计算单个行内所有字段间的注意力来捕获字段间的关系。Tabbie 模型也是单阶段架构,但它通过行和列的上下文来编码每个字段,然后通过最终的全连接层处理每行。TabBERT 模型是两阶段架构,可以是行基或列基,分别在第一阶段编码行或列,然后在第二阶段处理编码后的行或列以生成整个序列的表示。

文章还指出了现有层次化方法的局限性,即它们无法同时捕获行和列的维度信息。Fieldy 模型通过在第一阶段结合行和列变换器来学习字段表示,旨在解决这一问题。Fieldy 模型在第二阶段通过最终变换器处理整个表格时间序列,以捕获跨行和列的字段间关系。

此外,文章还讨论了如何将 Fieldy 模型与现有文献中的行基和列基层次化变换器进行比较,以及如何通过引入位置嵌入来编码表格结构,以便在模型中保留行和列的顺序信息。这些位置嵌入对于 Fieldy 模型尤为重要,因为它不像行基或列基模型那样默认包含表格结构。


3. 方法论 (Methodology)

本章深入探讨了现有表格时间序列建模方法的局限性,并提出了一种新的层次化方法,即 Fieldy 模型,以解决这些限制。

首先,分析了现有层次化模型,如 FT-Transformer 和 Tabbie,以及它们在处理表格时间序列时的不足。FT-Transformer 通过将输入序列展平为一行,然后计算所有字段间的注意力,忽略了表格结构。Tabbie 则通过行和列的上下文来编码每个字段,但缺乏第二阶段来关联所有字段。

Fieldy 模型采用两阶段架构。在第一阶段,使用两个并行的 Field 变换器,一个负责按行上下文化每个字段,另一个负责按列上下文化每个字段。这样,可以同时捕获行内和列内的交互。编码后的行和列被连接起来,形成字段表示,然后通过一个全连接层,为第二阶段生成丰富的表示。

第二阶段的最终变换器处理所有字段表示,以生成整个表格时间序列的最终编码。这样,Fieldy 能够在不同行和列之间捕获细粒度的字段关系。

为了使 Fieldy 模型能够理解表格结构,引入了行位置和列索引的位置嵌入。在将上下文化的字段传递给最终变换器之前,将这些位置嵌入添加到每个字段中。这使得最终变换器能够了解每个字段在原始行和列中的位置。

此外,为了确保与其他模型的公平比较,还在所有其他模型中引入了行位置和列索引嵌入。通过这种方式,Fieldy 模型能够在不增加模型大小的情况下,通过细粒度的注意力机制捕获跨行和列的字段关系。

最后,第3章还讨论了 Fieldy 模型相对于其他层次化模型的计算复杂性。虽然 Fieldy 模型在训练和推理时需要更多的计算资源,但可以通过采用近线性时间注意力技术来提高效率。

4. 评估 (Evaluation)

本章聚焦于对提出的 Fieldy 模型及其他变换器架构在表格时间序列数据上的性能评估。

4.1 数据集 (Datasets)

  • 污染数据集 (Pollution): 用于回归任务,基于北京的空气污染数据,预测基于小时级测量的 PM2.5 和 PM10 浓度。数据集包括温度、压力等10个特征,经过量化处理,并添加了测量站点名称、小时、日期等额外特征。
  • 贷款违约数据集 (Loan default): 用于分类任务,包含捷克银行的交易记录,目标是预测客户是否会违约。数据集经过预处理,包括特征量化和时间戳分割,并引入了工作日特征。

4.2 模型 (Models)

  • 架构 (Architectures): 比较了三种层次化变换器模型:基于行的 TabBERT、基于列的 TabBERT 和提出的 Fieldy 模型。为了公平比较,所有模型的参数数量保持一致,Fieldy 模型通过减少其第一阶段的层数来匹配参数量。
  • 基线模型 (Baselines): 包括单阶段的 FT-Transformer 和 Tabbie,以及传统的机器学习模型 XGBoost 和线性模型,作为深度学习模型的对比。
  • 比较性 (Comparability):实现了统一的预训练和微调策略,使用了一个简单的字段掩蔽预训练任务,并在微调阶段采用了标准技术,确保所有模型在相同条件下进行评估。

4.3 结果 (Results)

  • 在污染数据集上,Fieldy 模型显著降低了均方根误差(RMSE),显示出其方法的有效性。
  • 在贷款违约预测任务上,虽然性能提升不明显,但所有变换器模型均优于传统基线模型。


4.4 消融研究 (Ablation Study)

  • 分析了模型不同阶段的容量分配对性能的影响,发现当第一阶段(字段变换器)具有更多容量时,模型性能更佳。
  • 探讨了位置嵌入对模型性能的影响,发现对于大多数模型来说,明确提供表格结构信息(如行位置和列索引)是有益的。


5. 结论和讨论 (Conclusion and Discussion)

本文指出 Fieldy 模型在表格时间序列任务中通过细粒度的注意力机制捕获跨行和列的字段关系,从而实现了性能上的提升。同时,章节提出了未来工作的方向,包括考虑计算成本、在更多样化的数据集上评估模型以及探索与传统时间序列预处理技术结合的可能性,为后续研究提供了新的思路和改进空间。


文内容仅仅是技术探讨和学习,并不构成任何投资建议。

转发请注明原作者和出处。

Published inAI&Invest专栏

Be First to Comment

    发表回复