Skip to content

大语言模型用于金融领域时间序列预测,真的有效吗?

作者:老余捞鱼

原创不易,转载请标明出处及原作者。

写在前面的话:本文主要探讨了大型语言模型(LLMs)在时间序列预测任务中的有效性,其对大语言模型在时间序列预测中的有效性提出了质疑,并且针对当下最为先进的OneFitsAll、Time-LLM、LLaTA这3个基于大语言模型的时间序列预测模型展开了实验,结果发现,将大语言模型的部分替换成一个 attention 网络,竟然能够获得相同甚至更为出色的效果。

一、摘要与引言 (Abstract & Introduction)

1.1 摘要

摘要部分提出了对大型语言模型(LLMs)在时间序列预测任务中有效性的质疑。通过一系列消融研究,作者发现在流行的基于LLM的时间序列预测方法中,移除或替换LLM组件不仅不会降低预测性能,而且在多数情况下还能提高结果。此外,尽管计算成本显著,预训练的LLMs并没有比从头开始训练的模型表现得更好,也没有展现出对时间序列数据中序列依赖性的表示能力,且在少量样本的学习场景中也没有提供帮助。研究还探索了时间序列编码器,并发现使用拼接和注意力结构的简单模型能够达到与LLMs相似的预测性能。这些发现揭示了当前时间序列预测文献中令人担忧的趋势,并指出了现有方法在利用预训练语言模型的固有推理能力方面所存在的不足。

1.2 引言

本章强调了时间序列分析在多个关键领域如疾病传播、零售销售、医疗保健和金融预测中的重要性,并指出了近期研究中将预训练的大型语言模型(LLMs)应用于时间序列分类、预测和异常检测的趋势。

作者质疑这些通常在文本中表现出色的语言模型是否能够泛化到时间序列数据的序列依赖性上,并探讨了这些模型在传统时间序列任务中的实际益处,提出了本文研究的主要问题:即这些流行的适应语言模型于时间序列预测的方法是否真的比基本的模型改进更有益处,尤其是在计算成本显著增加的情况下。

二、相关工作 (Related Work)

  1. 时间序列预测使用大型语言模型(LLMs):这部分讨论了近期的研究进展,其中研究人员成功地将大型语言模型应用于时间序列预测任务。这些研究利用了LLMs在多模态能力上的优势,例如通过微调(fine-tuning)和位置编码对齐来适应时间序列数据。
  2. LLM时间序列模型中的编码器:这里讨论了时间序列模型中用于从文本中学习的方法,即首先需要将文本离散化并编码为词向量。类似地,基于LLM的方法学习时间序列的离散令牌,包括将时间序列分割成重叠的块,以及使用基于趋势、季节性和残差成分的分解方法。
  3. 小型高效的神经模型:除了LLMs,还有大量研究集中在小型但高效的框架上,这些框架在时间序列预测方面的表现超过了笨重的对应模型。例如,一些简单的模型结合了解构图技术和分解技术,展现出比当时最先进的基于Transformer的时间序列架构更好的预测性能。

三、实验设置 (Experimental Setup)

本章详细介绍了作者们为了评估大型语言模型(LLMs)在时间序列预测任务中的有效性所采用的方法、数据集、消融技术以及评估指标。

3.1 参考方法和数据集

参考方法

作者们选择了三种最新的、流行的基于LLM的时间序列预测方法,这些方法在GitHub上的总星数超过了1200。这些方法包括:

  • OneFitsAll:使用实例归一化和分块技术处理输入时间序列,并通过线性层获得输入表示,用于语言模型。
  • Time-LLM:通过分块和多头注意力将输入时间序列与低维词嵌入表示对齐,然后传递给冻结的预训练语言模型。
  • LLaTA:将输入时间序列的每个通道视为一个Token,并使用交叉注意力将时间序列表示与语言模型的词嵌入表示对齐。

每种方法都使用了不同的基础模型,如GPT-2或LLaMA,并采用了不同的对齐和微调策略。

数据集

作者们使用了八个标准基准数据集和另外五个MONASH数据集来评估这些方法。这些数据集涵盖了不同的领域,包括电力变压器、流感疾病、气候、交通、电力消耗、汇率、COVID-19死亡、出租车出行和ATM取款等。数据集的选择反映了时间序列预测在多个实际应用领域的重要性。

3.2 消融方法

为了隔离LLM在基于LLM的预测器中的影响,作者们提出了三种消融方法,这些方法通过移除或替换LLM组件来评估其在时间序列预测中的作用:

  1. w/o LLM:完全移除语言模型组件,直接将输入标记传递到最终层。
  2. LLM2Attn:用单个随机初始化的多头注意力层替换语言模型。
  3. LLM2Trsf:用单个随机初始化的Transformer块替换语言模型。

这些消融方法允许作者们评估LLM组件对于整体预测性能的贡献,并比较其与更简单的模型组件的性能差异。

3.3 评估指标和实验条件

评估指标

作者们使用平均绝对误差(MAE)和均方误差(MSE)作为评估指标,这两种指标都是衡量预测值与真实值之间差异的常用方法。

实验条件

为了确保实验的可复现性和公平性,作者们尽可能地复制了原始论文中的实验条件,包括使用原始的超参数、运行环境和代码。这包括模型架构、训练循环和数据加载器等。

四、结果 (Results)

本章提供了对大型语言模型(LLMs)在时间序列预测任务上性能的全面评估。实验结果表明,尽管LLMs在时间序列预测中受到广泛关注,但它们并没有显著提高预测性能,而且在计算成本上远高于更简单的模型。这些发现提示研究社区应该更加关注LLMs在时间序列和语言接口上可能解锁的更激动人心的任务,而不是在传统的时间序列预测任务上。

4.1 预训练语言模型对预测性能的贡献(RQ1)

作者首先探讨了预训练语言模型是否对时间序列预测任务有实质性的贡献。通过对三种基于LLM的方法(Time-LLM、LLaTA、OneFitsAll)在八个数据集上进行消融研究,结果显示,在26个案例中,消融方法在所有情况下都优于或等于原始的LLM方法。具体来说,消融方法在35/40、31/40和29/40的情况下分别优于Time-LLM、LLaTA和OneFitsAll,这是通过平均绝对误差(MAE)来衡量的。此外,作者还报告了每个方法原始论文中的结果,以便进行公平比较,并提供了95%的自举置信区间来评估LLMs和消融方法的有效性。

4.2 LLM方法的计算成本(RQ2)

在确认LLMs在预测性能上并没有显著优势后,作者进一步评估了这些方法的计算成本。与消融方法相比,LLM方法在训练和推理上需要更多的计算资源。例如,Time-LLM在Weather数据集上的训练时间超过3000分钟,而消融方法平均只需2.17分钟。在推理时间上,LLM方法比修改后的模型平均慢2.3到12倍。这些结果表明,LLMs在时间序列预测任务中的计算密集度并没有带来相应的性能提升。

4.3 语言模型预训练对预测任务的帮助(RQ3)

作者评估了语言模型预训练对时间序列预测性能的影响。通过在不同的预训练和微调组合下测试LLaTA模型,作者发现使用预训练模型(Pre+FT)在8个数据集上仅3次表现最佳,而随机初始化并从头开始训练(woPre+FT)则8次表现最佳。这表明预训练的语言知识对时间序列预测的帮助非常有限。

4.4 LLMs是否表示时间序列中的序列依赖性(RQ4)

为了评估LLMs是否能够表示时间序列中的序列依赖性,作者对输入时间序列进行了三种类型的洗牌处理,包括随机洗牌整个序列、仅洗牌序列的前半部分以及交换序列的前后半部分。结果显示,基于LLM的方法与它们的消融版本在输入洗牌后的性能下降没有显著差异,这意味着LLMs并没有独特的能力来表示时间序列中的序列依赖性。

4.5 LLMs是否有助于少量学习(RQ5)

作者探讨了LLMs在少量学习场景中的作用,即在数据稀缺的情况下。通过在每个数据集的10%子集上训练模型及其消融版本,结果表明LLMs在少量学习场景中并没有提供有意义的帮助。特别是在使用LLaMA的Time-LLM方法中,与完全移除LLM(w/o LLM)相比,两者在性能上没有显著差异。

4.6 性能来源(RQ6)

最后,作者评估了LLM时间序列模型中常用的编码技术,发现结合分块和一层注意力的简单结构(称为“PAttn”)在小数据集上的表现优于大多数其他编码方法,并且与LLM方法相当。对于更大的数据集,使用基本Transformer块的单层线性模型(称为“LTrsf”)在编码上表现更好。

五、结论 (Conclusion)

尽管大型语言模型(LLMs)在时间序列预测任务中受到了广泛关注,但实验结果表明它们并没有显著提升预测性能,反而带来了更高的计算成本。作者通过消融实验发现,简单的模型组件,如注意力层或Transformer块,可以与LLMs相媲美甚至更优,同时大幅减少了训练和推理的时间。此外,预训练的LLMs在时间序列预测中并未展示出对序列依赖性的特别表示能力,也未能在少量样本学习场景中提供帮助。因此,作者建议研究者们应将注意力转向LLMs在时间序列和语言结合领域的应用,如时间序列推理或社会理解等,这些领域可能更能发挥LLMs的潜力。

论文标题:Are Language Models Actually Useful for Time Series Forecasting?

下载地址:https://arxiv.org/pdf/2406.16964v1


本文内容仅仅是技术探讨和学习,并不构成任何投资建议。
转发请注明原作者和出处。

Published inAI&Invest专栏

Be First to Comment

发表回复