news 2026/4/18 12:30:43

KDD25|探讨如何利用大模型处理不规则采样时间序列

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
KDD25|探讨如何利用大模型处理不规则采样时间序列

论文标题:Unleashing The Power of Pre-Trained Language Models for Irregularly Sampled Time Series

论文链接:https://arxiv.org/abs/2412.20790

研究背景

本文探索了利用大语言模型处理不规则采样的时间序列(Irregularly Sampled Time Series, ISTS),ISTS数据因采样间隔不规则和数据缺失,导致很多情况下很难直接应用已有的模型 ,然而在医疗健康、生物学、气候科学、天文学、物理学和金融学等多个领域中,不规则采样的时间序列十分常见。

尽管预训练基础模型已推动自然语言处理和计算机视觉领域取得重大进展,但它们在时间序列分析中的发展却受到数据稀疏性和对任务特异性方法需求的限制,这引发了一个关键问题:PLMs对ISTS分析是否仍然有效?

现有工作不足

过往研究多聚焦于规则采样时间序列,传统方法,如循环神经网络和 Transformer 模型,在处理不规则时间序列时,需将时间线离散化或填充缺失值,这易造成信息丢失并忽视观测间动态 。

然而,如何协调时间序列数据与自然语言模式,释放预训练语言模型在时间序列分析中的潜力,仍是亟待解决的问题 。此外,将 Transformer 扩展到连续时间域,以提升对不规则时间序列数据的建模能力,也逐渐成为研究热点 。

ISTS的表示方法对比

首先,作者总结了针对不规则序列的三种核心表示方法,分别是:集合式、向量式、序列式表示。

针对含 N 个变量、各变量观测时间间隔不规则的 ISTS,文中介绍了三种典型表示方法(如图 1 所示),核心差异在于数据组织形式对模型适配性的影响。

结论:序列式表示按变量将 ISTS 拆分为多个单变量序列,每个序列仅包含对应变量的真实观测时间与取值,不含冗余标记或混合信息。这种方式结构清晰,能有效减少变量间的干扰,适配 PLMs 的序列建模特性。

本文模型

本文提出统一的PLM基框架ISTS-PLM以应对非规则采样时间序列(ISTS)分析挑战,框架包含可训练输入嵌入层、PLM骨干模块与可训练任务输出层,通过冻结PLM核心参数仅微调层归一化参数平衡性能与效率,关键创新在于针对ISTS特性优化表示适配与建模逻辑。

输入嵌入层通过时间、变量、值、掩码等嵌入器组合,将不同表示的ISTS对齐到PLM语义空间:时间嵌入器以线性项与正弦函数编码时序特征,变量嵌入器映射变量信息,值与掩码嵌入器则适配不同数据形态。PLM骨干模块设计时间感知PLM替换位置嵌入解决序列内非规则性,并为序列式表示新增变量感知PLM捕捉变量相关性,针对集合式、向量式、序列式表示分别设计排序整合、值掩码融合、单变量建模后关联分析的流程。

任务输出层按需适配分析需求:分类任务通过线性层与Softmax输出类别概率,优化交叉熵损失;插值与外推任务结合查询时间与模型特征,经MLP预测取值并优化均方误差损失,实现对多类IST S任务的统一处理。

实验结果

基于序列式表示的 ISTS-PLM 在 7 个跨领域数据集上,于分类、插值、外推任务中均优于 18 种基线模型,如 P12 数据集分类 AUROC 达 87.6%,PhysioNet 数据集插值 MSE 仅 4.55×10⁻³。

下表是在分类任务上的结果对比:

泛化能力在 10% 训练数据的少样本场景及跨 ICU 类型 / 年龄组的零样本场景中,性能始终领先,且鲁棒性更强。

效率优势:隐藏维度 768 时,训练参数仅 127K,训练与推理效率优于多数基线模型。

结论

研究首次系统探索PLMs在ISTS分析中的应用,提出的序列式表示和ISTS-PLM框架,有效解决了ISTS的非规则性与异步性难题,在多任务、多领域中均实现最优性能,为非规则时间序列分析提供了高效通用的解决方案。


大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!获取时序论文合集

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:09:35

企业级语音系统搭建首选:EmotiVoice高可用架构设计

企业级语音系统搭建首选:EmotiVoice高可用架构设计 在虚拟偶像能开演唱会、AI主播24小时直播带货的今天,机器语音早已不再是单调冰冷的“电子音”。用户期待的是有情绪起伏、有角色个性、能与内容情境共鸣的声音体验。而传统TTS系统面对这些需求时&#…

作者头像 李华
网站建设 2026/4/18 7:05:17

EmotiVoice语音能量与基频调控原理剖析

EmotiVoice语音能量与基频调控原理剖析 在虚拟助手、游戏NPC、有声书乃至虚拟偶像日益普及的今天,用户早已不再满足于“能说话”的语音合成系统。他们期待的是会表达、有情绪、像真人的声音——一句话是“平静地说”还是“愤怒地吼出”,背后不仅是语义的…

作者头像 李华
网站建设 2026/4/18 0:47:22

19、深入了解WRT54G路由器:CFE创建、故障排除与NVRAM命令指南

深入了解WRT54G路由器:CFE创建、故障排除与NVRAM命令指南 1. 创建CFE文件 在为设备创建通用闪存环境(CFE)之前,需要更新CFE镜像。具体步骤如下: - 选择“在线更新”按钮,然后在弹出的在线更新窗口中点击“开始”。 - 更新完成后,使用下拉菜单“选择设备”来挑选目标…

作者头像 李华
网站建设 2026/4/16 18:04:38

49、Unix 技术综合指南:从基础符号到安全实践

Unix 技术综合指南:从基础符号到安全实践 1. 特殊符号与运算符 在 Unix 系统及相关脚本编程中,众多特殊符号和运算符发挥着关键作用。 - 符号功能概述 | 符号 | 功能 | | — | — | | & | 作为逻辑与运算符( && )用于逻辑判断,作为按位与运算符(…

作者头像 李华
网站建设 2026/4/18 11:20:07

15、Git分支合并全解析:从基础操作到冲突处理

Git分支合并全解析:从基础操作到冲突处理 在软件开发过程中,版本控制是至关重要的一环,而Git作为目前最流行的版本控制系统,其分支和合并功能为开发者提供了强大的协作和开发灵活性。本文将详细介绍Git分支合并的相关知识,包括基本概念、操作步骤以及如何处理合并冲突。 …

作者头像 李华