
科研进展
重庆研究院利用增强张量分解实现高原湖泊水质时空数据高精度修复
时间:2025-09-08编辑:大数据与无人系统研究中心
水质在线监测通常依托部署于多个站点的传感器,对pH、溶解氧、氮磷、高锰酸盐指数、叶绿素等多种关键指标进行长期、高频时序采集。然而,传感器可能因设备故障、定期维护、校准或通信中断等原因发生停测,造成数据序列出现大量空白;此外,还易受生物附着、极端天气和人为干扰等因素影响,产生明显偏离真实值的异常数据或随机噪声。这些问题严重制约了数据分析的准确性,对水质评价、污染溯源和预测预警等工作带来极大挑战。因此,开发高精度的数据修复技术显得尤为重要。
水质数据天然具备“时间–空间–指标”三个维度,可在信息空间中表征为一个三维张量结构。传统统计学插值方法难以有效利用这种多维关联特性。而张量分解模型能够将三维张量分解为一组低秩矩阵(核心因子)的乘积,分别提取出时间变化模式、空间分布模式和指标关联模式,并藉此实现对缺失值的智能推断。
图1:水质在线监测数据在信息空间中的三维张量表征
为更精准地刻画不同水质数据时序特性,重庆研究院科研团队创新性地将张量分解与偏差校正及智能优化算法相结合,提出了多偏差融合的自适应张量分解模型(DBAL)和多偏差非负张量分解集成模型(DBNE),并在云南高原湖泊滇池的水质在线监测系统上进行了应用与验证。
自研模型在方法层面实现了多项突破:通过对指标施加非负约束,确保修复后的水质参数符合物理现实;融合单线性偏差、预处理偏差和时变感知偏差等多种机制,有效捕捉实际指标长期变化的季节性特征与短期波动规律等;引入差分进化算法,实现模型超参数的自适应优化,大幅提升调参效率。高原湖泊实验结果表明,在随机缺失(丢失率20%–80%)和连续缺失(丢失时长1–4周)等多种情景下,模型对多项水质指标的整体插补精度表现优异,Nash-Sutcliffe 效率系数(NSE)超过0.90,均方根误差(RMSE)和平均绝对误差(MAE)显著优于现有主流模型。同时,模型具备高运行效率,全量数据处理耗时控制在5分钟以内,满足真实场景下模型应用部署需求。
图2:增强张量分解模型在云南高原湖泊滇池水质在线监测中应用
研究团队提出的“张量分解-多偏差校正”框架具有较强的通用性与可迁移性,不仅能修复水质时序传感数据,更可广泛应用于水文水资源、大气污染、土壤环境及生态质量评估等领域,有效重构多种复杂环境要素的缺失数据。
相关成果发表在《Environmental Modelling & Software》和《Ecological Informatics》等生态环境建模领域的主流期刊上。论文第一作者是重庆研究院与重庆邮电大学联合培养博士研究生吴旭坷,通讯作者为闪锟研究员,相关研究获得国家自然科学基金、云南省省市一体化重点专项、重庆市技术创新与应用发展重点专项等项目支持。
相关论文链接:
1. Xuke Wu#, Kun Shan*, Friedrich Recknagel, Lan Wang, Mingsheng Shang. Enhanced tensor factorization for spatiotemporal imputation of high-frequency water quality monitoring data. Environmental Modelling and Software, 2025, 193, 106667.
https://doi.org/10.1016/j.envsoft.2025.106667
2. Xuke Wu#, Kun Shan*, Lan Wang, Jingkai Wang, Mingsheng Shang. Spatiotemporal water quality data reconstruction: A tensor factorization framework. Ecological Informatics, 2025, 90, 103283.
https://doi.org/10.1016/j.ecolinf.2025.103283
中国科学院重庆绿色智能技术研究院 版权所有京ICP备05002857号渝公网安备50010943035号