When Multimodal Interactions Impair Prediction: A Novel Regularized Deep Learning Strategy

首页 >
学术观点 >

发布时间：04-10-26

Gang Chen, Shuaiyong Xiao, Chenghong Zhang, Huimin Zhao

INFORMS Journal on Computing

推荐理由

数智化时代，多模态数据（如文本、音频、图像、视频等）的快速生产与大量积累为企业感知用户偏好、识别用户需求、推理用户意图进而开展数据驱动的智能决策提供了重要基础。然而，不同模态数据在融合过程中往往存在语义差异与信息冲突，制约了多模态数据在用户行为理解与智能决策中的应用效果。如何有效刻画多模态信息之间的交互机制，进一步提升模型对用户意图的理解与推理能力，成为当前亟需解决的关键科学问题。对此，我院肖帅勇副教授围绕多模态用户行为建模与智能推理决策开展深入研究，与团队合作发表两篇学术论文，其中：论文《When Multimodal Interactions Impair Prediction: A Novel Regularized Deep Learning Strategy》被INFORMS Journal on Computing录用并在线发表，在多模态交互机制建模与用户意图智能推理方面取得了重要进展。

作者简介

Gang Chen：School of Management, Fudan University

Shuaiyong Xiao：School of Economics and Management, Tongji University

Chenghong Zhang：School of Management, Fudan University

Huimin Zhao：Lubar College of Business, University of Wisconsin-Milwaukee

关键词

mixed-grained recommendation, chain-of-preference inference, dynamic demand inference, adaptive perception inference, demand-perception matching

内容简介

多模态数据正在成为理解用户意图的核心基础，但“数据更多≠模型理解更好”。一方面，不同模态之间存在复杂的交互作用，可能存在信息冲突或补充，进而干扰模型训练；另一方面，用户意图本身具有多层级、多粒度特征，难以直接通过数据表征与偏好感知进行建模。围绕这一挑战，两篇研究分别从数据融合感知与意图智能推理两个方面开展：前者解决“多模态信息协同难题”，后者解决“多粒度用户意图推理难题”，共同推动从“多模态融合”走向“多模态推理赋能的智能决策”。

发表于INFORMS Journal on Computing的研究聚焦多模态融合中的“负交互”问题，指出不同模态（如文本、图像、音频）之间可能相互干扰，进而降低预测性能。为此，论文提出一种新颖的基于正则约束的深度学习方法，在特征、模态和样本多个层面建模交互关系，在深度学习过程中自适应地强化正向互补信息、抑制负向冲突，实现从简单的全量融合转向选择性融合利用。其价值在于让模型不仅“看到更多数据”，更能判断“哪些数据可用”，从而提升对用户意图的识别能力。

微信扫一扫

Thank you for your interest in Master of Global Management, Tongji University!