近日,通信工程学院智能信息计算团队的研究成果《2D-CrossScan Mamba:Enhancing State Space Models with Spatially Consistent Multi-Path 2D Information Propagation》被人工智能领域国际顶级会议 The 40th AAAI Conference on Artificial Intelligence (AAAI 2026) 正式录用。AAAI 是人工智能领域 CCF A 类会议,代表该领域国际最高研究水平。24级博士研究生于龙龙为第一共同作者,清华大学郭雨晨研究员为第一通讯作者。 近年来,以 Mamba 为代表的状态空间模型凭借高效长序列处理能力,在自然语言处理领域成效显著,但应用于图像等 2D 结构数据时,原生 1D 扫描机制存在明显局限:图像 patch 空间邻近性被扭曲,现有改进方案或空间局部性不一致、或单路径传播,导致空间特征不完整,制约目标检测、语义分割等任务性能。当前高分辨率图像检测等场景对细粒度空间依赖捕捉要求提升,传统 1D 适配方案已无法满足需求,亟需贴合 2D 空间特性的建模方法。 为解决这一问题,团队提出 2D-CrossScan 全新 2D 兼容扫描框架,通过三大核心设计实现空间信息高效传播:重构 2D 状态方程,让图像 patch 同时聚合水平与垂直相邻区域隐藏状态,对齐空间与几何结构;设计多路径聚合与冗余抑制机制,融合多路径信息并消除冗余,平衡特征丰富度与计算复杂度;提出四向同步扫描策略,从图像四角启动扫描并自适应融合特征,保障空间覆盖均匀性。 团队在 PANDA 高分辨率图像数据集及 ImageNet-1K、COCO、ADE20K 等通用数据集上开展实验,结果显示:基于 2D-CrossScan Mamba 的模型在 PANDA 高分辨率目标检测任务中,小、中、大型目标精度均大幅超越先进方法;在其他数据集与任务上,性能优于 VMamba、2DMamba 等主流模型。有效感受野分析与注意力可视化显示,该框架特征图空间均匀性更强,能精准捕捉目标与背景关联,印证其空间特征表达优势。 这一成果依托杭州电子科技大学 “智能信息处理实验室”(HDU IIPLab),实验室由颜成钢教授主持,含 5 位国家级人才,长期与清华、北大及海外高校联合培养,深耕智能信息处理领域。未来,团队将深化 2D-CrossScan 框架应用,推动其在医学影像、自动驾驶感知等场景落地,助力人工智能创新发展。 编辑:徐立超 一审:赵 强 二审:邱一波 三审:孙闽红 发布:廖丹丹
联系人:孙老师
电话:0571-86878691
工作电话:0571-86878691
电子邮箱:syq@hdu.edu.cn
智能信息处理实验室
浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学