近日,自动化学院以杭州电子科技大学为第一单位发表的论文《Spatial-Temporal Clue Reasoning Chain for Long Video Question Answering》被SCI 1区TOP期刊IEEE TCSVT录用。该项研究由杭州电子科技大学和中国科学院计算技术研究所合作完成。该论文的第一作者为我院2023级硕士研究生龚海波,指导老师为我院颜成钢教授、中国科学院计算技术研究所李亮研究员。 现有的视频问答方法在处理长视频时面临显著挑战。长视频通常包含丰富且跨越多时空尺度的信息,要求模型能够针对特定问题有效捕捉多粒度视觉线索,并对长时序事件中复杂的时空关系进行准确推理。为应对上述挑战,团队首先提出一种时空线索推理链机制,以逐步提取多粒度视觉信息。该机制遵循“由粗到细,逐步深入”的策略,依次从视频片段、视频帧和帧内图像区域中链式定位与问题相关的视觉内容,从而提升对复杂事件类问题的答案推理能力。进一步,团队设计了一种异步线索选择器,通过将问题语义特征映射到多个潜在空间以涵盖不同语义视角,并引入自激励损失函数以促进选择多样性。最后,通过跨模态融合模块对问题语义与所选视觉线索进行深层交互建模,进而生成答案。在多个视频问答数据集上进行的大量实验证明了该方法的有效性。 杭州电子科技大学“智能信息处理”实验室 (HDU IIPLab)主任为颜成钢教授。实验室现有在职教师50余名,含5位国家级人才及多位省级人才。现有硕博生200余名,毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为学校交叉创新团队,拥有自由开放的学术氛围和国际前沿的研究方向。实验室采用与海内外知名高校、研究所(清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等)联合培养制,长期致力于智能信息处理方面的研究,主要研究方向包括:机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。
联系人:孙老师
电话:0571-86878691
工作电话:0571-86878691
电子邮箱:syq@hdu.edu.cn
智能信息处理实验室
浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学