近日,我院以杭州电子科技大学为第一单位发表的论文《Hybrid Debiasing Transformer with Adaptive Regularization for Video Moment Localization》被多媒体领域顶级期刊IEEETransactions on Multimedia(一区top期刊)录用。该文章的第一作者为23级博士研究生殷炯,指导老师是李亮研究员(中科院计算所)和颜成钢教授。 这篇论文研究视频时刻定位(VML)任务中的数据偏差问题。现有模型往往过度依赖训练数据的时间戳分布进行预测,而非真正理解视频和文本的语义内容,导致泛化能力不足。作者从内在和外在两个角度分析了偏差来源:内在偏差主要由时刻边界的模糊性和输入输出信息不平衡造成,外在偏差则源于数据集中动词和名词的长尾分布以及尾部样本训练不足引起的语义偏差。 为解决这些问题,论文提出了一个混合去偏Transformer网络,包含多时序Transformer来处理边界模糊问题、时序一致性约束来突出动作信息、混合语言激活模块来重新加权尾部词汇,以及先验引导Transformer来防止尾部样本过拟合。在Charades-STA、ActivityNet Captions和TACoS三个标准数据集上的实验结果表明,该方法不仅在原始数据集上取得了优于现有方法的性能,在专门设计的去偏数据集上也表现出色,验证了其有效缓解数据偏差、提升模型泛化能力的效果。 杭州电子科技大学“智能信息处理实验室 ”(HDU IIPLab)主任为颜成钢教授。实验室现有在职教师50余名,含5位国家级人才及多位省级人才。现有硕博生200余名,毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为学校交叉创新团队,拥有自由开放的学术氛围和国际前沿的研究方向。实验室采用与海内外知名高校、研究所(清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等)联合培养制,长期致力于智能信息处理方面的研究,主要研究方向包括:机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。
联系人:孙老师
电话:0571-86878691
工作电话:0571-86878691
电子邮箱:syq@hdu.edu.cn
智能信息处理实验室
浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学