近日,智能信息处理实验室以杭电为第一单位发表的论文《Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning》被计算机视觉领域顶级会议ICCV 2025(CCF A类会议)录用。该文章的第一作者为23级博士研究生殷炯,指导老师是李亮研究员(中科院计算所)和颜成钢教授。 传统的音视频多任务学习需要对所有任务进行联合训练,当出现新任务时往往需要重新训练整个模型,缺乏灵活性。增量学习虽然可以持续学习新任务,但面临严重的灾难性遗忘问题。在音视频场景中,还存在两个特殊挑战:如何平衡任务间知识共享与干扰,以及如何在保持模态特异性的同时实现跨模态融合。本文基于CLIP和CLAP作为主干网络,采用三阶段渐进式提示调优策略:浅层阶段:设计任务共享的模态聚合适配器(TMA),通过通道注意力、空间注意力和时序注意力机制,学习通用的跨任务、跨模态音视频表示,为后续适应奠定基础。中层阶段:提出任务特定的模态共享动态生成适配器(TMDG),通过提示池选择和实例感知的动态提示生成,在任务特异性和模态共享之间取得平衡,既保持抗遗忘能力又促进多任务迁移。深层阶段:引入任务特定的模态独立提示(TMI),为每个任务和模态分别保存独特的特征信息,确保关键的任务特定和模态特定信息在增量学习过程中得到保留。 本文在在四个音视频任务(音视频事件定位AVE、音视频视频解析AVVP、音视频分割AVS、音视频问答AVQA)上的广泛实验表明:该方法的抗遗忘能力平均准确率、最终准确率和遗忘率等指标上均优于现有方法,同时知识迁移能力显著优于其他方法证明能有效利用先前任务知识来提升新任务性能。该方法为音视频多任务增量学习提供了一个有效的解决方案,在保持已学知识的同时成功实现了跨任务的知识迁移。 杭州电子科技大学“智能信息处理实验室 ”(HDU IIPLab)主任为颜成钢教授。实验室现有在职教师50余名,含5位国家级人才及多位省级人才。现有硕博生200余名,毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为学校交叉创新团队,拥有自由开放的学术氛围和国际前沿的研究方向。实验室采用与海内外知名高校、研究所(清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等)联合培养制,长期致力于智能信息处理方面的研究,主要研究方向包括:机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。 排版 | 金敬涵 校对 | 向海燕 责编 | 叶玥都 审核 | 吴汉玲 投稿邮箱 | 2636911042@qq.com 【自动化学院融媒体中心】
联系人:孙老师
电话:0571-86878691
工作电话:0571-86878691
电子邮箱:syq@hdu.edu.cn
智能信息处理实验室
浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学