Artificial Intelligence of Multi-modality Group (AIM Group)

多模态人工智能实验室

AIM Group

Artificial Intelligence of Multi-modality Group

多模态人工智能实验室

河海大学计算机与软件学院

河海大学人工智能与自动化学院

人工智能作为一项能够引领未来的战略性赋能技术,正在驱动着新一轮科技革命和产业变革。多模态人工智能实验室(Artificial Intelligence of Multi-modality Group, AIM Group)负责人为河海大学计算机与信息学院 刘凡教授 ,主要关注计算机视觉、机器学习、模式识别、多模态深度学习等人工智能领域关键课题的研究。同时,AIM 实验室依托河海大学特色优势,围绕“人工智能+智慧水利”交叉研究,基于计算机科学与水利、土木、海洋、现代农业等传统优势学科交叉融合,促进水利行业从信息化向智能化的发展转变。目前,AIM 实验室的研究方向主要集中在但不限于以下几个方面:

  • 遥感领域视觉-语言大规模多模态预训练
  • 预训练基础模型的小样本下游泛化
  • 无人机多模态环境感知与自主导引
  • 基于领域知识的智能诊断问答系统
  • 音乐驱动的指挥动作生成
  • 数据驱动的水文时间序列预测
  • 基于计算机视觉的大坝、桥梁监测
  • 单样本多模态人脸识别与分析

实验室每年招收硕士/博士研究生,对 AIM 实验室研究方向感兴趣的同学欢迎发送个人简历至 fanliu@hhu.edu.cn, 简要介绍相关经历并陈述研究兴趣。同时,AIM 实验室欢迎优秀河海大学在读本科生加入,实验室培养的往届本科生去向包括赴卡内基梅隆大学,香港科技大学,浙江大学等高校深造,或供职于华为、百度、京东、阿里、旷视等科技企业。

实验室动态

News

2024

  • 2024-06-11 我们构建了一个仿真多模态无人机目标检测数据集UEMM-Air,这是已知现有成对模态数目最多的无人机目标检测数据集,包含可见光、深度、表面法线、分割以及无人机IMU参数5种模态。数据集的 论文获取方式 已公开。

  • 2024-06-04 恭喜本科生团队(沈逸骏,孙昊,郭子扬,曹书华,高翔宇)参加 第十五届中国大学生服务外包创新创业大赛 (基于文心大模型的智能阅卷平台设计与开发)获得国家三等奖!

  • 2024-05-28 实验室学术会议记录:姚亮前往土耳其伊斯坦布尔参加FG2024学术会议,并在会议上进行了聚光灯演讲 (Spotlight) 分享我们关于无人机人脸识别的文章。
    screen reader text
    FG2024学术会议记录


  • 2024-05-22 我们首次将尺度不变特征解耦应用于无人机目标检测任务,设计了一种可用于任意FPN架构检测器的尺度不变特征对抗解耦模块SIFDAL,引入我们的模块后,单阶段无人机目标检测器精度可以获得有效提升。论文的 arxiv 预印本 现已公开。

  • 2024-05-08 恭喜姚亮获批江苏省研究生科研与实践创新计划项目!

  • 2024-04-29 潘艳玲(本科生)的河海大学本科优秀毕业论文《跨语言医学知识图谱构建技术研究》被评为江苏省优秀毕业论文二等奖!恭喜!

  • 2024-04-26 刘凡教授获第四届江苏省高校教师教学创新大赛二等奖!

  • 2024-04-03 我们关于遥感视觉语言基础模型的论文"RemoteCLIP: A Vision Language Foundation Model for Visual Recognition of Earth Observations" 已被 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING (中科院一区TOP期刊)录用,恭喜管张青云周晓聪朱佳乐论文代码 现已公开。

  • 2024-03-06 我们的论文"AerialFace: A Light Weight Framework for Unmanned Aerial Vehicle Face Recognition"已被CCF-C类会议The 18th IEEE International Conference on Automatic Face and Gesture Recognition (FG2024) 录用。恭喜欧志权(本科生)姚亮吴婷

  • 2024-02-22 刘凡教授获2023年度江苏省自动化学会青年科技奖!

2023

  • 2023-12-11 我们的论文《A Survey of Convolutional Neural Network: Analysis, Applications, and Prospects》成功入选2023年江苏省自然科学百篇优秀学术成果论文!

  • 2023-11-08 我们关于大规模多模态预训练的工作“ProtoCLIP: Prototypical Contrastive Language Image Pretraining”被 IEEE Transactions on Neural Networks and Learning Systems (TNNLS) (中科院一区Top期刊) 录用!我们设计了一种基于原型聚类的高效视觉-语言预训练方法 ProtoCLIP,在 ImageNet 线性评估与零样本预测任务上分别相较 CLIP 提升 +5.81% 和 +2.01% 准确率,在1400万样本数据集上的大规模实验表明,ProtoCLIP 能够以缩短3倍训练时间的条件下达到与 CLIP 相近的性能。论文预印本代码 已公开发布。

  • 2023-11-05 我们在第十一届全国大学生数字媒体科技作品及创意竞赛 中获得了国家三等奖、江苏省三等奖,恭喜张颢骞、周道杰、崔金凤、蒋郭鑫、霍健团队以及徐圣翔(本科生)、管张青云、高硕(本科生)、高兴(本科生)团队!

  • 2023-11-01 刘凡教授获2023年江苏省高等学校微课教学比赛一等奖

  • 2023-10-01 我们关于单样本人脸识别的论文"Single Sample Face Recognition Based on Identity-Attribute Disentanglement and Adversarial Feature Augmentation"已被第十七届中国生物特征识别大会(CCBR2023) 录用。恭喜姚亮欧志权(本科生)、王菲!

  • 2023-08-29 论文“基于结构光和CT的背部点云配准算法研究”已被《激光与光电子学进展》期刊录用,恭喜沈春梅!

  • 2023-08-25 论文“基于动态频域分解的乐队指挥动作生成”已被《计算机应用研究》期刊录用,恭喜贺鑫,周睿志(本科生)!

  • 2023-08-21 我们关于小样本图像识别的论文“Few-shot Classification Guided by Generalization Error Bound ”已被 Pattern Recognition (中科院1区TOP) 录用

  • 2023-07-19 我们关于小样本图像识别的论文“JLCSR: Joint Learning of Compactness and Separability Representation for Few-shot Classification”已被 IEEE Transactions on Cognitive and Developmental Systems 录用。

  • 2023-06-19 我们构建了首个面向遥感场景的通用视觉-语言基础模型 RemoteCLIP。通过将多源异构的数据标注统一为以自然语言为中心的图像语义描述,我们将预训练数据集扩充至现有数据的12倍。在遥感图文检索评测中,RemoteCLIP 在 RSICD 数据集和 RSICD 数据集上大幅领先现有最佳方法(+9.14%,+8.92%),在12个下游数据集的零样本识别任务上,RemoteCLIP 的准确率超过基线方法 6.39%。论文的 arxiv 预印本 现已公开。

  • 2023-06-04 恭喜欧志权,严旻茜,刘宇洋,刘亦凡,丁洋洋团队参加 第十四届中国大学生服务外包创新创业大赛 (安全人脸识别认证系统赛题)获得国家三等奖!

  • 2023-05-29 我们的论文《多模态大模型小样本迁移方法研究进展综述》已被 2023中国多媒体大会(ChinaMM) 录用。恭喜张天舒、陈德龙、管张青云、蔡雯雯、周晓聪!

  • 2023-04-20 我们关于小样本图像识别的论文 “Few-shot Classification via Ensemble Learning with Multi-Order Statistics” 现已被CCF-A类会议IJCAI-23录用!

  • 2023-03-11 我们关于大规模多模态电商数据集的论文“MEP-3M: A Large-scale Multi-modal E-Commerce Products Dataset”被中科院1区TOP期刊 Pattern Recognition 录用,恭喜陈德龙、高睿琢!

  • 2023-01-22 新春快乐!AIM 实验室正式启用新版官方主页(域名 https://multimodality.group)!

2022

2021

研究方向与主要成果

Research Areas and Outputs

▶ 单样本多模态人脸识别与分析

▶ 视觉-语言大规模多模态预训练

▶ 数据驱动的水文时间序列预测

▶ 视觉小样本学习

▶ 基于计算机视觉的大坝、桥梁监测

▶ 音乐驱动的乐队指挥动作生成