Artificial Intelligence of Multi-modality Group (AIM Group)

多模态人工智能实验室

AIM Group

Artificial Intelligence of Multi-modality Group

多模态人工智能实验室

河海大学计算机与软件学院

河海大学人工智能与自动化学院

人工智能作为一项能够引领未来的战略性赋能技术,正在驱动着新一轮科技革命和产业变革。多模态人工智能实验室(Artificial Intelligence of Multi-modality Group, AIM Group)负责人为河海大学计算机与信息学院 刘凡教授 ,主要关注计算机视觉、机器学习、模式识别、多模态深度学习等人工智能领域关键课题的研究。同时,AIM 实验室依托河海大学特色优势,围绕“人工智能+智慧水利”交叉研究,基于计算机科学与水利、土木、海洋、现代农业等传统优势学科交叉融合,促进水利行业从信息化向智能化的发展转变。目前,AIM 实验室的研究方向主要集中在但不限于以下几个方面:

  • 遥感领域视觉-语言大规模多模态预训练
  • 预训练基础模型的小样本下游泛化
  • 无人机多模态环境感知与自主导引
  • 基于领域知识的智能诊断问答系统
  • 音乐驱动的指挥动作生成
  • 数据驱动的水文时间序列预测
  • 基于计算机视觉的大坝、桥梁监测
  • 单样本多模态人脸识别与分析

实验室每年招收硕士/博士研究生,对 AIM 实验室研究方向感兴趣的同学欢迎发送个人简历至 fanliu@hhu.edu.cn, 简要介绍相关经历并陈述研究兴趣。同时,AIM 实验室欢迎优秀河海大学在读本科生加入,实验室培养的往届本科生去向包括赴卡内基梅隆大学,香港科技大学,浙江大学等高校深造,或供职于华为、百度、京东、阿里、旷视等科技企业。

实验室动态

News

2024

2023

  • 2023-12-11 我们的论文《A Survey of Convolutional Neural Network: Analysis, Applications, and Prospects》成功入选2023年江苏省自然科学百篇优秀学术成果论文!

  • 2023-11-08 我们关于大规模多模态预训练的工作“ProtoCLIP: Prototypical Contrastive Language Image Pretraining”被 IEEE Transactions on Neural Networks and Learning Systems (TNNLS) (中科院一区Top期刊) 录用!我们设计了一种基于原型聚类的高效视觉-语言预训练方法 ProtoCLIP,在 ImageNet 线性评估与零样本预测任务上分别相较 CLIP 提升 +5.81% 和 +2.01% 准确率,在1400万样本数据集上的大规模实验表明,ProtoCLIP 能够以缩短3倍训练时间的条件下达到与 CLIP 相近的性能。论文预印本代码 已公开发布。

  • 2023-11-05 我们在第十一届全国大学生数字媒体科技作品及创意竞赛 中获得了国家三等奖、江苏省三等奖,恭喜张颢骞、周道杰、崔金凤、蒋郭鑫、霍健团队以及徐圣翔(本科生)、管张青云、高硕(本科生)、高兴(本科生)团队!

  • 2023-11-01 刘凡教授获2023年江苏省高等学校微课教学比赛一等奖

  • 2023-10-01 我们关于单样本人脸识别的论文"Single Sample Face Recognition Based on Identity-Attribute Disentanglement and Adversarial Feature Augmentation"已被第十七届中国生物特征识别大会(CCBR2023) 录用。恭喜姚亮欧志权(本科生)、王菲!

  • 2023-08-29 论文“基于结构光和CT的背部点云配准算法研究”已被《激光与光电子学进展》期刊录用,恭喜沈春梅!

  • 2023-08-25 论文“基于动态频域分解的乐队指挥动作生成”已被《计算机应用研究》期刊录用,恭喜贺鑫,周睿志(本科生)!

  • 2023-08-21 我们关于小样本图像识别的论文“Few-shot Classification Guided by Generalization Error Bound ”已被 Pattern Recognition (中科院1区TOP) 录用

  • 2023-07-19 我们关于小样本图像识别的论文“JLCSR: Joint Learning of Compactness and Separability Representation for Few-shot Classification”已被 IEEE Transactions on Cognitive and Developmental Systems 录用。

  • 2023-06-19 我们构建了首个面向遥感场景的通用视觉-语言基础模型 RemoteCLIP。通过将多源异构的数据标注统一为以自然语言为中心的图像语义描述,我们将预训练数据集扩充至现有数据的12倍。在遥感图文检索评测中,RemoteCLIP 在 RSICD 数据集和 RSICD 数据集上大幅领先现有最佳方法(+9.14%,+8.92%),在12个下游数据集的零样本识别任务上,RemoteCLIP 的准确率超过基线方法 6.39%。论文的 arxiv 预印本 现已公开。

  • 2023-06-04 恭喜欧志权,严旻茜,刘宇洋,刘亦凡,丁洋洋团队参加 第十四届中国大学生服务外包创新创业大赛 (安全人脸识别认证系统赛题)获得国家三等奖!

  • 2023-05-29 我们的论文《多模态大模型小样本迁移方法研究进展综述》已被 2023中国多媒体大会(ChinaMM) 录用。恭喜张天舒、陈德龙、管张青云、蔡雯雯、周晓聪!

  • 2023-04-20 我们关于小样本图像识别的论文 “Few-shot Classification via Ensemble Learning with Multi-Order Statistics” 现已被CCF-A类会议IJCAI-23录用!

  • 2023-03-11 我们关于大规模多模态电商数据集的论文“MEP-3M: A Large-scale Multi-modal E-Commerce Products Dataset”被中科院1区TOP期刊 Pattern Recognition 录用,恭喜陈德龙、高睿琢!

  • 2023-01-22 新春快乐!AIM 实验室正式启用新版官方主页(域名 https://multimodality.group)!

2022

2021

研究方向与主要成果

Research Areas and Outputs

▶ 单样本多模态人脸识别与分析

▶ 视觉-语言大规模多模态预训练

▶ 数据驱动的水文时间序列预测

▶ 视觉小样本学习

▶ 基于计算机视觉的大坝、桥梁监测

▶ 音乐驱动的乐队指挥动作生成