祝贺团队博士生张禹一篇文章“MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization”被ICML 2024录用

Date:2024-06-04    Author:张红云、徐乐

祝贺团队博士生张禹一篇文章“MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization”Forty-first International Conference on Machine LearningICML 2024)录用。


国际机器学习大会(International Conference on Machine Learning,简称ICML)是机器学习与人工智能领域的国际顶级学术会议,是机器学习领域历史最悠久的、规模最大、影响最广的顶级学术会议之一,也是中国计算机学会CCF推荐的A类会议。自1984年创办以来,ICML每年都会吸引来自世界各地的学者、研究人员和行业专家前来参会。会议旨在为与会者提供一个交流最新研究成果、讨论前沿技术和分享创新应用的平台。


CLIP框架虽然取得了巨大的成功,但却面临着数据利用效率低下的问题。在学习表示的过程中,CLIP仅使用图像-文本对中的一个监督进行对比学习,忽略了图像-文本对中大量的可以提供更多丰富监督的信息,为了解决这一问题,文章提出了MLIPMLIP利用了频率变换对高频和低频变化的都具有敏感性这一特点,引入频域特征提取,补充了空域特征提取仅对低频变化敏感的短板。文章通过结合频域变换和token细粒度对齐,将 CILP 的单一监督扩展为多域和多级监督,从而能够更深入地探索信息丰富的图像特征。广泛的实验验证了MLIP设计的有效性。


Prev:祝贺团队博士生李燕平一篇文章“Occlusion-Aware Transformer with Second-Order Attention for Person Re-Identification”被IEEE TIP录用
Next:祝贺团队博士生吴卓嘉一篇文章“HyDiscGAN: A Hybrid Distributed cGAN for Audio-Visual Privacy Preservation in Multimodal Sentiment Analysis”被IJCAI 2024录用

Close