祝贺团队博士生张禹一篇文章“MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization”被Forty-first International Conference on Machine Learning(ICML 2024)录用。
国际机器学习大会(International Conference on Machine Learning,简称ICML)是机器学习与人工智能领域的国际顶级学术会议,是机器学习领域历史最悠久的、规模最大、影响最广的顶级学术会议之一,也是中国计算机学会CCF推荐的A类会议。自1984年创办以来,ICML每年都会吸引来自世界各地的学者、研究人员和行业专家前来参会。会议旨在为与会者提供一个交流最新研究成果、讨论前沿技术和分享创新应用的平台。
CLIP框架虽然取得了巨大的成功,但却面临着数据利用效率低下的问题。在学习表示的过程中,CLIP仅使用图像-文本对中的一个监督进行对比学习,忽略了图像-文本对中大量的可以提供更多丰富监督的信息,为了解决这一问题,文章提出了MLIP。MLIP利用了频率变换对高频和低频变化的都具有敏感性这一特点,引入频域特征提取,补充了空域特征提取仅对低频变化敏感的短板。文章通过结合频域变换和token细粒度对齐,将 CILP 的单一监督扩展为多域和多级监督,从而能够更深入地探索信息丰富的图像特征。广泛的实验验证了MLIP设计的有效性。