Meta推出lmageBind跨模态大模型,包括视觉(图像和视频形式)、温度(红外图像)、文本、音频、深度信息、运动读数(由惯性测量单元或IMU产生)
lmageBind是第一个能够同时处理6种感官数据的Al模型,
也是第一个在没有明确监督的情况下学习一个单一嵌入空间的Al模型。
未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号,进一步探索多模态大模型的可能性,实际上就是元宇宙大
模型
Cross-modal retrieval
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)