您的位置：首页 > 要闻 > 正文

Meta开源多感官人工智能模型，整合文本、音频、视觉等六类数据

2023-05-10 12:28:47 IT之家 阅读量：10022

，Meta 公司发布了一个新的开源人工智能模型 ImageBind，该模型能够将多种数据流，包括文本、音频、视觉数据、温度和运动读数等整合在一起。该模型目前只是一个研究项目，还没有直接的消费者或实际应用，但它展示了未来生成式人工智能系统的可能性，这些系统能够创造出沉浸式、多感官的体验。同时，该模型也表明了 Meta 公司在人工智能研究领域的开放态度，而其竞争对手如 OpenAI 和谷歌则变得越来越封闭。

Meta 公司称，其模型 ImageBind 是第一个将六种类型的数据整合到一个嵌入空间中的模型。这六种类型的数据包括:视觉；热力(红外图像)；文本；音频；深度信息；以及最有趣的一种 —— 由惯性测量单元(IMU)产生的运动读数。(IMU 存在于手机和智能手表中，用于执行各种任务，从手机从横屏切换到竖屏，到区分不同类型的运动。)

未来的人工智能系统将能够像当前针对文本输入的系统一样，交叉引用这些数据。例如，想象一下一个未来的虚拟现实设备，它不仅能够生成音频和视觉输入，还能够生成你所处的环境和物理站台的运动。你可以要求它模拟一次漫长的海上旅行，它不仅会让你置身于一艘船上，并且有海浪的声音作为背景，还会让你感受到甲板在脚下摇晃和海风吹拂。

Meta 公司在博客文章中指出，未来的模型还可以添加其他感官输入流，包括“触觉、语音、气味和大脑功能磁共振成像信号”。该公司还声称，这项研究“让机器更接近于人类同时、全面、直接地从多种不同的信息形式中学习的能力。”

当然，这很多都是基于预测的，而且很可能这项研究的直接应用会非常有限。例如，去年，Meta 公司展示了一个人工智能模型，能够根据文本描述生成短而模糊的视频。像 ImageBind 这样的研究显示了未来版本的系统如何能够整合其他数据流，例如生成与视频输出匹配的音频。

对于行业观察者来说，这项研究也很有趣，因为IT之家注意到 Meta 公司是开源了底层模型的，这在人工智能领域是一个越来越受到关注的做法。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

每日推荐

图片新闻

云南白药炒股亏近20亿元近20年来首次归母净
业绩压力下，证券投资是云南白药的尝试，但也让其栽了跟头。3月25...
采摘明前茶
3月27日，在湖南省衡阳市常宁市塔山瑶族乡塔山村，茶农在采摘明前...
林海守塔人
蟒山瞭望塔位于十三陵国家森林公园蟒山景区山顶（3月19日摄，无人...
工信部：1-2月我国软件业务收入11792亿元
工信部数据显示，1－2月份，我国软件业务收入11792亿元，同比...
专访中国移动黄宇红：产学研用合力，培育自主可控
随着5G网络建设加快推进，相关应用开始遍地开花，深入到千行百业。...

Meta开源多感官人工智能模型，整合文本、音频、视觉等六类数据

每日推荐

图片新闻

24小时栏目点击排行