1. 首页 >精选经验 > 综合经验 > 正文

苹果研究论文揭示了理解视觉元素的人工智能

导读 据报道,苹果公司的研究人员开发了一种名为ReALM(参考分辨率作为语言建模)的新人工智能系统,该系统可以读取和理解视觉元素,本质上能够破...

据报道,苹果公司的研究人员开发了一种名为ReALM(参考分辨率作为语言建模)的新人工智能系统,该系统可以读取和理解视觉元素,本质上能够破译屏幕上的提示。

该研究论文表明,新模型使用“解析的屏幕实体”及其在文本布局中的位置来重建屏幕。这本质上捕获了屏幕页面的视觉布局,根据研究人员的说法,当模型针对这种方法进行专门微调时,它甚至可以超越GPT-4,并带来更自然和直观的交互。

研究论文中写道:“能够理解上下文,包括参考文献,对于会话助理来说至关重要。”“让用户能够对屏幕上看到的内容发出查询,是确保语音助手真正免提体验的关键一步。”这一开发有一天可能会应用到Siri,帮助它变得更加对话和“真正的免提”。

虽然今年我们不太可能听到更多有关ReALM的信息,但我们应该了解更多有关AI相关开发的信息,包括6月10日在WWDC2024上推出的Siri功能。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!