苹果研究论文揭示了理解视觉元素的人工智能
发布日期:2024-04-11 17:12:07
导读 据报道,苹果公司的研究人员开发了一种名为ReALM(参考分辨率作为语言建模)的新人工智能系统,该系统可以读取和理解视觉元素,本质上能够破...
据报道,苹果公司的研究人员开发了一种名为ReALM(参考分辨率作为语言建模)的新人工智能系统,该系统可以读取和理解视觉元素,本质上能够破译屏幕上的提示。
该研究论文表明,新模型使用“解析的屏幕实体”及其在文本布局中的位置来重建屏幕。这本质上捕获了屏幕页面的视觉布局,根据研究人员的说法,当模型针对这种方法进行专门微调时,它甚至可以超越GPT-4,并带来更自然和直观的交互。
研究论文中写道:“能够理解上下文,包括参考文献,对于会话助理来说至关重要。”“让用户能够对屏幕上看到的内容发出查询,是确保语音助手真正免提体验的关键一步。”这一开发有一天可能会应用到Siri,帮助它变得更加对话和“真正的免提”。
虽然今年我们不太可能听到更多有关ReALM的信息,但我们应该了解更多有关AI相关开发的信息,包括6月10日在WWDC2024上推出的Siri功能。
标签: