苹果研究人员创建了一个人工智能模型,可以理解手机屏幕上发生的事情。它是不断增长的型号系列中的最新型号。
这种多模式大语言模型 (MLLM) 称为 Ferret-UI,可以根据手机屏幕上看到的内容执行各种任务。例如,苹果的新模型可以识别图标类型,查找特定的文本片段,并为您提供完成特定任务应该做什么的精确指示。
这些功能记录在最近发表的一篇论文中,该论文详细介绍了如何设计这种专门的 MLLM 来理解移动用户界面 (UI) 屏幕并与之交互。
我们还不知道这是否会成为传闻中的 Siri 2.0的一部分,或者只是另一个苹果人工智能研究项目,只不过是一篇已发表的论文。
暂无评论