Apple 刚刚推出了新的 Ferret-UI LLM——这款 AI 可以读取你的 iPhone 屏幕

zhang • 2024年4月17日 • 发表评论

苹果研究人员创建了一个人工智能模型，可以理解手机屏幕上发生的事情。它是不断增长的型号系列中的最新型号。

这种多模式大语言模型 (MLLM) 称为 Ferret-UI，可以根据手机屏幕上看到的内容执行各种任务。例如，苹果的新模型可以识别图标类型，查找特定的文本片段，并为您提供完成特定任务应该做什么的精确指示。

这些功能记录在最近发表的一篇论文中，该论文详细介绍了如何设计这种专门的 MLLM 来理解移动用户界面 (UI) 屏幕并与之交互。

我们还不知道这是否会成为传闻中的 Siri 2.0的一部分，或者只是另一个苹果人工智能研究项目，只不过是一篇已发表的论文。

暂无评论

发表回复取消回复