Apple 推出 Manzano,这是一种结合了无损图像可视化和绘图的多模态 AI 模型

IT之家新闻 1 月 15 日报道,科技媒体 Appleinsider 发表了一篇博客文章,其中苹果发表了一篇重要研究论文,详细介绍了一种名为“Apple Tree”的多模态模型,该模型集成了“视觉理解”和“文本图像生成”两种功能。这种模式最大的创新在于它的“双文化”。它不仅可以像人类一样准确地理解图像内容(视觉理解),还可以根据文本描述生成高质量的图像(图像生成)。此前,业内只有少数模型可以同时执行这两项任务,通常需要在图像质量和理解之间进行折衷。研究人员指出,主要差异在于“视觉分词”的不同形式。简单地说,AI在执行“图像理解”(类似于观看视频)时更喜欢连续的数据流,但在执行“图像理解”时则依赖于离散的数据块(如拼图)传统模型迫使同一个大脑处理这两种完全不同的信号,往往会导致严重的任务冲突:“我能理解,但我不会画画”或“我能画得很好,但我不太理解。”为了解决这个问题,Manzano 引入了一种创新的三阶段架构。首先,我们使用“混合视觉分词器”同时生成连续和离散的视觉表示。接下来,使用大规模语言模型(LLM)来预测图像的语义内容。最后,这些预测被传递到“模糊解码器”以进行像素级表示。这种设计使 Manzano 能够保持强大的理解能力和细粒度能力,并且还可以处理复杂的任务,例如深度估计、风格迁移和图像恢复。测试数据表明,Manzano 在处理违反直觉和违反常识物理的复杂指令时表现得非常好。作为一只鸟在大象下面飞翔的法师,曼萨诺的逻辑准确性与 OpenAI 的 GPT-4o 模型和谷歌的 Nano Banana 模型相当。研究团队测试了 3 亿到 300 亿(300 亿)个操作参数。我们测试了多个版本并验证了该架构可以随着模型规模的增加而保持高效的性能增益。 Manzano 仍处于研究阶段,尚未直接应用于 iPhone 或 Mac 设备,但表明苹果正在开发更强大的底层 AI 能力。该媒体认为,这项技术很可能会融入未来的“Image Playground”功能中,为用户提供更智能的照片修图体验和更具想象力的图像生成能力,进一步增强苹果在终极AI领域的竞争力。 IT主页附参考地址
特别提示:以上内容(包括图片和视频,如有)由用户上传发布拥有自有媒体平台“网易号”。本平台仅提供信息存储服务。
请注意:以上内容(包括照片)和视频(如有)由仅提供数据存储服务的社交媒体平台网易号用户上传和发布。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注