アップルニュース

新しい Apple AI モデルは自然言語入力に基づいて画像を編集します

Appleの研究者は、 解放された ユーザーの自然言語命令に基づいて画像を編集できる新しいオープンソース AI モデル (経由) ベンチャービート )。





DALL・Eで作成したMacRumors画像
MLLM-Guided Image Editing の略である「MGIE」と呼ばれるこのツールは、マルチモーダル大規模言語モデル (MLLM) を使用してユーザー要求を解釈し、ピクセルレベルの操作を実行します。

このモデルは、画像のさまざまな側面を編集できます。グローバルな写真の強化には、明るさ、コントラスト、シャープネス、またはスケッチなどの芸術的効果の適用が含まれます。ローカル編集では、画像内の特定の領域やオブジェクトの形状、サイズ、色、テクスチャを変更できますが、Photoshop スタイルの変更には、トリミング、サイズ変更、回転、フィルターの追加、さらには背景の変更や画像のブレンドなどが含まれます。



ピザの写真に対するユーザーの入力は、「より健康的に見えるようにする」というものである可能性があります。常識的な推論を使用すると、モデルはトマトやハーブなどの野菜のトッピングを追加できます。グローバル最適化の入力リクエストは、「より多くの光をシミュレートするためにコントラストを追加する」という形式を取る可能性がありますが、Photoshop スタイルの変更は、モデルに写真の背景から人物を削除して画像の焦点を移動するよう依頼することによって行うことができます。被写体の表情。

Apple はカリフォルニア大学の研究者と協力して MGIE を作成しました。 モデルは GitHub で入手でき、コード、データ、事前トレーニングされたモデルが含まれています。

新しいMacProはいつ発売されますか


これは、Apple にとってここ数カ月で AI 研究における 2 回目の画期的な進歩です。 12 月下旬、Apple は、メモリが限られている iPhone やその他の Apple デバイスへの大規模言語モデル (LLM) の導入が、 革新的なフラッシュメモリ活用技術 。

過去数か月間、Apple は ChatGPT と競合する可能性のある「Apple GPT」のライバルをテストしてきました。によると ブルームバーグ の Mark Gurman 氏は、AI への取り組みは Apple にとって優先事項であり、同社は大規模な言語モデル用の「Ajax」フレームワークを設計していると述べています。

両方 情報 アナリストのジェフ・プー氏は、Apple が「iPhone」と iPad で利用できるある種の生成 AI 機能を搭載するだろうと主張しています。 2024年後半頃 , iOS 18が登場する時期です。 iOS 18には、 Siriの強化版 ChatGPT のような生成 AI 機能を備えており、iPhone 史上「最大の」ソフトウェア アップデートになる可能性があります。 グルマン氏によると