アップルニュース

Apple、新しい「MM1」AIモデルの詳細を公開

Apple の研究者は、テキスト情報と視覚情報の両方をシームレスに統合する大規模言語モデル (LLM) をトレーニングするための新しい方法を開発しました。





Macの電源ボタンはどこにありますか


同社の調査結果は、「」というタイトルの研究論文で詳しく説明されています。 MM1: マルチモーダル LLM 事前トレーニングからの方法、分析、洞察 」では、よりインテリジェントで柔軟な AI システムを作成するための新しいアプローチを紹介しています。画像とキャプションのペア、インターリーブされた画像とテキストのドキュメント、およびテキストのみのデータで構成される多様なデータセットを利用することで、MM1 モデルが AI の新しい標準を設定すると Apple は主張しています。画像キャプション、視覚的な質問応答、自然言語推論などのタスクを高レベルの精度で実行する能力。

Apple の研究は、さまざまな種類のトレーニング データとモデル アーキテクチャの組み合わせに焦点を当てており、これにより AI が視覚的手がかりと言語的手がかりの組み合わせに基づいて言語を理解し、生成できるようになります。この機能は、複雑な画像を解釈したり、視覚要素を含む質問に答えたりするなど、世界を微妙に理解する必要があるタスクに不可欠です。



この論文では、MM1 モデルの優れたコンテキスト内学習能力、特にモデル最大の 300 億パラメータ構成における優れた能力にも焦点を当てています。このバージョンは明らかに、少数ショットの「思考連鎖」プロンプトを使用した複数の画像に対する多段階推論の驚くべき能力を示しています。これは、AI が最小限の例に基づいて複雑で無制限の問題解決を実行できるようにする技術です。

この研究は、競争が激化する中でAI機能を強化するというAppleの広範な取り組みの一環として浮上した。今日の早朝、 ブルームバーグ さんの マーク・ガーマン 報告 Apple は、今後リリースされる新機能を強化するために、Google の Gemini 生成大型言語モデルのライセンスを取得するために Google と協議中であるとのことです。 iPhone の一環として iOS18 。