Vision

AppleがあなたのiPhoneを永遠に変える方法

AppleがあなたのiPhoneを永遠に変える方法
iPhone 15 Pro Max を背面に置き、ホーム画面を表示しています。
ジョー・マリング / デジタルトレンド

ここ数ヶ月、Appleは生成AIに関する取り組みを詳述した研究論文を次々と発表してきました。これまでのところ、Appleは自社の研究室で具体的に何が行われているのかについては口を閉ざしており、一方で、AppleがGoogleと交渉中で、iPhone向けのGemini AIのライセンス供与を受けているとの噂も飛び交っています。

しかし、私たちが期待できることを示唆する兆候はいくつかありました。2月には、Appleの研究論文で、ユーザーからの自然言語指示を用いてメディア編集を可能にするMLLMガイド付き画像編集(MGIE)と呼ばれるオープンソースモデルの詳細が発表されました。そして今、Ferret UIに関する新たな研究論文がAIコミュニティを熱狂させています。

マルチモーダルAI(テキストだけでなくマルチメディアアセットも理解できるAI)を導入し、モバイルユーザーインターフェースの要素をより深く理解するという構想です。そして最も重要なのは、実用的なヒントを提供することです。これは、エンジニアたちがAIを現在の「おどけ」的な状態から脱却させ、平均的なスマートフォンユーザーにとってより便利なものにしようと競い合う中で、重要な目標となっています。

この方向性における最大の推進力は、生成AI機能をクラウドから切り離し、インターネット接続の必要性をなくし、すべてのタスクをデバイス上で実行することで、より高速かつ安全に実行することです。例えば、GoogleのGeminiは、Google PixelやSamsung Galaxy S24シリーズのスマートフォン(そして近々OnePlusのスマートフォンでも)上でローカルに実行され、要約や翻訳といったタスクを実行しています。

Apple の Ferret UI とは何ですか?

Apple Ferret UI 機能カード。
りんご

Ferret-UIによって、AppleはマルチモーダルAIモデルの知性をiOSに融合させようとしているように見えます。現時点では、「アイコン認識、テキスト検索、ウィジェット一覧」といった、より「初歩的な」作業に重点が置かれています。しかし、iPhoneの画面に表示されているものを理解するだけでなく、論理的に理解し、推論機能を通じてユーザーが提示する文脈的な質問に答えることも求められます。

Ferret UIの機能を最も簡単に説明すると、AIを搭載したインテリジェントな光学文字認識(OCR)システムと言えるでしょう。「厳選されたデータセットで学習させたFerret-UIは、UI画面の理解力に優れ、オープンエンドの指示を実行する能力を発揮します」と研究論文には記されています。Ferret UIの開発チームは、Ferret UIを「あらゆる解像度」に対応できるように調整しました。

App Storeを閲覧中に、「このアプリは12歳の子供に安全ですか?」といった質問をすることができます。このような場合、AIはアプリの年齢制限を読み取り、それに応じた回答を提供します。回答がどのように提供されるか(テキストか音声か)は明記されていません。論文ではSiriなどのバーチャルアシスタントについては言及されていないためです。

AppleはGPTの木からそれほど遠く離れてはいない

Apple Ferret UI の概要。
りんご

しかし、そのアイデアははるかに広範囲でスマートです。「アプリを友達と共有するにはどうすればいいですか?」と尋ねると、AIが画面上の「共有」アイコンを強調表示します。もちろん、画面に何が表示されているかの概要を教えてくれるだけでなく、ボックス、ボタン、画像、アイコンなど、画面上の視覚的アセットを論理的に分析します。これはアクセシビリティの大きな進歩です。

専門用語で説明すると、論文ではこれらの機能を「知覚会話」「機能推論」「インタラクション会話」と呼んでいます。研究論文の説明の一つは、Ferret UIの可能性を完璧に要約しており、「UI画面特有の正確な参照とグラウンディングタスクを実行するように設計された初のMLLMであり、同時にオープンエンドの言語指示を巧みに解釈し、それに基づいて行動する」と表現しています。

画面認識の質問に答える Apple Ferret UI。
りんご

その結果、スクリーンショットを記述したり、特定のアセットをタップすると何が起こるかを伝えたり、画面上の何かがタッチ入力でインタラクティブかどうかを判断したりすることが可能になりました。Ferret UIは社内プロジェクトだけではありません。推論と記述の部分では、ChatGPTをはじめとする多くの会話型製品を支えるOpenAIのGPT-4技術を活用しています。

注目すべきは、論文で提案されている特定のバージョンが複数のアスペクト比に対応していることです。画面上での分析・推論機能に加え、研究論文では、想像するだけでも驚異的な高度な機能もいくつか説明されています。例えば、下のスクリーンショットでは、手書きのテキストを分析するだけでなく、ユーザーのスペルミスから正しいバージョンを予測することもできるようです。

テキストを認識する Apple Ferret UI。
りんご

MItは、上端または下端で途切れていて、本来は縦スクロールが必要となるテキストも正確に読み取ることができます。ただし、完璧ではありません。ボタンをタブと誤認識したり、画像とテキストが1つのブロックにまとめられたアセットを誤認識したりすることがあります。

OpenAIのGPT-4Vモデルと比較したところ、Ferret UIは画面上のコンテンツに関連する質問をされた際に、優れたレベルの会話インタラクション出力を提供しました。下の画像に示すように、Ferret UIはより簡潔で率直な回答を好むのに対し、GPT-4Vはより詳細な回答を出力します。

どちらを選ぶかは主観的ですが、もしAIに「画面に表示されているスリッパの購入方法は?」と尋ねるとしたら、できるだけ少ない言葉で正しい手順を教えてくれる方が望ましいでしょう。しかし、Ferret UIは簡潔さだけでなく、正確性においても素晴らしいパフォーマンスを発揮しました。前述のタスクでは、Ferret UIは会話インタラクション出力で91.7%のスコアを獲得しましたが、GPT-4Vは93.4%の精度でわずかにリードしました。

興味深い可能性の宇宙

Apple Ferret UI ショートカット
りんご

Ferret UIは、画面上の動作を理解できるAIの印象的なデビューを飾るものです。さて、ここでの可能性に期待しすぎる前に、AppleがこれをiOSに具体的にどのように統合しようとしているのか、あるいはそもそも実現するかどうかも、いくつかの理由から不明です。Bloombergは最近、AppleがAI開発競争で遅れをとっていることを認識していると報じており、Appleエコシステムにおけるネイティブ生成AI製品の不足は、そのことを如実に物語っています。

まず、AppleがGoogleやOpenAIとのGeminiライセンス契約を検討しているという噂は、Apple自身の取り組みが競合他社と同等のレベルに達していないことを示している。このような状況では、iPhoneやiPadに未完成のAI製品を搭載するよりも、Googleが既にGeminiで行っている成果(現在、スマートフォンにおけるGoogleアシスタントの置き換えを目指している)を活用する方が賢明だろう。

Appleは明らかに野心的なアイデアを抱き、複数の研究論文で詳細に説明されている実験からもわかるように、その実現に取り組んでいます。しかし、たとえAppleがiOS内でFerret UIの約束を実現できたとしても、それはデバイス上で生成するAIの表面的な実装に過ぎないでしょう。

Apple Ferret UI が画面上のコンテンツを読み取っています。
りんご

しかし、たとえプリインストールされた自社アプリに限定されていたとしても、機能統合は驚くべき結果をもたらす可能性があります。例えば、AIがバックグラウンドで画面上のコンテンツを既に評価している状態でメールを読んでいるとします。メールアプリでメッセージを読んでいるときに、音声コマンドでAIに指示すれば、そのメッセージをカレンダーに入力してスケジュールに保存できます。

必ずしも複数のアプリを駆使した、非常に複雑な多段階の作業である必要はありません。例えば、レストランのGoogle検索ナレッジページを見ながら「その場所に電話」と言うだけで、AIが画面上の電話番号を読み取り、ダイヤルアプリにコピーして通話を開始します。

あるいは、4月6日に公開される映画に関するツイートを読んでいるときに、AIにFandangoアプリへのショートカットを作成するように指示するとします。あるいは、ベトナムのビーチの投稿を見て次の一人旅の計画が思いついたとします。「コンダイ行きの航空券を予約して」と尋ねるだけで、すべての入力情報が既に入力されたSkyscannerアプリにアクセスできます。

ヘイシリ
ナディーム・サルワール / デジタルトレンド

しかし、これらはすべて言うは易く行うは難しであり、複数の変数に依存しており、その中にはAppleが制御できないものもあるかもしれません。例えば、ポップアップや押しつけがましい広告が散りばめられたウェブページでは、Ferret UIが本来の機能を果たすことはほぼ不可能でしょう。しかし、明るい面としては、iOS開発者はAppleが定めたデザインガイドラインを厳格に遵守しているため、Ferret UIはiPhoneアプリでより効率的にその魔法を発揮する可能性が高いでしょう。

それでも、それは素晴らしい勝利と言えるでしょう。しかも、OSレベルで緊密に構築されたデバイス内実装の話なので、ChatGPT PlusやMicrosoft Copilot Proといった主流の生成AI製品とは異なり、Appleがその利便性に対して料金を請求する可能性は低いでしょう。iOS 18は、AIの賢さを極めた、生まれ変わったiOSの姿をついに垣間見せてくれるのでしょうか?その答えを知るには、Appleの2024年世界開発者会議(WWDC)まで待たなければなりません。

Forbano
Forbano is a contributing author, focusing on sharing the latest news and deep content.