最近、サムスン電子は音声や視覚情報など多様な形態の情報を統合して認識する「マルチモーダルAI」を中心に、ユーザーの生活習慣などを反映した「パーソナライズされたAIエコシステム」を構築することを宣言し、大きな話題となりました。
単にスマートフォンに限定されたAIではなく、サムスンのAIエコシステムに属するすべての電子機器や周辺機器を通じて、ユーザーの意図や文脈を把握する一種の「カスタマイズAIアシスタント」を実現することが、サムスンの最終的な目標だとも言えます。
今回のポストでは、私たちの日常に近づいてきたAIアシスタントに隠された技術についてご紹介します。
![]() |
▲ マルチモダールAI機能が搭載されたGalaxy Fold7新製品 <出処:サムスンニュースルーム、https://bit.ly/3GzLsWc> |
「どなたをお呼びですか?」ー音声コマンドデバイスとAIアシスタントの相互作用
技術の進歩によって音声認識をサポートするデバイスが徐々に増えていく中で、「インテリジェントアシスタント」の重要性もますます高まっています。従来の音声認識は、事前に学習されたコマンドでなければ認識できず、事実上「口でボタンを押す」レベルにとどまっていました。
しかし今日では、人と会話するかのように精巧で高度な認識能力を示すようになってきています。
![]() |
▲Wipsglobal.com、KR10-2023-7034829、「音声コマンドデバイスにおけるインテリジェントアシスタントとのマルチモーダル相互作用」 |
サムスン電子は最近、「音声コマンドデバイスにおけるインテリジェントアシスタントとのマルチモーダル相互作用」という特許を登録しました。
この特許は、サムスンが製造するスマートフォンやタブレット、スマートウォッチといった「Galaxyエコシステム」に属する機器だけでなく、自社の家電製品や自動車にまで適用可能な技術となっています。
音声認識技術をサポートする複数のデバイスが存在する環境において、ユーザーがどの機器を通じてインテリジェントアシスタントを呼び出したのかを特定し、それに基づいてどの機器でアシスタントがどのように相互作用を行うかを判断する技術だと言えます。
複数の機器が一つの「インテリジェントアシスタント」への統合を目指す時代の流れを考えると、この技術はAIによる正確で賢いコマンド実行を可能にするとともに、副次的にはスマートフォンでAIアシスタントを呼び出した際に周囲のすべての機器が同時に応答する、いわゆる「合唱現象」を防ぐ効果も期待できます。
「マルチモーダルAIはどのように賢くなるのか」ーマルチモーダルデータ学習方法
マルチモーダルAIは、従来型の単純なAI(例:テキストからテキストへの変換を行うAIなど)に比べ、より複雑な情報処理能力が求められます。これは、2つ以上の異なる領域からの情報を同時に認識し、データ間の関連性を見出し、それに基づいた適切な応答を導き出さなければならないためです。
![]() |
▲Wipsglobal.com、KR10-2018-0029403、「マルチモダールデータ学習方法及び装置」 |
サムスンが公開した特許によると、マルチモーダルAIのデータ学習方式は、異なる信号をそれぞれのネットワークで処理した後、それらの信号の文脈を把握し、相互関係を分析して、隠れたユーザーの意図を理解するプロセスを訓練するものだそうです。
例えば、クローゼットにドレスとトレーニングウェアが一緒に掛かっていて、「パーティーに着て行く服を選んで」と話しかける状況を想定してみましょう。
AIは「クローゼットの中の服から条件に合うものを探す必要がある」と「パーティーに着て行く服が必要だ」という二つの文脈を把握し、それらの相関関係を分析して「パーティーに着て行くフォーマルな服を望んでいる」という意図を理解します。その上でAIは導き出した意図に基づき、「ドレスが良いでしょう」という結論を出すわけです。
マルチモーダルAIの学習方法は、このように複数の情報間の文脈を理解し、隠された情報を抽出する能力を育成することで、AIがあらゆる状況で活用できるよう、より広範囲の問題解決能力を備えることを目指していると言えるでしょう。
「本当に人のように見つめるマルチモーダルAI?」― 複数オブジェクト視覚探索技術
前述のとおり、マルチモーダルAIの究極的な目標は「意図と文脈を把握し、正確な命令を実行するインテリジェントアシスタント」を実現することにあります。
従来のAIに比べ、目の前の状況をまるで友人と会話するように共有しながら情報を処理できるレベルにまで進化してはいるものの、指示された命令を実行するために必要な視覚情報をどこから探し出すべきかについては、事前学習が必要である点から、まだ発展の余地があるとも言えるでしょう。
![]() | |
|
しかし、韓国の高麗大学による「多重客体視覚探索作業のためのマルチモダールディープラーニングモデル」は、マルチモーダルAIと結合することで、より精巧なAIの実現を可能にするかもしれません。
この特許は、テキストと画像解析技術を同時に活用し、与えられた画像内の関連オブジェクト情報に基づいて、ユーザーが意図する注視点を予測する方法に関するものです。
例えば「このキッチンの中でオーブンと冷蔵庫を見つけて」と命令したとしましょう。従来の方式では注視経路が指定されていない場合、天井を先に見渡してから他の場所へ移動するなど、非効率的な注視経路を選ぶ可能性がありました。しかし、このモデルを適用すれば、「冷蔵庫」や「オーブン」という語の事前的属性から「床や壁面に配置される」という特徴を抽出し、まず壁や床を確認した上でその周辺に視線を移すといった効率的な注視経路を選択できるのです。
このような技術がGoogleの「Gemini Live」のようなリアルタイム・マルチモーダルAIサービスと組み合わされば、ユーザーから伝達される情報を迅速に処理できるようになり、本当に人と会話するように「見て話す」AIの実現が容易になると思います。
「〇〇について適切な答えを見つけられませんでした」を解決する固有名詞学習法
従来の音声認識AIの欠点として、事前に学習されていない単語であればユーザーの発話を誤認識してしまう問題(例:サムスンのBixbyが「火鍋」を「キャプチャー」と誤って認識した問題など)、あるいは勝手に単語を推測して不正確な回答を導き出してしまう問題がありました。こうした欠点は、人間と自然にコミュニケーションを取ろうとする人工知能を目指す最近のトレンドにおいて、致命的な弱点となり得ます。
Japan Tel: +82-2-726-1113, 1107 | Fax: +82-2-777-7334 | wips-jp@wips.co.kr
0 件のコメント:
コメントを投稿