パナソニック ホールディングスとパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者と共同で、テキストや画像、音などの異なるデータ形式を自由に相互変換できる“Any-to-Any手法”のマルチモーダル生成AI「OmniFlow」を開発した。
パナソニック ホールディングス(パナソニックHD)とパナソニックR&Dカンパニーオブアメリカ(PRDCA)は2025年6月4日、カリフォルニア大学ロサンゼルス校(UCLA)の研究者と共同で、テキストや画像、音などの異なるデータ形式を自由に相互変換できる“Any-to-Any手法”のマルチモーダル生成AI(人工知能)「OmniFlow」を開発したと発表した。パナソニックグループは工場やくらし領域などの現場に向けて幅広い事業を展開しており、これらの事業で最適なAIを構築するにはリアルな空間を学習できる複数のモーダルをペアにしたデータが多数必要になる。OmniFlowを使えば、テキストや画像、音といった単一モーダルの少量のデータから複数のモーダルのデータを生成できるので、データ収集コストを抑えながらさまざまな現場に最適化したAIモデルを開発できるようになる。
近年、異なるデータ形式同士の変換を実現する“Any-to-Any”と呼ばれるマルチモーダル生成AIの研究が盛んに行われている。しかし、その学習データとしては、テキストや画像、音などの取り扱いたいモーダルのデータを全てペアにして用意する必要がある。しかし、単一モーダルのデータが収集しやすいのに対し、ペアにするモーダル数が増えるとデータ収集の難易度が上がりコストも上昇してしまう。
実際に、単一モーダルに特化した生成AIは学習データを用意しやすいこともあり既に数多くの開発成果がオープンソースで公開されるなどしている。今回開発したOmniFlowは、既存の単一モーダル特化型生成AIを組み合わせてマルチモーダル化することで、ペア学習データを容易に自動生成できるようにすることがコンセプトになっている。
これまでに、単一モーダル特化型生成AIを組み合わせてマルチモーダル化する手法は提案されているものの、各モーダルの特徴を平均していることもあって表現能力に課題があった。OmniFlowでは、最新の画像生成AIで採用されつつある、任意のデータ同士の最適な変換経路をフロー(Flow、流れ)で求める「フローマッチング」の枠組みを、生成画像の多様性をコントロールするのに用いられる「分類器なしガイダンス」を組み合わせることで拡張した。
Copyright © ITmedia, Inc. All Rights Reserved.