Google Bardが提供している「マルチモーダル」って何? | NEXT DX LEADER

NEXT DX LEADER

Google Bardが提供している「マルチモーダル」って何?

Google AI『Bard』の画像アップロード機能の活用アイデア8選! より

この動画で学べること

  • GoogleのAIチャット「Google Bard」の新機能が分かる。

こんな人におすすめ!

  • AIを使って業務の生産性を上げる方法を考えている人。
  • Google Bardの新しい機能と活用アイデアの例を知りたい人。

「画像のアップロード機能」が飛躍的に広げる用途

DXを学びたい男性
この動画ではどんなことが学べるの?
DXに詳しいロボット
Googleが提供するAIチャットサービス「Google Bard」の日本語版が2023年5月11日から利用できるようになっているのは知ってると思うけど。
DXを学びたい男性
けっこう便利だよね。ChatGPTは2021年9月までの情報しかカバーしてないけど、Google Bardはリアルタイムで最新の情報を踏まえて答えを返してくれるから。
DXに詳しいロボット
そのGoogle Bardが「マルチモーダル」に対応したんだ。
DXを学びたい男性
え、マルチモーダルって何!? 初めて聞く言葉なんだけど。
DXに詳しいロボット
モーダル(modal)というのは「形式上の」という意味で、マルチモーダルとは「テキストや画像、音声、動画など複数の種類のデータを一度に処理できるAIの技術」のこと。今回は「画像のアップロード機能」が新しくできたんだ。

これまでチャットにはテキストしか入れられなかったんだけど、7月13日にリリースされたマルチモーダル機能を使うと、例えば猫の画像をアップロードして「この動物は何か分かる?」と聞くと、Google Bardが画像を解析して答えと判断の理由を返してくれる。
DXを学びたい男性
それってChatGPTにはまだない機能だよね。
DXに詳しいロボット
有料プランのChatGPT Plusで、コードインタープリターを使うとできるようだけど、無料かつ簡単にできる機能としては、まだないね。

この機能の用途はアイデア次第だけど、例えばある場所の画像をアップロードして「ここはどこだか分かる?」と聞くと、「このタワーはおそらくスカイツリーであり、日本で最も高い建造物であり、世界で2番目に高い建造物です」「このイメージが東京であると私が考える理由は次のとおりです」といった回答を返してくれる。

画像データから複数のカラーコードを抽出することも

DXを学びたい男性
なるほど。SNSでシェアされた写真も場所が特定できちゃうね。
DXに詳しいロボット
このほか、動画で紹介しているのは「数式の載った計算ドリルの画像をアップし、答えと計算方法を教えてもらう」とか「リビングの画像をアップし、室内にある椅子やテーブルの製品候補をあげてもらう」といったアイデアだ。
DXを学びたい男性
これまでGoogleレンズGoogle画像検索でもできていた機能を、チャットで答えてもらえるようになったわけだ。
DXに詳しいロボット
応用編としては「風景の画像をアップし、画像内の複数の箇所から16進数のカラーコードを抽出してもらう」というアイデアもあった。あわせてRBG値やCMYK値も出してくれて、さらにそれを表にして、そのままスプレッドシートにエクスポートできてしまう。
DXを学びたい男性
仕事にも使えちゃう!
DXに詳しいロボット
動画では「一枚の水彩画から、絵本の物語を作る」とか「ウェブデザインのワイヤーフレームからHTMLコーディングをしてもらう」とか「料理の材料の写真から、どんな料理が作れるか提案してもらう」といった用途も紹介されているので、ぜひ確認してほしい。
DXを学びたい男性
それは思いつかなかったな。用途を自分で考えることができる人にとっては、可能性が広がる機能だね。
DXに詳しいロボット
現在は英語版でしか使えず簡単な設定が必要だけど、「回答を日本語に翻訳して」と頼めばすぐにやってくれるし、そんなに負担なく使えると思うよ。

メールマガジン「NEXT DX LEADER」をメールでお届けします。 DX関係の最新記事、時事ネタなどをお送りする予定です。

YouTube:Google AI『Bard』の画像アップロード機能の活用アイデア8選!

考察記事執筆:NDX編集部

Google AI『Bard』の画像アップロード機能の活用アイデア8選!の再生回数推移