Geminiとはなにか?
Googleが開発した最新のマルチモーダルAI「Gemini」は、テキスト、画像、音声、映像など複数の形式を同時に処理できる次世代型の生成AIです。当初「Google Bard」という名称で知られていましたが、大規模なアップデートを経て「Gemini」に進化しました。
Geminiの特徴
高性能なマルチモーダルAI
Geminiは、画像やテキストなど複数のデータ形式を同時に処理できる「マルチモーダル機能」を備えています。例えば、音声入力した内容を元に画像を生成する、といったことも可能です。
Google公式の動画によると、Tシャツを着ている男性の画像データを読み込ませると、以下の情報をアウトプットしてれるとのことです。
・性別:男性
・ジャンル:Tシャツ
・カラー:グリーン&オレンジ
・利用シーン:カジュアル
・Tシャツのレコメンド理由
参考:Gemini で実現するマルチモーダル生成 AI - ユースケースとアーキテクチャの理解を深める
https://www.youtube.com/watch?v=2OHCVZvfhes
※該当部分 9:35 -
また、AI自体の精度が高いので、複雑な質問にも高い精度で回答できます。膨大なデータから識別が難しい情報を発見することができ、科学や金融など多くの分野での研究や調査での利用が期待されています。
自然言語処理の能力が高い
自然言語処理(NLP)の能力が高く、単なる翻訳や要約だけでなく、文章の意図や感情を正確に理解し、スムーズに応答できるのが特徴です。
学習の速度が早い
他のAIモデルと比べて、少ないデータ量でも素早く適応できるため、新しいタスクにも柔軟に対応できます。入力内容を学習して進化する速度が早いため、使い勝手が良いです。
生成の速度が早い
筆者の個人的な意見ですが、ChatGPTやClaudeといった他の生成AIと比較しても、チャットしてからの回答の速度がかなり早いように感じました。
コード生成の質が高い
PythonやJava、C++、Goといったさまざまなプログラミング言語で、高品質なコードを生成可能です。特に、複雑なアルゴリズムやデータ処理の分野でも、高精度な回答が期待できます。
Googleのサービスと連携して使える
Gmail、Google ドキュメント、Google スプレッドシートなど、多くのGoogle製品に統合されているため、各製品上でスムーズに連携が可能です。スプレッドシートでのデータ分析やグラフ作成、ドキュメントでの校正や文章要約、Gmailでの返信文作成などが可能になっています。
モバイルアプリもある
GeminiはAndroidやiPhoneなどのスマートフォン・タブレットのモバイルアシスタントとしても使用できます。モバイル用に特化された「Gemini Nano」というモデルがあります。特にGoogle Pixelとの相性は高く、音声アシスタント「Gemini Live」を使うことで、音声での入力も可能になります。
Geminiのモデル
Gemini Nano
スマートフォン向けに設計された軽量モデルで、チャットの返信などに特化しています。モバイルデバイス上でのタスクの処理に向いています。
Gemini Pro
汎用タスクに対応する一般的なモデルです。パソコンやWebブラウザで使ったときのGeminiに標準装備されています。
Gemini Ultra
有料版のGemini Advancedで利用可能な高性能モデルです。複雑なタスクに対応する高性能モデルで、テキスト、画像、音声、動画、コードなどの多様な情報を迅速に理解し、処理します。
Geminiの料金
基本機能は無料で利用可能です。有料プラン「Gemini Advanced」(月額2,900円)では、高性能なGemini Ultraが使えるようになります。画像生成機能を使う際、人物の画像を生成するには有料プランが必要です。初回2ヶ月は無料トライアル付きです。
Gemini Pro 1.5ではAPI利用可能で、他の生成AIと同様に使用トークン数に対して課金されます。
他の生成AIとの比較
高いベンチマークスコア
Googleの発表したベンチマークスコアでは、テキスト・映像・画像・コーディングなどのタスクのパフォーマンスにおいて、GPT-4を超える成績を達成しています。Gemini Ultraは32のベンチマーク項目中、30の項目で既にある最高水準の結果を上回っているとのことです。
参考記事:最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
https://blog.google/intl/ja-jp/company-news/technology/gemini-jp/
マルチモーダル対応の深さと高度な推論
ChatGPTやClaudeと比較しても、とくに画像・動画をスムーズに処理するマルチモーダルの機能性の高さが特徴的です。また、高度な推論と専門分野の対応力も、他の生成AIより優れていると言われています。
Googleサービスとのスムーズな統合
汎用タスクにおいては他のAIと大きく差はないかもしれませんが、やはりGoogleが提供するAIだけあって、多くの業務の中で組み込まれるGoogleサービスとの連携は唯一無二の強みです。
現在はまだチャット内容をスプレッドシートで生成する、あるいはテキストを要約するような簡易的な連携に留まりますが、Google AnalyticsなどのWebマーケティング系のツールなどの連携などが進むと、自社のWebデータを自動で分析するなどの使い方も進んでいくでしょう。
Geminiの使い方
ここからはGeminiの使い方を紹介します。
Geminiの登録方法
https://gemini.google.com/appにアクセスします。
右上のログインを押すと、Googleアカウントでのログインが求められます。ログインすると、チャット可能な画面に移ります。
すでにGoogleアカウントでブラウザにログインしている場合、Geminiをそのまま使用可能です。
左上のプルダウンメニューから、モデルを選びます。
Geminiの無料版では、1.5 Flashと2.0 Flash Experimentalの2つが使用可能です。
Geminiに実際にプロンプトを入れてみる
来週の天気を教えてもらう
Googleで取得している位置情報を元に、天気を出力してくれます。
単式簿記と複式簿記の違いを教えてもらう
単式と複式の違いを教えてくれるだけでなく、どのケースにはどちらを選ぶべきか、的確に教えてくれます。
「Google スプレッドシートにエクスポート」すると、内容をシートでまとめてくれています。これは他の生成AIにない、業務にも組み込みやすいメリットです。
不動産売却マッチングプラットフォームのWebマーケティング事業計画
別の例を見てみましょう。
中古不動産物件の売買マッチングプラットフォームを運営していると仮定して、現状の売上件数が、広告を打つことでどのくらいの変化があるのか、事業計画を作成してもらいます。
このように、具体的なシミュレーションを出してくれます。
スプレッドシートに出力可能なので、こういった事業計画の作成などが初めての方は、たたき台を作成してもらうのに最適です。
文章の英訳
こちらも、Google ドキュメントに吐き出してもらいます。
Google ドキュメントには吐き出してくれず、コピペを推奨されました。スプレッドシートと違い、たしかに手間を考えるとドキュメントはコピペで問題ないものの、吐き出してくれることはないようです。
Imagen3による画像生成
Gemini上でできる画像生成は、Imagen3という画像生成AIを利用します。
「ガンジス川の風景の画像」を生成してもらいます。
一方で、人物の画像生成は有料プランのGemini Advancedでないとできないようです。
音声アシスタントのGemini Live
自然な会話をAIとできるGemini Liveは、AndroidやiPhoneで利用可能です
Gemini Liveの使い方
Androidスマートフォンまたはタブレット、またはiPhoneで、Gemini モバイルアプリを開きます。「OK Google」と言うと起動できる設定もあります。
モバイルアプリの下部の「Gemini Live」をタップすると、音声会話が可能です。
まとめ:Geminiは業務で使われる生成AIとして浸透していく
今回の記事ではGeminiの使い方や特徴を説明していきました。生成AIの進化は目覚ましく、他の生成AIでも業務に組み込めるクオリティのものがたくさん登場していますが、やはりGeminiはGoogleサービスと連携できる点が魅力的です。特に中小企業では業務でGoogleサービスを使う人は非常に多いため、今の段階でGeminiに慣れておくことで、今後よりGoogleサービスとの連携が強化された時に、他のAIを使うよりもアドバンテージが取れる可能性があります。