Google DeepMindはAIの能力を現実世界のロボットに拡張する新技術「Gemini Robotics」を発表しました。これは最新モデルGemini 2.0を基にした2つのAIモデルで、ロボットがより柔軟に周囲を理解し行動できるようにするものです。1つ目のGemini Roboticsは画像と言語を理解し、物理的な動作を直接制御できるモデルです。2つ目のGemini Robotics-ERは高い空間認識能力を持ち、開発者が自分のロボットにGeminiの「Embodied Reasoning(環境適応型推論:(例)転びながら最適な歩き方を学習など)」機能を組み込めるモデルです。
Gemini Roboticsの特徴
- 汎用性: 新しい状況や初めて見る作業にも対応し、様々なタスクをこなせます
- 対話性: 人が普段使う言葉で指示でき、環境の変化にも即座に対応します
- 器用さ: 人の手先のような繊細な動き(折り紙を折る等)もこなせます
また、さまざまな形状のロボット(二腕ロボットから人型まで)でも動作可能です。
具体的な活用シナリオ
例えば倉庫の仕分けロボットなら、初めて見る商品も適切に扱い、人の指示を理解して動作できます。環境の変化にも柔軟に対応でき、効率化につながるでしょう。他にもサービス業など幅広い業種での活用が期待できます。
今後の影響とまとめ
Gemini Roboticsは汎用ロボット実現への節目となりました。Googleは米Apptronik社やBoston Dynamics社と提携して人型ロボットの開発や本モデルのテストを進めています。
Google CEOのスンダー・ピチャイ氏もX(旧Twitter)で「この成果は、幅広い用途で人々の役に立つ次世代ロボットの土台を築くものだ」とコメントしています。
今後、人と安全に協働できるロボットが登場し、中小企業にとっても省人化のパートナーとなることが期待されます。
参考:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/