汎用ヒト型ロボットの予兆

2023年11月

著者:Rob Edmonds

人型ロボットが近いうちに、より意味のある商品化されることを示唆する兆候もある。いくつかの企業は、ヒューマノイド・ロボットを大衆市場に送り出したいとさえ考えている。

ロボットにはさまざまな形態がある。例えばドローンは、様々な種類の調査や検査に広く利用されている。ロボットアームは、先進的な製造業の中では一般的な存在になっている。倉庫用ロボットも人気が高まっており、一部は自動化パレットに似たものもある。実験用ロボットには、柔らかい素材を使ったものや一群として動作する小型のスワーム飛行ロボットなどがある。

しかし、子どもにロボットの絵を描くように言うと、ヒューマノイド(ヒト型ロボット)の絵を描くことが多い。この興味深い傾向の起源は、18世紀から19世紀の自動化の歴史の初期にまでさかのぼる長い過去があるのかもしれない。以来数え切れないほどのSF小説の中でヒト型ロボットが描かれてきたことを考えると合点がいく。人間が航空機のエンジンの中を飛び回ったり這いまわったりできないように、非ヒト型ロボットにはそれなりの利点がある。しかし、現実世界で構築された環境のほとんどは人間の形を中心に設計されている。言い換えれば、ヒト型ロボットであれば、「汎用」アプリケーションをもっともらしく実行することができるということだ。

ロボット研究者たちは数十年にわたってヒト型ロボットに取り組んできたが、商用化された製品は少なく、それらの多くは他の研究者のツールとしての役割しか果たしてこなかった。注目すべきことに、ロボット研究開発企業のボストンダイナミクスは、おそらく現在最も進んだヒト型ロボットである同社の「Atlas」を商業化するつもりはないと述べている。
しかし今、ヒト型ロボットがより意味のある形で実用化される可能性がある兆候も見られ、いくつかの企業は、実際にマスマーケットに届けようとしている。以下はそれらの企業の一例である。

Figure:

Figure社は、汎用ヒト型ロボットをターゲットとしたシリコンバレーのスタートアップだ。同社の資金は1億ドルを超えており、開発チームには、グーグルやテスラ、ボストンダイナミクスのロボットチームの元従業員も在籍している。Figure社は最近、歩行可能で、5本指のヒトのような手を持つロボットを発表した。まだ手は完全には機能しておらず、ひざの動きがあまりなめらかではないが、チームはボストンダイナミクスのAtlasの開発などを大幅に上回る、1年という速いペースでプロトタイプを達成した。

Agility Robotics:

Agility Robotics社は、箱を持ち上げるなど簡単な動作ができ、歩くヒト型ロボット「Digit」の販売を始めた。同社は物流用途をターゲットにして成功を狙っている。特に、アマゾンとフォードはともに、倉庫保管用ロボットとしてDigitをテストしている。おそらく最も重要なのは、Agility Robotics社が一般市場に向けて準備していることだろう。同社は最近、オレゴン州に6,500平方メートルの面積の工場を完成させ、年間10,000体のDigitロボットを生産できるようになると述べている。ただし、最初の生産は数百体になるだろう。

Fourier Intelligence:

シンガポールのFourier Intelligence社は、ヒト型ロボット「GR-1」の生産設備を紹介する新しい動画を最近発表した。同社は、2023年末までに100台のロボットを顧客向けに出荷する予定だという。実際には、これらの「顧客」はR&Dパートナーだが、それでも最大50kgの物体を運べることが特徴のGR-1には大きな可能性が秘められているようだ。

Tesla:

Teslaの事例はまだ製品ではなく自社の研究向けのプロジェクトではあるが、確かにヒト型ロボット「Optimus」の開発を進めている。Optimus は、Tesla 車両が映像データを動作に転換するために使用しているAI システムを使っている。同社は最新のビデオで、Optimusが手足の位置を正確に把握し、ヨガポーズを実行し、色付きのブロックを仕分けている様子を見せた。

ヒト型ロボットの潜在的な進歩の鍵は、そのようなロボットの学習能力を加速させる可能性のあるAIの進歩であると言える。特に、ロボット研究者は、GPT-4のような有力な生成型AIシステムを動かす大規模言語モデル(LLM)のバリエーションをロボティクスに適用することに一定の成功を収めている。

トヨタは最近、Columbia Engineering社とマサチューセッツ工科大学(MIT)と提携し、人間の演技を真似てタスクの実行を教える「Diffusion Policy」と呼ばれる新しいロボット学習アプローチを採用した。大規模言語モデルが人間の書いた文章から学ぶのに似たこの方法を「画期的」である主張している。トヨタは、その結果得られた「大規模行動モデル」に、2023年末までに数百、2024年末までに1,000を超えるタスクが含まれることを期待している。現在の実験では、じゃがいもの皮剥きや、パンにバターを均等に塗る作業など、キッチンでの作業に焦点が当てられている。

またGoogleの研究者は、ロボットを制御するための新しいタイプの大規模言語モデル「PaLM-E」を開発した。大規模言語モデルをロボット制御に使用するこれまでの試みとは異なり、PaLM-Eは、テキストデータだけでなく、ロボットセンサーデータの生のストリームを取り込むことができる。他のよりシンプルなプロジェクトでは、現在の大規模言語モデルをロボティクスと統合している。一例を挙げると、マイクロソフトは、ChatGPTを用いてロボットアームの制御を行った。また、スコットランドのHeriot-Watt 大学とAlana AI社の研究者は、人工的な音声や表情と生成AIを組み合わせて人間のパートナーとの話し合いを行うヒト型ロボットヘッド「FurChat」を作成した。

これまで見てきた事例は、ヒト型ロボットの技術が今後数年以内に十分に進歩を遂げて有用な製品が生み出される可能性があることを示唆している。今後製造設備への投資が進み、数量が増えればコストは下がるだろう。不確実性が大きいのは需要の方である。

Figure社が同社のウェブサイトで示しているように、ロボット応用の進展の過程には、ロボットを人間のいる環境に適合させること(ヒューマノイド)と、環境をロボットに適合させること(ロボットに最適化された倉庫や工場など)の二つのアプローチが存在する。これまでのところ、環境を最適化するアプローチが、より成功しているのは確かだ。ロボットに最適化した環境は、ロボットのタスクを単純化するだけでなく、人間環境に最適化するよりも利点を持つこともある。たとえば、ロボットに最適化された倉庫や工場は、立体空間をより効率的に利用できる。しかし、最適化された環境アプローチが倉庫、工場、工業空間、その他いくつかの環境で勝利したとしても、そこに多くの人間がいるような空間では、このアプローチは通用しない。一般的には、住宅、戦場、小売店、病院、ホテル、市街地などは、人間を排除するように再構成することはできない。そうした場所の数々が、ヒト型ロボットの潜在的市場と言えるだろう。(英文)