Physical Intelligence 社は、ロボットの学習方法に驚くべき進歩をもたらすという約束のもと、オールスターチームを結成し、4 億ドルを調達しました。
サンフランシスコのミッション地区にある金属製のドアに刻まれた一文字「π」は、その向こうで行われている労働の好循環についての謎めいたヒントを与えている。
ドアが開くと、人間と機械が激しく動き回る様子が目に飛び込んでくる。女性が2本のジョイスティックを使って卓上ロボットアームを操作し、Tシャツを丁寧に持ち上げて畳み、きちんと積み重ねている。複数の大型ロボットが、散らかった箱から別の箱へと食料品を移動させている。部屋の片隅では、男性が手首に装着するプラスチック製のペンチを操作している。ペンチの上部にはウェブカメラが取り付けられている。ロボットの部品が部屋中に散乱している。
この倉庫は、Physical Intelligence(別名PIまたはπ(正面玄関のシンボルに由来))の本拠地です。同社は、ロボットの人工知能(AI)を大幅に向上させることを目指すスタートアップ企業です。同社の夢に対する期待と興奮は計り知れず、投資家たちはAI分野における画期的なブレークスルーに数億ドルを賭けています。Physical Intelligenceは先週、OpenAIやジェフ・ベゾスを含む投資家から4億ドルを調達し、評価額は20億ドルを超えたと発表しました。
建物の2階にあるガラス張りの会議室で、新興企業のCEOであるカロル・ハウスマン氏は、柔らかなポーランド訛りで数日間の無精ひげを生やした背の高い男性で、ビジョンを説明している。
「もし新しいロボットを操作させられたら、少し練習すれば、おそらく操作方法を理解できるでしょう」とハウスマン氏は言う。「そして、もし私たちが本当にこの問題を解決できれば、AIも同じことができるようになるでしょう。」
フィジカル・インテリジェンスは、膨大な数のデモンストレーションを行うロボットから得たセンサーデータと動作データをマスターAIモデルに取り込むことで、ロボットに人間のような物理世界の理解と器用さを与えることができると考えています。「私たちにとって、これこそが物理知能を『解明』するために必要なことです」とハウスマン氏は言います。「ロボットを私たちのモデルに接続するだけで、ロボットに知能を吹き込むことができるのです。」
近年のAIの驚異的な進歩にもかかわらず、ロボットを特に賢く、あるいは有能にする方法を誰も解明できていません。工場や倉庫にある機械は、本質的にはハイテクな自動機械であり、機知や創意工夫のかけらもなく、正確に指示された動作をこなしています。
ハウスマン氏のほか、数名の共同設立者も会議テーブルに着いている。カリフォルニア大学バークレー校の眼鏡をかけた若き准教授セルゲイ・レバイン氏、以前グーグルでハウスマン氏と働いていたことがある親しみやすい髭面のブライアン・イヒター氏、そしてビデオリンクで参加するスタンフォード大学の助教授チェルシー・フィン氏だ。
集まったチームは、ChatGPTのような会話型AIを支える大規模言語モデル(LLM)の驚異的な能力をはじめとする、近年のAIの進歩からインスピレーションを得たロボット革命への希望を燃え上がらせています。彼らは、同じレベルの驚異を現実世界にももたらすことができると確信しており、それもすぐに実現できるでしょう。
AIの言語スキルは2018年に変化し始めました。OpenAIが「Transformer」と呼ばれる機械学習モデルが、開始文字列を与えると驚くほど一貫性のあるテキストの塊を生成できることを示したのです。コンピューター科学者たちは、言語の複雑さと曖昧さをすべて処理するプログラムの開発に何十年も費やしてきました。OpenAIの「Generative Pretrained Transformer」(GPT)と呼ばれるモデルは、書籍やインターネットから吸い上げた膨大な量のデータを入力するにつれて着実に改善し、最終的には説得力のある会話を交わし、幅広い質問に答えられるようになりました。
2022年初頭、当時Googleに在籍していたハウスマン氏とイヒター氏は、レヴィン氏、フィン氏らと共同で、LLMがロボット知能の基盤にもなり得ることを示しました。LLMは物理世界と相互作用することはできませんが、膨大な学習データのおかげで、物体や風景に関する豊富な情報を有しています。世界について読むだけで理解する人のように不完全ではありますが、そのレベルの洞察力は、ロボットに単純な行動計画を立てる能力を与えるのに十分な可能性があります。
ハウスマン氏らは、カリフォルニア州マウンテンビューにあるGoogle本社の模擬キッチンで、片腕ロボットにLLMを接続し、オープンエンドの問題を解決する能力を与えた。ロボットに「テーブルにコーラをこぼした」と伝えると、LLMを使って缶を見つけて回収し、ゴミ箱に捨て、スポンジを使って汚れを拭き取るという、合理的な行動計画を立てた。これらはすべて、従来のプログラミングを一切必要とせずに実行された。
研究チームはその後、テキストと画像の両方で訓練された視覚言語モデルを同じロボットに接続し、周囲の世界を理解する能力を向上させました。ある実験では、様々な有名人の写真を近くに置き、テイラー・スウィフトにソーダ缶を渡すようにロボットに指示しました。「テイラーはロボットの訓練データには全く登場していませんでしたが、視覚言語モデルは彼女の容姿を認識しているんです」と、長い茶色の髪に満面の笑みを浮かべたフィンは言います。
その年の後半、ChatGPTが急速に普及し始めた頃、チームはニュージーランドのオークランドで開催された学術会議でロボットのデモを行うことにしました。カリフォルニアにいる聴衆に、好きなコマンドを入力してロボットを操作できる機会を提供しました。聴衆はロボットの総合的な問題解決能力に驚嘆し、ChatGPTのより広範な応用についても話題が広がりました。
LLMはロボットのコミュニケーション、物体の認識、そして計画立案を支援するかもしれないが、行動を起こすという最も基本的な能力は、物理世界に関する知能の欠如によって阻害されている。人間にとって、奇妙な形の物体を掴む方法を知ることは容易なことであり、それは三次元の物体の挙動や手や指の働きを深く本能的に理解しているからに他ならない。集まったロボット工学者たちは、ChatGPTの驚異的な能力が、言葉ではなく行動を大規模に捉え、そこから学習できれば、ロボットの身体能力においても同様に素晴らしい成果をもたらす可能性があると認識した。「会場は熱気に包まれていました」とフィン氏は当時のことを振り返る。
この方法が実際にうまくいくかもしれないという兆候は既に現れている。2023年、フィジカル・インテリジェンスの共同創設者であるクアン・ヴォン氏は、21の異なる機関の研究者を集め、単一のトランスフォーマーモデルを用いて22種類のロボットアームを様々なタスクで訓練した。その結果は、個々の要素の総和以上のものだった。「ほとんどの場合、新しいモデルは、研究者がロボット専用に開発したモデルよりも優れていました」とフィン氏は言う。
人間が幼少期に物に不器用に取り組むことから数年後にピアノを弾けるようになるまで生涯にわたる学習を積むのと同じように、ロボットに大量のトレーニングデータを供給することで、驚くべき新しいスキルが習得される可能性があります。

写真:ウィル・ナイト
ロボット革命への期待は、アジリティやフィギュアといったスタートアップ企業、そしてヒュンダイやテスラといった大企業が次々と発表するヒューマノイドロボットによっても高まっている。これらのロボットの能力はまだ限られているものの、遠隔操作によるデモによってその能力がさらに向上しているように見せかけ、支持者たちは大きな期待を寄せている。イーロン・マスクは最近、2040年までに地球上の人口がヒューマノイドロボットの人口を上回る可能性があるとまで示唆したが、この主張は鵜呑みにしない方が賢明だろう。
基礎研究のブレークスルーを追い求める企業に数億ドルを投資するという考えは、狂気の沙汰に思えるかもしれない。しかし、OpenAIは投資がどれほど大きなリターンをもたらすかを示しており、Physical Intelligenceへのシード投資と、スタートアップファンドを通じた最新の投資の両方に貢献している。「投資の根拠は人材です」と、OpenAIの考え方に詳しい情報筋は語る。「彼らは世界最高峰のロボット工学の人材を擁しています。」
OpenAIもロボット工学への取り組みを強化しているようだ。先週、Metaで仮想現実(VR)および拡張現実(AR)ヘッドセットの開発を率いていたケイトリン・カリノフスキー氏が、LinkedInでOpenAIに入社し、ロボット工学を含むハードウェア開発に取り組むことを発表しました。
OpenAIのCEOサム・アルトマン氏の友人であり、Physical Intelligenceの投資家兼共同創業者であるラチー・グルーム氏が、会議室でチームに加わり、計画のビジネス面について議論した。グルーム氏は高級感のあるパーカーを着ており、驚くほど若々しく見える。彼は、Physical Intelligenceにはロボット学習におけるブレークスルーを追求するための十分な時間的余裕があると強調する。「ちょうどクシュナー氏と電話したばかりです」と彼は、このスタートアップのシード投資ラウンドを主導したThrive Capitalの創業者兼マネージングパートナー、ジョシュア・クシュナー氏について言及した。もちろん、彼はドナルド・トランプの義理の息子、ジャレッド・クシュナー氏の実弟でもある。
他にも数社が、同様のブレークスルーを目指している。カーネギーメロン大学のロボット工学者によって設立されたSkildは、7月に3億ドルを調達した。「OpenAIが言語用のChatGPTを開発したのと同じように、私たちはロボット用の汎用脳を開発しています」と、SkildのCEOでカーネギーメロン大学の助教授でもあるディーパック・パタック氏は語る。
OpenAI が AI の言語コードを解読したのと同じ方法でこれが達成できるかどうか、誰もが確信しているわけではない。
LLMの学習に利用可能なテキストデータや画像データに類似した、ロボットの行動に関するインターネット規模のリポジトリは存在しません。いずれにせよ、身体知能の飛躍的な進歩を達成するには、指数関数的に膨大なデータが必要になるかもしれません。
「次元的に言えば、連続した単語は、物理世界における物体のあらゆる動きや活動に比べれば、小さなおもちゃに過ぎません」と、スキルドには関わっていないカーネギーメロン大学のロボット工学者イラー・ヌールバクシュ氏は言う。「物理世界における私たちの自由度は、アルファベットの文字よりもはるかに大きいのです。」
カリフォルニア大学バークレー校でロボットへのAI応用を研究するケン・ゴールドバーグ氏は、データ駆動型ロボット革命やヒューマノイドロボットといったアイデアをめぐる熱狂が、過剰なまでに過大評価されていると警告する。「期待される性能レベルに到達するには、『昔ながらのエンジニアリング』、モジュール性、アルゴリズム、そして評価指標が必要になるでしょう」とゴールドバーグ氏は語る。
マサチューセッツ工科大学のコンピュータ科学者であり、トヨタ・リサーチ・インスティテュートのロボット研究担当副社長を務めるラス・テドレイク氏は、法学修士課程の成功により、自身も含め多くのロボット研究者が研究の優先順位を見直し、より野心的な規模でロボット学習を追求する方法を見つけることに注力するようになったと述べています。しかし、テドレイク氏も依然として大きな課題が残っていることを認めています。
大規模な学習によってロボットの汎用能力を解き放つというアイデアについて、テドレイク氏は「まだ夢のようです」と語る。「人間が生命の兆候を見せているとはいえ」
テドレイク氏は、進歩の秘訣は、ロボットに新しい学習方法を教えることだと示唆している。例えば、人間が何かをしているYouTube動画を見せるといったことだ。この方法が、将来の機械に、TikTokダンスやボトルフリップといった超自然的な能力といった奇妙な行動をもたらすのではないかと懸念されている。テドレイク氏によると、このアプローチでは、まずロボットに何かを掴むといった単純な動作を教えるだけであり、実際のロボットの作業から収集したデータと組み合わせる必要があるという。
「あなたや私がYouTube動画を見る際に知能を働かせれば、人が使う力を推測できるようになります」と彼は言う。「ロボットが物理的なものとインタラクションするだけで、ある程度の学習は可能です。」
ハウスマン氏は私を階下に案内し、フィジカル・インテリジェンス社がロボット学習を大規模に展開する計画を見学させた。現在、2本のロボットアームが同社のアルゴリズムを用いて、人間の助けを借りずに衣類を畳もうとしている。アームは素早く確実に動き、Tシャツを拾い上げると、まるで子供がするようにゆっくりと雑に畳み、そのまま床に放り投げる。

写真:ウィル・ナイト
ハウスマン氏によると、衣類を畳むといった特定のタスクは、ロボットの訓練に特に有効だという。なぜなら、これらのタスクは、操作中に歪んだり崩れたり、曲がったりすることが多い多種多様なアイテムを扱うことになるからだ。「これは良いタスクです。真に解決するには一般化する必要があるからです」と彼は言う。「たとえ大量のデータを集めたとしても、衣類が取り得るあらゆる状況でデータを収集することはできないでしょう。」
Physical Intelligenceは、eコマース企業や製造業など、様々な用途のロボットを保有する企業と連携することで、より多くのデータを収集したいと考えています。また、ウェブカメラを搭載したピンセットのようなカスタムハードウェアの開発も検討しています。このハードウェアの用途はまだ明らかにされていませんが、日常的な作業を行う人間を対象に、クラウドソーシングによるトレーニングが可能になるかもしれません。
デモを見た後、Physical Intelligenceを後にした私は、もっと賢いロボットの登場というアイデアに胸を躍らせていた。再び陽の光の中に足を踏み入れると、ChatGPTのようなロボットが現実世界に進出し、多くの物理的な作業を担うことに、世界は果たして本当に備えができているのだろうかと疑問に思った。ChatGPTは工場や倉庫に革命をもたらし、経済に恩恵をもたらすかもしれないが、AIによる労働自動化の可能性について、より広範なパニックを引き起こす可能性もある。
数か月後、私は Physical Intelligence 社に連絡を取り、チームがすでにロボット分野で目覚ましい進歩を遂げていることを知りました。
ハウスマン氏、レバイン氏、フィン氏はズームウィンドウに集まり、同社が50を超える複雑な一般的な家事作業に関する膨大な量のトレーニングデータを使用して最初のモデルを開発したと説明した。
3人は、移動ロボット1台が乾燥機から荷物を降ろす動画、ロボットアームが散らかったキッチンテーブルを掃除する動画、そして2本のロボットアームが驚くほど上手に衣類を畳める動画を見せてくれた。ロボットの動きがいかにも人間らしいことに驚かされた。ロボットアームは手首を軽く動かすだけで、ショートパンツを振って平らに伸ばし、畳めるようにしている。
より汎用的な能力を実現するための鍵は、膨大な量のデータだけでなく、LLMとAI画像生成から借用したモデルを組み合わせることでした。「これは決してChatGPTではありませんが、GPT-1に近いかもしれません」と、Levine氏はOpenAI初の大規模言語モデルについて述べています。
奇妙に人間らしい、あるいは幼児らしいNGシーンもいくつかある。あるシーンでは、ロボットが卵をパックに詰め込みすぎて、無理やり閉めようとする。別のシーンでは、ロボットが容器に物を詰める代わりに、テーブルから投げ捨てる。3人は気にしていない様子だ。「私たちにとって本当にエキサイティングなのは、この大まかなレシピが、実に興味深い生命の兆候を示していることです」とハウスマン氏は言う。

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む