データもモデルも自分で管理できる「連合学習」
三宅さん:
私はゲームAI開発者として、とりわけ空間知能(※1)や「メタAI、キャラクターAI、スパーシャル AIによる動的連携モデル」といった、AIモデルの研究・開発に取り組んできました。まずは改めて日立さんから、連合学習とはどのようなものなのかをお聞きしたいです。
※1 空間知能……空間そのものを人工知能とすること。 空間知能は自らの管理する領域空間を持ち、その空間内の状況を認識し、その空間内にいるAIや機械に命令し、影響を与える。
谷村:
連合学習は2017年、Googleによって提唱されたAIの学習技術です。分散するデータを1か所に集めず、学習データを各自の手元に置いたまま、複数の主体が協力し合いながらセキュアにAIモデルを学習する方法で、データ利用の高度化とプライバシー保護を同時に解決する方法として注目されています。
AI開発では一般的に、AIの学習や利用に必要なデータを大量に収集し、自身のサーバに保管していますが、近年、個人のデータ主権やプライバシー、データガバナンスといった観点からその問題が指摘され始めています。そんな中で、個人、あるいは企業が持つデータのプライバシー、機密性を保ちながら協同でデータを利活用する手法の一つが、連合学習です。
北川:
例えば医療分野では、複数の医療事業者が連携することで、共有できない患者の診察データを外部に出すことなく、高度な医療診断AIモデルを共同で構築することが可能になります。個々の医療機関では得られない規模のデータを活用しつつ、患者のプライバシーを保護することができるようになるのです。
他にも、金融業界における不正検知モデルの共同開発や、製造業における故障リスク診断ソリューションなど、さまざまな分野で連合学習の活用が期待されています。
谷村:
連合学習でAIモデルを学習する際には、最初に各端末、クライアントにおいて、自分の持っているデータのみを使ってAIを学習させます。その後、各自のAIのモデルを他の人と共有し、モデル同士を統合して、一つの新しい統合モデルを作り出すことを繰り返します。そうすることで、データを自分の手元に置いたまま、協同してモデルの学習を進め、自身だけでは到達できなかった性能まで、モデルをアップデートすることができるのです。
三宅さん:
ユーザーが自らのデータを管理するようになる点は未来的だと感じますね。今までであれば、多くのサービスに利用規約があり、ユーザーには主導権がほとんどありませんでした。明らかにサービス側にとって有利な状況があったわけです。しかし、データの価値は蓄積されてから決まるものです。今後、データを誰に渡すかを選択する権利がユーザーに移るとすれば、大きな転換点になり得ます。
北川:
おっしゃるように「個人がデータを誰に渡すか」を選択する権利を持つことで、いくつかの研究分野でブレイクスルーが起こせるかもしれません。私は大学時代、医療関係のAIの仕事をしていました。具体的には、稀な症例のある患者さんの検体データを集めていたのですが、症例が珍しいこともあり、自分たちの病院だけでは十分なデータを効率的に集めるのが難しかったのです。
こうしたケースにおいて、連合学習のアプローチは有効だと思っています。もちろん患者さんのカルテ情報はセンシティブな性質のものではあります。それでも、「あなたのデータ提供により、この先100年間で100万人の命が救われる可能性があります」などの有益性や可能性を事前に説明されれば、データ提供に同意する人だっているかもしれません。つまり、データの使われ方が明確かつデータ保持者のビジョンに合致しているのかどうか、が重要なのだと思います。
世界モデル、空間知能、環境AI──言語情報の限界を突破するアプローチ
三宅さん:
そもそも人工知能が取得するデータは時間、空間、言語の三つから成ります。このうち、「言語情報」には本質的な問題点があります。建築物を言葉によっていくら説明をしても設計図は起こせません。他方、現実に存在しない空間でも、人間は小説を読むことで架空の空間を想像することができますよね。人それぞれ別の空間が想像されているわけです。
そうした前提があった上で、どうすれば「World Models(世界モデル)(※2)」を実現できるでしょうか。大学のキャンパスを例にとって考えてみましょう。人間であれば、しばらく歩くことでその空間をなんとなく記憶することができます。この空間想像力があるおかげで、家に帰っても、なんとなくキャンパスの空間的なイメージを思い出すことができるのです。しかし、この空間認知を人工知能に持たせるためには「言語」だけでは不十分です。なぜなら先ほども言ったように、言語と実空間はなかなかリンクしないからです。これがいわゆる「記号接地問題」と呼ばれるものです。
※2 世界モデル……外部(=世界)から得られる観測情報に基づき、実世界の構造を学習によって獲得するモデル。
谷村:
たしかに、その通りだと思います。記号接地問題は、AIにおける大問題だと考えられてきたと思います。近年の深層学習とそれに続く生成AI、LLMの急速な発展は、この問題を解くヒントを内包しているようにも思えます。もっともこれは、見かけ上問題を回避しているだけかもしれませんが。
例えば、最近では、LLMを使って、言葉を介して現実空間でロボットを動かす研究も盛んに行われています。言語モデルをロボット制御の方策や報酬関数として利用し、LLMを使ってロボットの行動選択を出力する研究、また視覚言語モデル(VLM, Visual Language Model)を使ってカメラ映像からダイレクトにナビゲーションを生成する研究などです。ロボット用の基盤モデル構築も盛んに行われていると思います。
もう少し広い意味では、世界モデルに連なる研究ですよね。例えばMinecraftなど、現実空間ではなくゲーム内空間の挙動を、AIの中に再現する研究も盛んです。
三宅さん:
その通りですね。世界モデルだけでは非常にフィジカルなものになってしまい、いわゆる意味の問題を克服できない。しかし、言語情報だけでも難しい。この二つをどう結びつけるべきかがポイントになります。
一番シンプルなアプローチには、IoT技術があります。例えば、コンビニのパン売り場のコーナーを思い浮かべてみてください。業務の時間を取る仕事の一つが在庫管理です。仮にそれぞれのパンがIoT化されていたとしましょう。すると、何がどこにあるかは一瞬でわかりますので在庫管理はすぐに終わりますし、「俺はあんパンなんだけどあと一つ、周りはクリームパンばかりで寂しい」とパンが自ら意思表示すれば、適切な場所に戻してくれたり、在庫補充が行われたりするようになる。
そうなれば、記号接地問題の逆を解いているようなものです。物理的な椅子を買うと3Dデータの椅子もセットでついてくるとする。そうすると、自分のデジタル部屋に買った椅子をダウンロードすることで、自分の部屋のデジタルツイン上にその椅子がパッと現れる。そうした世界は容易に想像ができます。
谷村:
すごく面白いですね。言葉と世界の問題というのは、とても奥深い問題かと思います。と同時に、エンジニアにとっては、実に悩ましい問題でもあります。
私には幼稚園に通う娘がいるのですが、彼女にとって椅子は椅子であると同時に、机にもなるし、場合によっては秘密基地にもなる。実は、椅子というマテリアルは、座るための椅子というラベルだけでなく、机や秘密基地といったラベルも同時に持っているんですよね。現実では、一つのモノが、文脈に依存した多様なラベル(目的)をもっている。こういった多義的な関係をAIによって、どうやって表現できるのか、吸収できるのか、大変興味があります。例えば、娘が椅子をひっくり返して遊び始めたら、それを反映したデジタルツイン上でも、それは「椅子」でなく「秘密基地」として認識してほしい(笑)
個人的には、いまどんどんとコンピュータが安くなっていますから、椅子にも生成AI、LLMを入れておくべきではないかと思いますね。椅子に入ったLLMには、「君は椅子です。ただ、ときたま秘密基地にもなります。人間にとってフレンドリーにふるまってください」とプロンプトで吹き込んでおく。そうすると、小さい子供に自分がひっくり返されて遊ばれていることを察知した椅子は、となりにいるテーブル(のLLM)に、「僕は今おもちゃになっていて、椅子じゃなくて秘密基地なんだよ。困ったな」と話しかけるかもしれない。椅子は椅子、壁は壁、それぞれが自身に搭載されたセンサー情報に基づいた環世界の中で考え、一種のキャラクターになる。ゲームのような世界観にはなりますが、今とは違った楽しい環境になるのではないかと。
三宅さん:
実はゲームの世界ではモノに知能をつけるということは昔から行われています。スマートオブジェクト技術と呼ばれるものですが、椅子やドアなど、キャラクターが接するオブジェクトにある程度の知性を持たせておくやり方です。なぜこの手法を使うかといえば、そもそもキャラクターの空間認知能力や物を使う知的能力がそれほど賢くないからです。ドアを開けるのにも一定の知能が必要になります。それは我々人間が無意識に行っている作業であり、無意識下に形成された知能です。しかし、人工知能は、そういった世界とのインタラクションで形成される環境に対応した知能がきわめて弱い。だからこそ、オブジェクトの側がキャラクターを制御する方が楽なのです。
北川:
キャラクターがボールを投げているというよりは、むしろボールの方が投げられる、というイメージでしょうか。
三宅さん:
はい。さらに、このアプローチは現実世界でも有効です。「環境AI」や「空間知能」と呼ばれる考え方ですが、環境の方に知能を埋め込むことで、後からその場所に適合するロボットを導入することが容易になります。そうしないことには、逆にロボットやドローン側をひたすら賢くするしか道筋がなくなってしまいます。
環境AIの普及下におけるデータガバナンスのあり方
北川:
環境側にどんどん知能が埋め込まれていけば、並行して環境に蓄積されるデータも増えるかと思います。そうなると、データガバナンスのあり方はどう変わっていくでしょうか?
三宅さん:
面白い問いですね。部屋全体など空間がAI化したものをスマートスペースと言います。誰がいつ入ってきて、いつ帰ったか、この落とし物は誰々さんのものと認識している、あるいは発言もすべて記録する。そうなったとき、そのAIひいてはすべてのデータは、誰の持ち主になるのか。
ではサーバーに上げずにローカルで管理すれば良いのか、それとも暗号化していれば問題はないのか。いくつかの論点が挙げられます。サーバーのデータ管理がしばしば話題に挙がる一方、ローカルでのデータの持ち方が議論されることは少ない。今後さらにエッジ側の性能が上がることで、ローカルデータに関わるプライバシーの問題は重要性を増すはずです。
谷村:
データガバナンスの議論は、特にヨーロッパを中心に活発に行われてきていますよね。個人データを保護すべきという議論が多いのですが、反面、それではAIを中心とする産業競争力や、社会インフラの効率的運営が損なわれてしまう、という指摘もあります。世界全体でいえば、いままさに熱い議論の渦中、「まだ結論がないのが(現状の)結論」で、最終的には人間社会がどこまで受け入れられるのか、という問題になると思います。
我々はどこに許容の線引きができるのか、少し抽象度を上げて議論してみます。例えば、私がある部屋でコーヒーをこぼして、床にシミを作ってしまう。これはたしかに不注意ですが、コーヒーをこぼす人がいるのは、ある種の自然現象で仕方がないともいえます。デジタル空間だって、人間を取り巻く環境の一部として捉えれば、単純に自然の一部と捉えることができます。だとすれば、デジタル空間に痕跡が残るのは、自然の物理環境に痕跡が残るのと同じことだとも考えられます。
そうしたとき、世界中の人が参照できるグローバルなデジタル空間上に、誰が何時何分にコーヒーをこぼしたかが永久に記録されるのは、ちょっと気持ち悪い。では、グローバルに共有するのは許容できないけれど、情報がローカルに残っているだけならよいのか。あるいは、ローカルのデータをその場でモデルに学習させ、生のデータはすぐに消す。そうすると、モデルの中にだけ、「多くの人が部屋を使うと、誰かが一回はコーヒーをこぼす」といった感じでぼんやりと残る。これは許容できるのか。結局は我々自身の許容のレベルがどこに落ち着くのかによって、仕組みが決まっていくのだと考えています。
三宅さん:
サービスの出口が公的なものなのか、私的なものなのかによっても許容のラインやレベルは変わるでしょうね。エンターテインメント領域のことを言えば、エンターテインメントはどこまでいっても個に対するサービスです。だから、ある個人がテーマパークへ遊びに行った過去の記録があれば、「前回はこのアトラクションに何回乗りましたね」「ここで待ち合わせしましたね」といったように、パーソナルなデータによって個人に特化したサービスを提供することができます。加えて、そのデータが匿名化された状態で、テーマパーク全体のサービスの最適化にも使えるでしょう。その意味で、比較的受け入れられやすい領域かと思います。
一方、公的な領域では、センシティブなデータが含まれることも多いため、より慎重にデータの扱われ方を個人が選べることが望ましい。データが匿名化されているのであれば公共の利益のために提供しようとする人は少なくないはずです。いずれにしても、個人の意志にデータガバナンスの決定権が委ねられるのが理想的だと思います。
取材協力/立教大学 池袋キャンパス
関連リンク
三宅 陽一郎
立教大学大学院人工知能科学研究科 特任教授
ゲームAI研究者、開発者。1975年生まれ、兵庫県出身。京都大学総合人間科学部卒業、大阪大学大学院理学研究科修士課程を経て、東京大学工学系研究科博士課程単位取得満期退学。博士(工学、東京大学)。デジタルゲームにおける人工知能の開発・研究に従事し、立教大学大学院人工知能科学研究所特任教授・東京大学生産技術研究所特任教授を務める。2020年度人工知能学会論文賞受賞。著書は『戦略ゲームAI 解体新書』『人工知能が「生命」になるとき』など多数。
谷村 崇仁
日立製作所 研究開発グループ デジタルサービス研究統括本部 デジタルサービスプラットフォームイノベーションセンタ エッジインテリジェンス研究部 主任研究員
先端ネットワークシステムの研究開発、ネットワーク分野における深層学習技術の研究開発経験を経て、2020年株式会社日立製作所に入社。現在は、ネットワークと分散生成AIの融合をめざした研究に従事。東京工業大学理学部卒業、東京工業大学大学院理工学研究科修士課程了。東京大学工学系研究科博士課程了。博士(工学、東京大学)。電子情報通信学会シニア会員。日本物理学会会員。全国発明表彰 特許庁長官賞、科学技術分野の文部科学大臣表彰 科学技術賞(開発部門)受賞。
北川 雄一
日立製作所 研究開発グループ デジタルサービス研究統括本部 デジタルサービスプラットフォームイノベーションセンタ エッジインテリジェンス研究部 企画員
1996年生まれ、東京理科大学先進工学研究科修士課程修了。2021年株式会社日立製作所に入社。現在は、ネットワークと分散生成AIの融合をめざした研究に従事。電子情報通信学会会員。