コラムCOLUMN

自然で直感的なUIになるデジタルヒューマン
表情や感情を付けると親しみやすさや説得力が高まる

海外動向

清水 計宏

1987年にApple が示した「Knowledge Navigator」が現実に

 人間と人間とのコミュニケーションだけでなく、人間とマシン(機械装置)や人間とデバイスとのインタラクションが改めて見直されている。AIをはじめとする先端テクノロジーの発達を受けて、「ヒューマンインタラクション」が新たな局面に入っているからだ。音声を認識して対話形式で対応するAIアシスタントが実現したユーザーインタフェース(UI)は、デジタルヒューマンやバーチャルヒューマンの登場により、より自然で直感的なUIであるNUI(Natural User Interface)になっている。 これは、1987年に米Apple(アップル)がコンセプトモデルとして描き出した将来ビジョンのなかに登場した「Knowledge Navigator(ナレッジナビゲーター)」=写真=と呼ばれるソフトウェアエージェントを彷彿される。ハイパーテキストのネットワーク化された大規模なデータベースにアクセスし、特定の情報検索を支援する仮想エージェントである。この夢が現実になってきた。

 人間との対話に際して、AIがデジタルヒューマンの顔に感情や表情をつけることで、相手の状況や情緒に合わせて対応できるようになり、親しみや説得力が増すようになっている。
 身振りやジェスチャー、顔の表情は、人間の行動や行為と切り離せない感情を伝えることができるからだ。相手がデジタルヒューマンだとしても、AIがその容貌に感情を付加することで、人間的な親近感を感じさせることができるのだ。これは俳優の演技に感情移入できるのと似ている。人間の感情を分析するテクノロジーを裏返して使うことで、感情を示すことが可能になる。
 会話による人間味のあるインタラクションは、人と人との触れ合いを求めている高齢者や身体の不自由な人、闘病者、被介護者らにとっても馴染みやすく、接しやすいものとなる。もちろん、デジタルヒューマンであれば、ユーザー層、客層に合わせて、年齢やファッション、表情も容易に変えることができる。
 人とデジタルヒューマンとのエンゲージメントがうまくいけば、医療やヘルスケアだけでなく、小売り、金融・保険など、さまざまな業界にポジティブな効果・影響をもたらすことができる。前回(第5回)でレポートしたSoul Machines(ソウルマシン)の事例は、まさにその先頭を走っている。
 デジタルヒューマンは、AIやリアルタイムグラフィックスといったテクノロジーなどにより、人間と人間のインタラクションをサポートするためでなく、人間とデジタルヒューマン、人間とロボット、人間とシステムといった関係をより使いやすく、こなれたものにすることが期待されている。
 デジタルヒューマン、バーチャルヒューマン、デジタルダブル、デジタルアバター、バーチャルアシスタント、バーチャルインフルエンサー、ディープフェイクなどと、ニュアンスは違うものの、さまざまなバズワードが飛び交うようになっている。
 このうち、もっとも適用範囲が広い用語がデジタルヒューマンである。特にAIにより人間とインタラクションができるCGI(Computer Generated Imagery:コンピューター生成画像)による仮想的な人間のイメージがバーチャルヒューマンと呼ばれる傾向が強い。デジタルヒューマンがトレンドになったのは、バーチャルヒューマンに高い関心が集まるようになったことがひとつの契機になった。
 デジタルダブルは、特定の俳優やタレント、有名人などの外見や演技を完璧に再現したCGアニメーションである。デジタルアバターは、ゲームやその世界の発展形ともいえるサイバー空間のメタバースやロボティックの世界でよく使われている。
 ディープフェイクとは、文字通り「深層学習」と「偽物」を結合して造られた混成語である。敵対的生成ネットワークと呼ばれるAI(機械学習)を使い、人物の容貌を別人のものに入れ替えたフェイク画像やフェイク動画を指すことが多い。これは、エンターテインメントやジョークとして、遊び半分で使われているが、ときに法的・倫理的な問題が派生する可能性が高くなりがちでもある。とはいえ、未来のテクノロジーは、出始めのころは不良少年や不良少女にも似た、いかがわしい感じで現れることが多いことから、ディープフェイクの延長線上に新たな用途や市場が生み出される可能性もある。
 このレポートでは、最も広い意味合いをもつデジタルヒューマンを主として使い、適宜使い分けをしていきたい。

デジタルヒューマン商用化の先駆けとなったSTAR LabsのNEON

 デジタルヒューマンが商業的にも大きく着目されるきっかけとなったのは、2020年1月に米ラスベガスで開催されたテクノロジーイベントのCES 2020=写真=だった。 韓国サムスン電子の研究部門であるSTAR Labs(Samsung Technology and Advanced Research Labs)を母体とするスタートアップのNEONが、とてもリアルなAIアシスタントを"Artificial Humans(人工人間)"として開発し、「NEON」として発表したのだ。当初、企業名もNEONだったが、その後、STAR Labsに変更されている。 NEONは、実際の人間の外見をしているだけでなく、感情や表情も模倣でき、それぞれに固有の性格を持たせることができ、人間のように会話したり、振る舞うことができる。 人間を模倣する「CORE R3」というプラットフォーム上で生成され、AIがコントロールするCGIである。コンベンションセンターの展示ブースには、一目でもデモを見ようと、連日、大勢の人だかりができ、画期的なニュースとして世界を駆けめぐった。 プラットフォームの名称にある R3とは、「Reality」(現実)、「Realtime」(リアルタイム)、「Responsive」(応答性)のことで、人間と同じようにリアルタイムに応答できることを意味している。AIやセンサー類などを組み合わせて、実際の人間のように動作を交えて話すことができるものの、あくまでリアルとデジタルの世界を結びつけるバーチャルな存在なのだ。

 感情を付加し、知性や学習、記憶を可能にしていくコンポーネント「Spectra」も開発されている。Spectraは、デジタルヒューマンとユーザーとの対話を学習し、Core R3に記憶されていくことで、より人間らしく反応ができるようになる。 NEONのパイロットプロジェクトでは、2020年後半にβ版をリリースし、試験的導入が始まった。新韓銀行、韓国財閥(CJ)のほか、流通、製薬業界、食品など、サムスンと関係のある企業グループから非接触サービスとして実装がスタートした。 このデジタルヒューマンは、システムとして販売されているのではなく、一般の人間のように雇用してもらう形態を取っている。B2B(Business to Business)向けには、「Neon-as-a-Service」として提供している。 デモや展示で示された職業や役割=写真=は、医師、会社員、ヨガインストラクター、ダンサー、キャビンアテンダントのほか、現場監督や作業員のように見えるデジタルヒューマンもいた。さらに、教師、ファイナンシャルアドバイザー、医療供給者、コンシェルジュ、俳優、広報担当者、テレビアナウンサーなどと、ニーズに合わせて自由に変えられるようになっている。

NEONはWebとAndroid/iOSスマートフォンとも互換性

 いまのところNEONには、汎用性はなく、特定のタスクを支援するための会話をするにとどまっている。だが、外見があまりに人間的な質感を保っているため、リアルな人間を映した動画が流れているのと勘違いするほどだ。 翌年の2021年のDigital CESにおいて、NEONはスマートフォンにも組み入れられ、ビデオチャットに応答できる「NEON View」が登場した。また、アーケードや空港施設などに設置でき、ほぼ等身大でNEONとインタラクションできる情報キオスク用の大型ディスプレイ「NEON Frame」=写真=も発表された。これらは、バーチャルなヨガやトレーニングのトレーナーとして使うこともできることがデモされた。

 コンテンツ作成プラットフォームとして、ビジネスおよびクリエイター向けのコンテンツ・オーサリングツール「NEON Studio」が公開された。それまで、NEONはデジタルヒューマンが単独で表示されていたが、これにより、コンテンツを制作した後、利用目的に合わせてカスタマイズして、公開することができる。100以上の言語と音声からスクリプト(台本・脚本)を選択し、ナレーションを多言語に対応させることもできる。
 スクリプトの内容に合わせて、NEONの表情や話し方のスタイル、声のトーン、ジェスチャーの調整ができるようになったばかりでなく、化粧づけや外見、ファッションのカスタマイズもできるようになった。4Kに対応するライブストリーミングにより公開することができ、選択した形式でエクスポートができる。デジタルヒューマンであるため、特定の俳優を手配したり、ライティングに気を遣ったり、カメラによる撮影が不要になる。
 NEONは、WebとAndroid/iOSスマートフォンと互換性があり、商用APIとして利用できる。サムスンは、スマートフォンにも搭載する計画であり、スマートフォン上のNUIとして動作する日も近いはず。
 NEONの公式ウェブサイト「Neon.life」では、多数のシナリオが用意されており、ヨガ講師、ファイナンシャルアドバイザー、K-popスターをはじめさまざまなシーン設定がある。近々、スーパースターや個人の親密な友だちにもなれるNEONが生まれるかもしれない。

デジタル複製されたリアルな人物は1980代の映画が起点

 もう少し過去をさかのぼってみると、デジタル複製されたリアルな人物がビデオゲームや映画に登場し始めたのは1980年代のことだった。当時、映画界では「バーチャル俳優(Virtual Actor)」とか「サイバースター(Cyberstar)」、「デジタルクローン(Digital Clone)」と呼ばれていた。
 デジタルヒューマンへの突破口を開いた映画がある。それは、デビィッド・フィンチャー(David Andrew Leo Fincher)監督の映画『ベンジャミン・バトン 数奇な人生』(The Curious Case of Benjamin Button)』(2008年)とジェームズ・キャメロン(James Cameron)監督の『アバター(Avatar)』(2009年)である。
デジタル俳優とは、コンピューターで生成された画像・音声を用いて、実際の俳優と見分けがつかないように生成された人物やイメージで、まさにデジタルヒューマンである。これらのデジタル俳優を生み出したのはJohn Textor(ジョン・テクスター)氏だった。
 John Textorは、2006年からVFX(Visual Effects )制作会社として名声をとどろかしたDigital Domain(デジタル・ドメイン)の会長兼CEOを務めていた人物で、Pulse Evolution Corporation (PLFX) の創設者でCEOだった。彼は、インターネットを介して視聴者にスポーツ中心のメディアサービスを手掛けるfuboTV(Meta Group)の元会長兼CEOでもあった。
 具体的には、VFX工房のMOVA(現在OnLiveの子会社)が開発した「MOVA Contour Reality Capture」と呼ばれるテクロジーを用いてデジタル俳優が生成された。このシステムのデモは、動画共有サイトのYouTube(MOVA Contour Reality Capture <2007> - Advanced CGI facial animation)で見られる。
 MOVAは、1995年に家庭向けインターネットサービスを手掛けるWebTVを設立して、社長兼CEOを務めていたことのあるSteve Perlman(スティーブ・パールマン)氏が2004年に設立した。MOVA Contour Reality Captureは、デジタルシネマ用3Dカメラシステムによるモーションキャプチャーを使用して、リアルなCGキャラクターの表情を生み出すことができる。『ベンジャミン・バトン 数奇な人生』では、年老いたブラッド・ピットの顔を制作し、別の役者の胴体と繋ぎ合わせることにより映像化した。画面を見ただけでは合成とは判らないほどの精巧なできばえになっている。
 MOVAという会社は、1999年にSteve Perlman氏がWebTVを離れて、メディアとエンターテイメントのテクノロジーのインキュベーターとして設立したRearden(リアドン)によって創設された経緯がある。MOVAのテクノロジーが、いろいろなところで流用されるようになって、訴訟沙汰になるケースもあり、その中でReardenという会社名が出てきたりしている。
 John Textor氏は、 2012年に大規模な野外フェスで知られるコーチェラ・フェスティバル(Coachella Festival)において、 25歳で亡くなったラッパーの2Pac(トゥパック)を3DCG(立体映像)でステージにリアルに投影したり、2014年には音楽祭「ビルボード・ミュージック・アワード(Billboard Music Awards)」で、マイケル・ジャクソンを復活させている。2019年には、同じ手法でスウェーデンの伝説のポップ・グループであるABBA(アバ)のバーチャルステージ「Virtual ABBA」を演出した実績もある。

ABBAのデジタルコンサートを可能にしたILMのテクノロジー

 いったん引退したり、世を去ったアーティストらを過去の映像からホログラフィック映像を制作する手法はしだいに広がっている。 Virtual ABBAをさらに発展させたのが、米Universal Music(ユニバーサル ミュージック)によるABBAのバーチャルコンサートへの挑戦である。2021年11月5日に、Universal Musicはスウェーデンの伝説のポップ・グループであるABBAの新作アルバム『Voyage(ヴォヤージ)』を40年ぶりに全世界同時発売して話題となった。 それに先立ち11月3日には、2022年5月英ロンドンのクイーン・エリザベス・オリンピック・パークを皮切りに開催予定の「Digital ABBAtar」を導入したショーのファーストルック(20秒間のクリップ)が公式トレーラーとして公開された。 これは、2022年5月27日にロンドンのクイーン・エリザベス・オリンピック・パークにある3,000人収容のABBAアリーナで初演される「ABBA Voyage」のスタートを予告するものである。イベントでは、若い頃のABBAのアバター(ABBAtar)=写真=が生バンドとともに登場する。ABBAアリーナの敷地のリース期間は4年半となっており、来場者が押し寄せれば、定期的に開催されることになるだろう。

 公開されたトレーラーでは、楽曲「Summer Night City」が流れ、まばゆいグラフィックを背景に演奏を繰り広げている。映像では、ABBAのメンバーであるアグネッタ・フェルツクグ(Agnetha Faltskog:リードボーカル/コーラス)、アンニ=フリッド・リングスタッド(Anni-Frid Lyngstad: リードボーカル/コーラス)、ビョルン・ウルバース(Bjorn Ulvaeus:ギター/ボーカル/コーラス)の4人が、1979年頃の若き日にもどったアバター(ABBAtar)として、10人編成からなる生バンドとともに共演している。
 ABBA Voyage において、ABBAのメンバーは古典的なペッパーゴーストの手法により、透明スクリーンに投影されたアバターによる演奏となる。このリアリティのあるイメージを制作したのは、世界的に知られるVFX工房のIndustrial Light & Magic(インダストリアル・ライト&マジック:略称ILM)である。約850人からなるチームが160台のカメラを使い、ステージで演奏するABBAを5週間かけてキャプチャリングし、アルバム全22曲にわたる動作、表情、感情を含めて収録・記録した。
 コンピューター処理でABBAのメンバーを若返らせるディエイジング(De-aging)テクノロジーとして使われたのが、「FLUX」と呼ばれるシステムである。これは、赤外線画像データとカメラで撮った映像を合体させて、一人ひとりのメンバーの顔を若くつくり変えることができるソフトウェアである。元になるアーティストや俳優の顔にマーカーを付けたり、ヘルメットは装着する必要をなくした。
 赤外線画像を撮るために用いられているのが、「ALEXA Mini(アレクサミニ)」。これは、小型軽量ボディーに多様な機能を統合したオールインワンのデジタルシネマカメラである。これを複数使って、ABBAのメンバーの身体の容積に関係するあらゆるデータをキャプチャしたのだ。
 収録した画像データを使って、鼻、目、口といった部位ごとのカタログをつくり、メンバーの顔の若返りの加工を施していった。ILMでは、加工済みの1シーンを使って、ほかの映像も瞬時に同じように若返らせることのできるAIシステムを開発した。リファレンスとなる画像を作成しておけば、メンバーの顔がイメージ通りかも確認できるようにしている。

バーチャルなホイットニーがラスベガスで定期公演

 リアルの生バンドとバーチャルなイメージでコンサートをすることは、さまざまな手法により国内外で商業化されている。 海外では、2012年に世を去ったホイットニー・ヒューストンのホログラム・ツアーが2015年にHologram USAによって発表され、2016年には米国3大ネットワークの一つのNBCのテレビ番組「The Voice」で初めて、その映像の一部が公開された。しかし、遺産管理団体(Whitney Houston Estate)が「とても本人には見えない」とのクレームが入り、公開の許可を得ることができず、2018年にツアーはいったんキャンセルされた。その後、改良が施されて、2020年1月から10月まで世界ツアー「An Evening With Whitney: The Whitney Houston Hologram Concert」¬¬=写真=が実現した。2021年11月14日からは米ラスベガスのホテル(Harrah's Las Vegas)で定期公演が繰り広げられている。 このショーでは、バーチャルなホイットニー・ヒューストンが、4人の生のバックアップダンサーとバンドとともに、さまざまな衣装に身を包みながら、過去30年間の楽曲を歌い上げている。ステージの振付は、映画『ドリームガールズ(Dreamgirls)』(2006年)を手がけた振付師のファティマ・ロビンソンが担当。さらに、実際のマスター・レコーディングを使って、「I Will Always Love You」「I Wanna Dance With Somebody」「The Greatest Love of All」「Higher Love」といったホイットニーのヒット曲をフィーチャーしている。

 ホイットニーが踊りながら「I'm Every Woman」を歌いながらショーがいったん終わると、生のバックアップダンサーたちのダンスに呼応して、劇場全体がダンスフロアになるといった盛り上がりもある。
 ショーを手掛けているのは、世界各国の都市でミュージカルや劇場運営をしている米Base Entertainmentの子会社のBase Hologramで、ホイットニーの元マネージャーで遺産管理人を務める義理の妹であるパット・ヒューストンと連携して制作にあたっている。
 国内に目を向ければ、2015年に横浜に開館したホログラフィック劇場「DMM VR THEATER」第1弾企画として、X JAPANのギタリストであったhide(ヒデ)のペッパーゴーストによるホログラフィックライブ「hide crystal project presents RADIOSITY」が開催されている。
2019年にはNHKの紅白歌合戦などの番組などで、CGとAIを駆使して本物そっくりの「AI美空ひばり」が登場したりした。これは、ディープラーニングを使った歌声合成技術「VOCALOID:AI」(ボーカロイド:エーアイ)を用いた。
 このように、仮想のアーティストをデジタルテクノロジーで復活する動きは、年を追うごとに身近になっている。
 それは、写真や動画、CGからデジタルヒューマンを作り出すフォトグラメトリー(Photogrammetry)やクラウドレンダリングのほか、モーションキャプチャー、モーションライブラリー、ボリュメトリック・プロダクションなどによって、現実に存在するものをリアルなまま仮想の世界に取り込むことができるようなったからだ。
 さらに、NLP(Natural Language Processing:自然言語処理)、NLG(Natural Language Processing:自然言語生成)、ML(Machine Learning:機械学習)といったAIテクノロジーや5G(第5世代移動通信システム)により、あたかも生きているようにCGIがインタラクションできるようになったのだ。
 これまでは、単にイメージを投影することが多かったが、しだいに映し出されたデジタルヒューマンが、だれとでも対話できることが求められるようになっており、そうした事例が増えてきている。

 次回はCES2022の先端テクノロジーのトレンドを中心にスペシャル・レポートをする予定。

<つづく>

 (清水メディア戦略研究所 代表)