コラムCOLUMN

AI先進国・中国を代表する顔認識企業
技術力で世界を席巻するMegviiとSenseTime

海外動向

清水 計宏

中国のAI企業は約90万社、約1万社は顔認識に関連

 社会インフラがAIによって最適化されるなか、安心・安全の確保やヘルスケア、見守り、ロック解除、自動決済をはじめとする目的から、人間の行動や生体の情報が恒常的にセンシングされる時代に入っている。そうした中で、人を特徴づけている顔やその表情と感情の認識・認証技術は、広範な用途があるため、プライバシー(匿名性)や人権の問題が絡みながらも、目を見張るスピードで技術開発が進展している。
 インターネットは、いまやWeb3によりダイナミックな転換期を迎えている。この分散型のオープンで安全な次世代型のネットワークでは、個人情報やプライバシーについては、ユーザー自身がコントロールするようになる。人間の生体や顔のデータは個人認証とデジタルIDにとっても欠かせなくなるため、Web3の普及にあたっては紆余曲折も予想されている。
 複雑な問題を抱えるなかで、AI大国となった中国では、厖大な監視カメラによる生体・顔認証システムのネットワークが網の目のように張り巡らされ、中国人の行動は常日頃から監視下におかれている。たとえ顔を隠したり、仮面を被ったりしていても、歩行認識ソフトにより歩き方から個人の特定もできてしまう。
 中国において、空港、ホテル、銀行、ショッピングモール、地下鉄・鉄道、公園のトイレといった街角や公共機関だけでなく、マンションの出入り口、スマートフォンのロック解除、買い物や飲食店での注文・支払い、勤務先での出退勤などいたるところで、顔認証が求められている。新型コロナ感染症(COVID-19)の拡大防止でゼロコロナ政策をとるなかで、さらに厳しくなっている。
 交通ルールを無視して道路を渡れば、顔が認識され、自動的にその人の氏名と写真が広告板に表示され、罰金の支払いを求めるテキストメッセージが届いたりする。子供たちも例外ではない。公園のトイレでは、トイレットペーパーの使いすぎと盗難を防ぐために、利用者の顔をスキャンしてから、一定量のペーパーを供給する仕組みのところもある。中国では、だれひとり顔認識の監視から逃れられない。裏社会では、多数の顔写真が売買されて、なりすましや詐欺、犯罪に使われるなど、逆手にとった犯罪も起きているが、それを防止するための技術も進んでいる。

 中国においては、インターネットとコンピューティング、AIといったデジタル技術が、いつでもどこでも人間を管理・監視できる社会形成を促進させている。その様相は、ちょうど仏哲学者のミッシェル・フーコーが説いた「パノプティコン(一望監視施設)」=写真=を連想させる。監視国家となった中国では、顔認識・認証にかかわる企業が増え続けている。中国のAI企業は約90万社もあるとされ、そのうちの約1万社が顔認識に絡む企業だと見られている。需要の高まりを受けて、研究開発にしのぎを削っている。人間の生体・動態は刻々とビックデータとして蓄積され、AIはさらに性能を高めている。 その代表的企業として、Megvii Technology(曠視科技)、Sense Time(商湯科技)、CloudWalk Technology(雲従科技)、Yitu Technology(依図科技)とともに、監視カメラで世界シェア首位と第2位のHikvision(杭州海康威視数字技術 )とDahua Technology (浙江大華技術)などがある。

 こうした企業は、中国北西部にある新疆ウイグル自治区で少数民族を弾圧しているとされ、2019年10月に米国政府から禁輸措置を課せられ、米国からの投資を禁止された企業でもある。
 中国において顔認識技術が発達するきっかけとなったのは、2011年6月30日に中国の2大都市、北京と上海の間を約4時間20分で結ぶ中国版新幹線である高速鉄道が正式に開業し、乗車に際しての安全検査に適用されたことがある。
 同年9月11日には、イスラム過激派テロ組織アルカイダにより、米国で同時多発テロ事件が勃発し、これ以降、反テロの国際潮流に乗り、中国政府は新彊ウイグル自治区でウイグル人の反乱をテロと結びつけて、「テロとの戦い」を掲げて監視を強めた。2014年3月に、中国共産党中央政治局委員で同自治区党委(共産党委員会)書記のZhang Chunxian(張春賢)氏が「反テロ人民戦争」を宣言。さらに2016年には、強権的なChen Quanguo(陳全国)氏が新疆ウイグル自治区党委書記に就任し、監視体制をさらに強化した。こうして開発された顔認識技術は2016年頃から中国で顧客管理システムや販売促進ツールに組み込まれていき、ビジネス領域でも社会実装が広がっていった。

Megviiは顔認識ソフト「Face++」で世界屈指のAI企業に

 顔認識技術で中国を代表する企業といえば、顔認証ソフトウェア「Face++(フェイスプラスプラス)」=写真=で世界的に知られているMegvii Technology(メグビー・テクノロジー)がある。Face++は、中国の公安当局や銀行ATMで採用しているクラウド型顔認識プラットフォーム。どこにいても顔を追跡して識別することができるAIである。香港に本拠を置く華和結ホールディングス(日本オフィス:〒101-0041 東京都 千代田区神田須田町2-25 GYB秋葉原)が日本国内でも販売している。Face ++は、顔認識や顔写真の合成、人物照合、顔データベースの分類検索にとどまらず、その表情(幸せ、怒り、落ち着き、悲しみ、驚き、うんざり、恐怖)を認識し、その年齢、性別、頭の3D角度、綺麗さのスコア測定、目の開き閉じ状態、肌診断などの顔属性の分析やスマートフォンで8000ポイントの顔の3Dデータを生成することもできる。

 さらに視線方向認識(安全運転など集中力測定)、顔エフェクト(美顔フィルター、整形、ステッカー機能)、人体検出・属性分析、人体の輪郭認識/背景切り抜き、手の関節点検出、ジェスチャー認識のほか、化粧品(リップ/アイシャドー/チークなど)のメークアップAR試用体験も可能にしている。
 かつての顔認識技術では、目、鼻、口角など5点を分析することが多かったが、Megviiの技術は顔の検出時に106 個(当初83点)のデータポイントを分析して、人物の身元なども高い精度で確認する。
いまでは、そのディープラーニング(深層学習)フレームワークがオープンプラットフォームになっており、それを活用して各種アプリケーションの作成ができる。すでに150カ国の 30万人超の開発者に使われており、世界で最も広く使われている顔認識プラットフォームになっている。
 ハードウェアのシステムとしてのカメラ部分には、米半導体製造企業のXilinx(ザイリンクス)のARM Cortex-A9 MPCoreプロセッサーをベースとするZynq SoCが使用されており、最小限の消費電力とコストでマシンラーニング(機械学習)の推論性能を最大限に引き出すように設計されている。
 2014年時点において、世界で最も権威のある顔認証評価システムのLFW(Labeled Faces in the Wild)テストにおいて、Face++の顔認証率は97.27%の精度を誇った。これは97.25%を記録した業界トップのFacebookの精度を上回ったのだ。創業から2年足らずの快挙だった。たとえ双子であっても、その違いを認識し、写真と実物の顔の判別もできる。

 Face++は、世界最大の流通総額を持つオンラインモバイルコマース企業であるAlibaba Group(アリババグループ)がいち早く着目し、オンライン決済サービス「Alipay(アリペイ)」や無人コンビニエンスストアやATMサービスに導入した。Alipayのユーザー数は、世界で12億人、中国国内で9億人に上る。このモバイル決済市場の覇者とMegviiがタグを組んでいる。ちなみにAlipayは、Alibaba 傘下の金融関連会社のAnt Financial(アントフィナンシャル)が提供する。  Face++ は、 Alibaba Cloud(アリババクラウド)=写真= のスマートシティソリューション「City Brain(シティブレイン:城市大脳)」のプラットフォームに統合され、都市の CCTV(Closed-circuit Television)ネットワーク分析のほか、警察のインシデントや医療処置の確認にも使用されている。また、中国の平安銀行や中信銀行、江蘇銀行などは身分確認サービスに利用しているほか、 Weibo(ウェイボー:新浪微博)をはじめとするソーシャルメディア(SNS)では、投稿時にユーザーの身元確認にも使われている。

Face++でモバイル決済を高精度で実現

 Megviiは、2017 年にスマートフォンでもFace++ を使用できるように機能を拡張し、3D顔認識技術(Face ID)により本人確認ができるようにした。Megvii が開発した3つのコアアルゴリズム・モデル構造により、スマートフォンは 0.1 秒以内に顔を認識し、0.03 秒以内に再認識処理して、モバイル畳み込みニューラルネットワーク(ShuffleNet)からのライブ検出により、0.01% の精度でモバイル決済を実現する。中国通信機器メーカーのHuawei(ファーウェイ:華為技術)やVivo(ヴィーヴォ)=写真=のほか、OPPO(オッポ:欧珀)、Xiaomi(シャオミ:小米)、いまは閉鎖されたSmartisan Technology(スマーティザンテクノロジー: 錘子科技)などのスマートフォンで、このFace IDが身元確認の方法として使用されている。

 このうち VivoとMegviiは、2018 年にアジア最大のモバイル国際見本市 MWC Shanghai 2022(モバイル・ワールド・コングレス上海)において、3D セキュアペイメント(クレジットカード決済の本人認証サービス)や3D 整形手術など、深度センシングカメラをベースにした 3D 顔認識アプリケーションを共同で発表した。Vivoは 3D センシング技術を提供し、3D ヘッドモデリングや3Dビューティフィケーション、3D ポートレート・ライティングなどへの応用を示した。
 Megviiの3D顔認識技術を併用することにより、整形手術後の顔をプレビューできるようにした。複数のポートレート・ライティング・オプションを使用することで、写真撮影をより自然でいきいきとしたものにできる。
 Face++は、2016年9月に中国・杭州にて開催されたG20サミット(金融・世界経済に関する首脳会合)の監視システムとして使われ、その精度の高さから新疆ウイグル地区の監視にも使われてきた。
 米国を拠点にセキュリティと監視業界を調査・研究する組織であるIPVMが、2020年12月に米ワシントン・ポストとの合同調査の結果を発表している。それによると、Megviiと中国を代表する通信機器大手のHuaweiが、顔認識技術を用いたウイグル人追跡システムを開発していたことが明らかになった。その証拠が、2018年1月8日付けの「Huawei Video Cloud Solution and Megvii Dynamic Face Recognition Interoperability Test Report」(HuaweiビデオクラウドとMegviiダイナミック顔認証の相互運用性テストレポート」(参照:https://ipvm.com/reports/huawei-megvii-uygur)と題するという機密文書である。IPVMが入手した同文書には、HuaweiとMegviiが共同で顔認識システムを開発していたことや、Huaweiが検証したMegviiの顔認識システムに、基本機能としてウイグル人を追跡する「ウイグル人アラーム」が盛り込まれているという記述がある。Huaweiが検証した数十にわたるMegviiの顔認識システムの基本機能もリスト化されている。

ロボット開発のBeijing Ares Robot Technologyを買収

 Megviiが創設されたのは2011年。北京の清華大学出身のQi Yin (チー・イン)氏が大学の同級生であるTang Wenbin(タン・ウェンビン)氏、Yang Mu(ヤン・ミュ)氏とともに3人で立ち上げた。Qi Yin氏は、清華大学のコンピューターサイエンス学科で博士号を取得後、米コロンビア大学に留学し、卒業後にMicrosoft(マイクロソフト)の研究部門に就職した経歴がある。2012年8月にはFace++の提供を始めている。いまでは中国4拠点に研究開発センターを構え、ディープラーニングを中核とする世界有数のAI企業に成長した。約2000人の従業員を抱える。
 Face++の性能を向上させる AI トレーナーの役割を果たしているのが、AI開発プラットフォーム「Brain++」である。これは、顔認識や歩行者認識のアルゴリズム、モバイル撮影機能の強化、銀行のID不正検出などの利用ケースに応じて、アプリ開発に活用されている。米国立標準技術研究所(NIST)が実施した顔認証の精度テストのほか、CVに関する国際会議のICCVなどの国際的なAIコンテストにおいて、Megviiが22回の優勝を獲得したのを下支えした。
 Brain++プラットフォームは、Microsoft(マイクロソフト)が開発・販売するVisual Studioのように、統合された開発環境をユーザーに提供し、AI開発からアプリケーション作成までワンストップででき、プロトタイプから製品開発および実装に至るまでの時間を大幅に短縮できる。
 Brain++は、「MegEngine」「MegCompute」「MegData」の機能を含めた3構造(アーキテクチャー)で構成されている。
 このうちのMegEngineが、CVアルゴリズムをトレーニングするために構築したディープラーニング・フレームワークで、Brain++の主要コンポーネントである。2014年から開発を進められ、2020年にエンタープライズ向け次世代AI開発オープンソースプラットフォームとして一般公開した。2020年3月にアルファ版、同年6月にベータ版、同年9月に正式版をリリースした。これは、GoogleのTensorFlowやMeta(旧Facebook)のPytorchのようなオープンソースのマシンラーニング・ライブラリーに匹敵するものである。
 MegEngineは、Apache Software Foundationによって作成されたフリーソフトウェア・ライセンスの Apache License 2.0の条件下でリリースされている。ユーザーは、使用料を気にすることなく、ソフトウェアの修正版を配布・変更・配布することができる。MegEngineコードは、GitHub(ギットハブ)と中国のOpenI啓智社区のWeb サイトで入手できる。
 開発者は産業・商業向けのAIソリューションを作成でき、MegviiにとってはBrain++を中心としたエコシステムを促進できるメリットがある。
 MegEngineは、画像の分類、オブジェクトの検出、オブジェクトのシーンなどの大量の画像やビデオのトレーニングなどの複雑な視覚的タスクに適している。自動機械学習技術(AutoML:Automated Machine Learning)を統合したことで、AI開発のハードルを下げた。
 Megviiは、AIに最適化されたハードウェアの開発に力を入れており、急速に業態を拡張している。すでに2018年に、ロジスティクス倉庫向けインテリジェント・ロボットを開発するBeijing Ares Robot Technologyを20億元(2億9390万ドル)で買収し、そのシステムの販売も手がけている。これにより、センサーモジュール、センサーデバイス、エッジデバイス、ロボット、オートメーション機器を使ったサプライチェーンのDX(デジタルトランスフォーメーション)領域でも勢力を強めている。
 Megviiは、2020年8月にシンガポールのセルフストレージ(個人向けのレンタル収納スペース)事業を手がけるStorefriendlyと提携し、無人倉庫保管ソリューションに進出している。このソリューションは、倉庫と保管スペース利用率を最適化するよう設計されている。
 Storefriendlyの倉庫管理ソリューションには、Megviiのスマートロジスティクス・プラットフォーム「HETU」や顔認識ソリューション「Face ID」のほか、ロジスティクス・ロボット、スマートロック(電子開錠・施錠)などの機能を搭載している。
 このソリューションでは、Face IDを利用した自動ユーザー認証とアクセス制御、セキュリティ違反、盗難、火災など、倉庫で発生する可能性のある緊急事態に対応したアラートが含まれている。これにより、Storefriendlyは従来型倉庫の3倍以上の75%のスペース使用率を達成、人件費を80%削減したという。
 IoTとAIを組み合わせたHetuシステムは、Alibabaの電子商取引プラットフォーム「Tmall(天猫)」でも使用されており、Tmall倉庫内の約500台のロボットを操作して効率性を高め、人間の荷物仕分け担当者が1日に歩かなければならない距離を劇的に短縮した。

SenseTimeはアジア最大級のAIデータセンターを運用

 Megviiととともに、世界的に知られる中国の顔認識企業としてSenseTime(センスタイム)グループがある。Megvii、CloudWalk(クラウドウォーク)、Yitu Technology(イートゥ・テクノロジー)とともに、中国ハイテク業界の「AI四小龍」と呼ばれ、中国のコンピュータービジョン(CV)アプリケーション市場で、4社だけで半分以上のシェアを占めている。

 SenseTimeは、2022年1月下旬、上海の自由貿易試験区臨港新エリアでアジア最大級のAIデータセンター(AIDC)=写真=の運用を開始した。その設計演算能力は3740Petaflops(1Petaflopsは浮動小数点演算を1秒間に1000兆回行う)。総面積は13万平方メートル。コンピューターラックはファーストフェーズで5000台。投資額は約8億8000万ドル。これにより独自開発のAIインフラストラクチャー「SenseCore」の能力を大幅に向上させている。SenseCoreは、モデル、ディープラーニングプラットフォーム、コンピューティングインフラの3層を統合し、AIモデルの商業化を加速させている。主な役割として、超大規模クラスター並列トレーニング、1兆規模のパラメーターモデル、タンパク質フォールディング(アミノ酸配列の立体構造の折りたたみ)研究活動のサポートなどを挙げている。中国製半導体チップ向けの大規模なアプリケーション環境も提供している。全サーバーが配置されるのは2024年末の予定。

 SenseTimeは、いまや中国を代表する世界的AI企業に成長している。この企業が、スタートアップとして産声を上げたのは中国の大学の研究室だった。創設者はXiaoou Tang(湯暁鴎)氏。彼は、中国科学技術大学を卒業した後、米国に渡り、CV研究で知られるマサチューセッツ工科大学(MIT)で博士課程を履修し、1992年に学位を取得した。1990年代は顔認識研究の勃興期にあたり、米国の国防庁の下部組織であるARPA(Advanced Research Projects Agency:高等研究計画局)では、FERET(Face Recognition Technology:顔認識技術)への取り組みを始めていた。このミッションには、顔写真のビッグデータの構築や顔識別システム性能の評価基準の設定が含まれていた。プロジェクトの成果により、1994年から3年間で3段階の顔識別のアルゴリズムの評価テストが設けられ、主要な顔認識システムの識別アルゴリズムが同評価テストを受けるようになり、顔認識技術の研究と実用化の推進力となった。

2014年10月に香港中文大学のMMLabから誕生

 Xiaoou Tang氏は、2001年に香港中文大学の教授を務めていたとき、大学内にMMLab(マルチメディアラボ)を開設した。2005年から中国・北京のMicrosoft(マイクロソフト)の研究所であるMSRA(Microsoft Research Asia:マイクロソフトリサーチアジア)のビジュアルコンピューティングの責任者も兼務。香港中文大学では、何万枚もの写真の中から見たい写真を瞬時に取り出せるように、CVでアルバムを整理する「Photo Tagging」の研究を手がけた。
 2011年にMMLabの研究員や教師陣は、世界に先駆けて、CVにディープラーニングの応用を始めた。
 2011年から2013年にかけて、MMLabはCVにかかわる年次総会であるICCV(コンピュータービジョン国際会議)とCVPR(コンピュータービジョンとパターン認識に関する会議)で14編のディープラーニングに関する論文を発表した。これらの会議で発表されたディープラーニングの総論文数は29編にのぼり、その約半数を占めた。
 2014年3月にXiaoou Tang氏のチームは、新開発の顔認識アルゴリズムを発表した。これはLFW(Labeled Faces in the Wild)の顔データベースで98.52%の正確率を実現し、全世界で初めて人の目の識別能力をしのいだ。ちなみに、人間による他人の顔の認識率は97%程度とされている。2014年6月から、DeepID系列のアルゴリズムを発表し、漸次的に顔識別の正確率を99.55%まで上げていき、MMLabで開発した3つの顔認識アルゴリズムがLFW識別率ランキングの3位までを独占した。4位はFacebookのDeepFaceだった。2014年9月には、MMLabは「AIのオリンピック」と言われるImageNet大会に出場し、世界37の有数の研究機関の中で2位を獲得。1位はGoogleだった。
 これらの成果を携えて、2014年10月には共同創設者のXu Li(徐立)氏とともにSenseTimeグループを設立した。
人間が取得する情報の70%~80%は視覚から来ている。AIによる顔認識とは、機械に「見える」ようにすることであり、人間の目の代わりにカメラとコンピューターを駆使して画像の特徴を抽出・分析し、モデルをトレーニングしながら、画像の検出・認識などのタスクを実行させることである。いち早くCVとディープラーニングを組み合わせたことがSenseTimeのアドバンテージとなった。ディープラーニングは、まさに顔認識から始まったのである。

NAVERの人気カメラアプリ「SNOW」でも採用

 SenseTimeは、いまでは自動車や歩行者など、多量の移動中の物体や人物をリアルタイムで識別・同定する移動体認識領域において高い精度を実現するAI企業になった。この学習済みAIモデルを搭載した画像認識ソフトウェア(アルゴリズム)は、「SenseVideo」シリーズとして提供され、さまざまなアプリケーションに組み込まれて広く利用されている。
 SenseTimeの顔認識システムとして「SenseID」がある。これは、身分証明写真や動画との比較による本人確認など、対応デバイスやオンライン上で生体認証ができ、ニーズに合わせた方法で個人認証ができる。
 企業の利用では、自社内のいわゆるプライベートクラウドにSenseIDサーバーを設けて、「1v1(顔比較)」と「1vN(顔検索)」の2つのモデルを提供する。オンラインビジネスのセキュリティとコンプライアンスを確保するため、さまざまな認証シナリオに対応できる。写真の品質チェックや顔比較、生体検知などの機能もある。身分証明書の顔写真が加齢により変化しても、室内や屋外で照明環境が異なっても、正しく認識できる。

 関連するサービスとして、「SenseME」=写真=や「SenseMedia」がある。SenseMEは、画像や動画から顔や全身の特徴点を把握し、リアルタイムにモバイル端末でデコレーションやエフェクト、スティッカー(表面に絵・模様をあしらう)などの画像・映像の処理ができる。動画配信サービスや写真加工アプリ、広告表示の属性判定など、さまざまなサービスに採用されている。SenseMediaは、動画から特徴を捉えて、認識・解析した結果をもとに、ハイライト動画の生成や要約、異常検知などができる。人の手を介さず動画を要約できるため、スポーツ動画や広告分析などで応用されている。

 SenseTimeの顔認識技術は、中国の監視ネットワーク「天網(SkyNet)」のほか、上海軌道交通の交通モニタリング、中国成都にある双流空港のセキュリティチェックなどに使われている。SenseTimeは、約1億7000万台に及ぶ、中国内の監視カメラや警察システムで撮影されたデータを処理しており、新疆ウイグル自治区の少数民族の追跡・取り締りに利用され、さらに全員が保持しているデジタル身分証明書との照合にも使われている。こうして蓄積されるビックデータがSenseTimeのAI性能を高め続けている。全世界で4億人が親しんでいる、NAVER(ネイバー)の人気カメラアプリ「SNOW」でも採用されている。
 SenseTimeが自ら提供しているアプリ「fai(fashion meets ai)」では、欲しいファッションを見かけたら、その写真を撮ってアップロードすると、インターネット上で類似したファッションを見つけ出すことができる。ディープラーニングにより、ファッションの識別、服装の分類やスタイルの認識ができ、コーディネートアドバイスに役立てられている。

2017年12月にホンダの研究所と共同研究開発契約

 いまやSenseTimeは、香港・深セン・上海・杭州・北京の中国国内のほか、シンガポール、日本、アブダビ、米国、マレーシアにオフィスを構え、各拠点の技術者は連携して開発にあたっている。欧州進出へ向けて、英国拠点の設立を計画していたが断念した。これは、中国共産党政権によるウイグル人への弾圧を支えたとして、米国の制裁対象企業リストに加えられ、欧米諸国でも厳格な監視対象となっているためだ。
 日本においては、2016年1月に日本法人「株式会社センスタイムジャパン」を京都に開設し、しだいに業態を広げている。京都に本社とラボを構えているほか、東京、宇都宮、常総市(茨城県)に拠点を構える。
 日本では、自動車や製造、インフラなど、日本が強みを持つ分野に向け、自動運転、人間の行動理解、顔認識、車両識別の技術を提供するだけでなく、ロボットに関する研究開発なども着手している。
 2017年12月に、中国のSenseTimeと本田技研工業(ホンダ)の研究開発子会社である本田技術研究所が、自動運転のAI技術に関する共同研究開発契約を締結した。これを機にSenseTimeは、レベル4相当の自動運転技術の確立やADAS(先進運転支援システム)の開発に力を入れ、自動運転の分野でも頭角を現している。
 2019年1月にはDeNA(ディー・エヌ・エー)と中国SenseTimeが業務提携を発表し、SenseTimeが提供するSenseME、SenseID、SenseMediaなどの顔認識技術を活用したAIソリューションを日本国内で販売開始している。
 SenseMEは、DeNAグループが提供しているソーシャルライブ配信サービス「Pococha(ポコチャ)」や仮想ライブ空間「SHOWROOM(ショールーム)」のほか、タクシー配車アプリ「MOV(モブ)」とも連携し、タクシーの後部座席に設置したタブレットで配信する動画広告サービス「Premium Taxi Vision」に採用されている。
 SenseIDは、Webサービスの本人確認ができることから、DeNAが、2015年にスタートした個人間カーシェアアプリ「Anyca(エニカ)」に導入され、DeNAが管理する国内サーバーで運用されている。
 ソフトバンクグループのビジョン・ファンドは中国SenseTimeに出資しているほか、ソフトバンクはSenseTimeを技術パートナーにして、2019年7月に画像認識ソリューションを提供する100%子会社「株式会社日本コンピュータービジョン(JCV)」を設立した。
 2019年11月に、センスタイムジャパンは茨城県の常総市営自動車学校跡地に、専用テストコース「AI・自動運転パーク」と社屋を新設している。これは、センスタイムジャパン専用のテストコースとして、自動運転や先進運転支援システム(ADAS)などの研究開発、テスト用実環境として利用している。
 2020年4月に米国国立標準技術説明所(NIST)が実施した顔認証技術の公開ベンチマークテスト「FRVT2020」では、世界の顔認証ベンダー60団体・組織から提出された200件以上のアルゴリズムの性能が比較・評価され、その結果、入退出管理などのセキュリティシナリオでの活用される「1:N認証」において、SenseTimeは1200万人の顔写真データから対象人物を見つけ出す課題のエラー率0.5%を記録し、8つの評価項目のうち5件で世界ナンバー1を獲得した。本人と本人写真の類似度を比較し、同一人物であるかを判定する「1:1認証」でも最低のエラー率だった。

XRプラットフォーム「SenseMARS」を発表

 SenseTimeは、メタバースにも進出している。2021年7月に、動画共有プラットフォームを運営し、オンラインエンターテインメントのブランドとなったBilibiliが主催するオフラインカーニバル「BilibiliWorld 2021」において、SenseTimeはAR(拡張現実)とMR(複合現実)に重心をおいたXR(クロスリアリティ)プラットフォーム「SenseMARS(センスマーズ)」=写真=を発表した。この特徴は、SenseTimeが得意な画像認識技術により、3Dモデリングと自己位置推定をすること。360度カメラで対象を撮影するだけで、その映像から3Dモデルを生成する。それから3Dモデルを各種サービスへと落とし込んでいく。そのためのクラウドエンジンやメタバースアプリのサポートといったコア機能のほか、3500を超すAIモデルを搭載している。

 中国の動画共有サイトやメタバースで、人気のある VUP(Virtual Uploader:仮想アップローダー)との3Dインタラクションを介した没入型ロールプレイングゲームの制作にも使うことができる。中国では、VTuber(バーチャルYouTuber)は、VUPとして活動しており、中国語では「虚擬主播」と呼ばれている。
 また、商業施設向けにスマートフォンを用いたARナビゲーションにも応用できる。その施設の3Dモデル上に各店舗やトイレ、公共スペース、駐車場などの位置を設定し、さまざまな3Dオブジェクトを設定して、ARナビゲーションアプリを作成できる。ユーザーはアプリを起動させ、施設内にカメラを向けるだけで、SenseTimeの画像認識技術により、カメラ映像から3Dモデル上のどこにいるかを推定し、その地点の案内やナビゲーション、過去の光景や史跡などを表示させることができる。中国では、すでに各地のAR観光やARナビゲーションに利用されている。

 中国では、VR(Virtual Reality)の中国語訳として「虚擬空間」が使われており、メタバースは「元宇宙」と言われている。ただ、中国の科学者であるQian Xuesen(銭学森)氏が、1990年にVRを「霊境」と訳したことが知られており、最近ではこれが再評価されている。このため、SenseTimeは、SenseMARSソリューションによる空間を「霊境空間」と呼んでいる。SenseMarsは、SenseMARSのAIとXRを統合した技術を応用し、ビデオや3DモデルなどをはじめとするコンテンツIP(知的財産)を仮想空間で生き生きと表現する「数字猫(シューズーマオ)」も構築している。これを使って、2022年7月には中国の画家のXu Beihong(徐悲鴻)氏の手による絵画「宋人と馬の徐悲鴻」=写真=を3D空間で再構成したデジタル作品を2300個限定で発売し、完売した。この絵の馬は、本来は動かない静的な馬だが、デジタル作品では、たてがみをなびかせて動くことができる。このようにSenseTimeは、中国の文化を最新技術で生まれ変わらせることにも取り組んでいる。

<つづく>

 (清水メディア戦略研究所 代表)