コラムCOLUMN

世界最先端を走る中国のAI企業
顔認識のYITUと音声認識のiFLYTEK

海外動向

清水 計宏

2030年にまでにAI産業規模を約203兆円規模に

 AI(人工知能)関連の論文と特許の数で、世界の最先端に躍り出た中国。だが、共産党と民間新興勢力との確執や厳格なゼロコロナ政策、米国による半導体と先端技術の輸出規制、監視システムへの市民の反発などもあり、その足もとは盤石ではない。台湾問題もはらみ、経済と安全保障の両面でも不透明感はぬぐいきれない。
中国で急成長したIT企業やユニコーン企業(10億ドル以上の価値のある個人所有のスタートアップ)の経営者や技術者の多くが、米国で教育・研究に携わった経験があり、その勢力拡大にも米国市場は欠かせなかった。米国なくしては、中国のハイテク産業の急速な発展はなかっただろう。
 英国の調査会社Global Dataによれば、世界で特定されている45社のグローバルAIユニコーン企業のうち、中国に拠点がある企業は19社あり、最大シェアを占めている。米国の GAFAM(Google、Amazon、Facebook、Apple、Microsoft)に代表されるIT企業はAIで政府と協力することには抵抗を示しているのに対し、中国のIT企業は政府と協力する義務があり、欧米のような倫理はほとんど考慮されない。こうした強権的な体制の中国がAIとビックデータで突出した国になったのは皮肉である。
 中国は、2017年7月に国家戦略として、AI産業を2030年にまでに世界トップ水準に引き上げ、10兆元(1元は約20.70 円、約207兆円)規模にする「次世代AI発展計画(AI 2.0)」を公表した。つまり約10年間でAIの産業規模を10倍にしようとしている。この額は、日本の2022年度の予算(一般会計歳出107.6兆円)の2倍近くに相当する。AIについて、国際競争の新たな焦点であり、将来をリードする戦略技術と位置付けている。これは、どの国にも当てはまることである。
 AIは、経済だけでなく、軍事・安全保障にも決定的役割を果たすようになっている。自動運転やMaaS(Mobility as a Service)、都市インフラ・施設や運営を最適化するスマートシティ、さらに製造、医療、教育、文化・芸術、スポーツにまで影響を与えている。
 中国を代表する顔認識・認証の先端企業として、すでにMegviiとSenseTimeを取り上げた。この国には、ほかにも世界に抜きんでた企業が数多くある。
 今回は、ハイテク業界の「AI四小龍」の一翼を担っているYITU Technology(依図科技:イトゥ・テクノロジー)とAI音声認識で先頭を走るiFlyTek(アイフライテック:科大訊飛)をクローズアップする。

約20億人の顔を認識するYITU Technologyの技術力

 中国において、MegviiとSenseTimeと並ぶ顔認識技術で知られているのが、上海に拠点を置く YITU Technology である。「YITU」は「Yitu」と書かれることもあるが、一般的には大文字なので、それを踏襲する。
 都市管理、医療・ヘルスケア、企業ビジネスの3分野で事業を繰り広げ、とりわけ顔認識と画像認識、音声認識の技術を組み込んだセキュリティシステムは、中国各都市で導入されている。
 YITUの代表的な顔認識システムとして、「Dragonfly Eye(ドラゴンフライ・アイ」がある。中国の人口は約14億2000万人だが、いまや約20億人の中から1人を3秒で見分ける技術になっている。
 これらのデータは、国家データベースにログインしている国内の居住者だけでなく、中国に出入りするすべての人から取得している。少なくとも、3億2000万超枚の個人写真は、空港や港湾、駅といった国境での出入国の際に撮影されたとされている。いまもデータは年ごとに膨らんでいる。
 Dragonfly Eyeは、2015年6月に蘇州でシステム導入して以来、全国の約30の省、150以上の都市、数百のキャンパスにとともに、地方自治体の公安システムにも組み込まれている。
 運用開始以降、監視カメラの映像から指名手配中の逃亡犯、前科者、テロリストらの顔を瞬時に識別してアラート(警報)を発信してきた。中国では街頭のいたるところに監視カメラが設置されており、データは日々アップデートされ、認識率を向上させている。いまでは、同時に複数人がマスクを付けていても認証でき、ゼロコロナ対策から体温測定もできる機能もある。
 蘇州では、システムの導入年だけで、500件の刑事事件を解決したとされ、2016年に杭州で開催されたG20サミットの会期中では9人の容疑者を検挙した。2017年1月には上海地下鉄で試験運用を始めて、3カ月間だけで567人の犯罪者を逮捕。生きている人間だけでなく、浙江省では殺傷されてから5年経過した犠牲者の頭蓋骨を特定したという。
 YITUは、2020年に米商務省傘下の国立標準技術研究所(NIST:National Institute of Standards and Technology)が主催する顔認証ベンダーテスト(FRVT:Face Recognition Vendor Test)において、中国企業として初めて優勝した。その後、3年連続で最優秀賞を受賞。FRVTテストでは、YITUのアルゴリズムは業界最高レベルの認識精度99%以上、FMR(False Match Rate = 誤マッチ率)0.0000001以下を達成している。

YITUとHuaweiが提携して市場を開拓

 YITUは、2016年初頭から世界的な通信機器メーカーであるHuawei(ファーウェイ:華為技術)と提携しており、Huaweiのコンピューティング基盤にYITUのAIアルゴリズムを構築している。Huaweiが、AIを重視したコンピューティング戦略へ軸足を移す契機にもなった。
 2017年からHuaweiは深センにある本社にYITUのAI顔認識を取り入れて、パイロット・キャンパス(敷地・構内)へ移行した。このソフトウェアは、1000台のビデオカメラと連携し、24時間365日にわたり監視とセキュリティの中核になっている。
 これにより、有人警備員を排除することができ、1ゲートあたり1万7900ドル(約12万元)を節約した。Huaweiの各従業員は、その都度IDバッジをスワイプする必要がなくなり、1秒に1人のペースでキャンパスゲートを通過できるようになった。これは、就労者の動線・流れとエクスペリエンス(経験)を向上させることにつながった。
 2018年には、YITUとHuaweiの両社は複数のビデオクラウドとビッグデータソリューションをリリースし、インテリジェント・コンピューティング分野での協力覚書を締結し、共同で海外市場の開拓を始めた。
 2018年10月10~12日に「Activate Intelligence」をテーマに開催された年次開発者イベント「Huawei Connect 2018」では、HuaweiとYITUが2つの具体的な共同イニシアチブ(先導戦略)を発表した。
 その1つは、Huaweiのネットワークを使ったインテリジェントビデオ解析システム(IVA:Intelligent Video Analytics)とYITUのビッグデータ・プラットフォームを活用した公共セキュリティ市場向けの「Policing Cloud Solution」(クラウド警察ソリューション)。これは、公安・ 警察が高レベルの公共の安全を守るための強靭なシステムになっている。
 もう1つは、Huaweiのインテリジェント・コンピューティング・プラットフォーム「Atlas」とYITUの顔認証・統合キャンパス管理ソフトウェアをベースにした、企業市場向けの「スマートキャンパス・ソリューション」。企業キャンパス管理の効率化を支援するスマートセキュリティシステムである。
 また、YITUは、2018年11月に研究者がより効率的にモデルを分析・改善するための大規模データセット「PreCo(プレコ)」を公開している。これは、英語を話す幼稚園児の語彙を中心に、約4万語の文書と1300万語の単語から構成され、開発には1年をかけ、アノテーション(注釈付与)には約5万時間を費やしたという。

画像認識を駆使して胸部CTスキャン用画像診断システムを開発

 YITUのヘルスケア部門である Yitu Healthcare は、2019年に1 億元を投資し、 5 年間で中国全土の数百のトップ医療機関と協力して AI の普及を加速させ、医師の負担を軽減し、誤診をなくす計画を発表した。 それを受けて、2020年12月にYITU Healthcare がHuawei Atlasシリーズを使用して、迅速で正確な診断のためのソリューションを提供するケーススタディを発表している。  その1つが、画像認識技術を駆使し、肺がんスクリーニングのため、胸部CT(Computed Tomography)スキャン用「care.ai Intelligent 4D Imaging System」(インテリジェント4D画像システム)=写真=の開発である。これには膨大な量のRWE(Real World Evidence:実臨床下のデータを用いて治療が現場で役立っていることを明示)ベースのトレーニングデータとして、信頼できる証拠に基づく臨床ガイドラインが付属する。病変を検出するだけでなく、悪性度スコアと進行度(ステージ0~ステージ4までの5段階)を示す。 胸部CTスキャン自動評価システムは、3秒以内に肺炎の重症度を分析・分類することができ、患者の過去と現在の記録を自動的に比較することも可能。従来であれば2~3時間かかっていた手動による評価プロセスを大幅に短縮させた。新型コロナ感染症(COVID-19)の診断にも効力を発揮している。

 このシステムは、複数のスタンダード(基準・標準)をサポートできるため、子どもの骨年齢の評価にも適用でき、数秒以内に診断を下せられる。いまではX線診断、評価、報告作成のプロセスを5分未満でこなすことができるため、子どもの骨年齢評価に広く使われている。マンモグラフィーや放射線専門医の診断を支援するソリューションとしても提供されている。
 YITUのAI医療診断システムは、中国全土の200以上の主要な病院で導入され、多くの省や都市の地方自治体や県レベルの地域医療センターをカバーしている。医療用画像の自動的な観察・評価では、AIアルゴリズムとハードウェアとが連携・融合して動作している。使用されているAIコンピューティング・プラットフォームはHuawei Atlasシリーズ。このシリーズは、デバイス、エッジからクラウドコンピューティングまでをカバーし、エッジデバイスとクラウド間のコラボレーションができるのが特徴。

 YITUのインテリジェント・ヘルスケア・ソリューションの中核となっているのが、Atlas 300I AI推論カードとAtlas800 AI推論サーバー=写真=である。これらの高レベルのコンピューティング性能により、CTスキャンによる画像・ビデオ分析を98%超の精度で2分に短縮した。  Atlas 300Iカードは、1ボードで80チャンネルのリアルタイムHDビデオ解析サポートし、最大88 TOPS INT8の演算能力を提供する。一般的な製品に比べて、2倍のフルHDビデオチャネル数で、約33%増のコンピューティング能力だという。ちなみに、AI処理チップの性能表記には「FLOPS」と「TOPS(OPSS)」がある。CPUの性能はMIPS(Million Instructions Per Second)という単位が用いられたが、そのアーキテクチャによって演算に必要な命令数も変わるため、FLOPSやTOPS/OPが使われている。INT8は8 バイト整数のこと。

 Atlas 800サーバーは、2基のKunpeng 920プロセッサー、最大で毎秒2933 MT(メガ転送)をサポートする32のDDR4 DIMMスロットとビデオ分析用に最大640チャネルとなる最大8つのAtlas 300Iカードを搭載する。
 AI ディープラーニング向けに最適化されたニューラル・プロセッシング・ユニット (NPU) プロセッサーにより、低消費電力で高効率を要求されるリアルタイム推論に適している。Atlas 800サーバーは、Atlas 300Iのデジタルビジョン前処理(DVPP: Digital Vision Pre-processing)エンジンとの組み合わせで、最大512のビデオストリームをリアルタイムでエンコード/デコードできる。この高いパフォーマンスにより、車両・交通のトラフィック分析がリアルタイムで求められる都市管理システムでも使用されている。

AIチップ「QuestCore」を独自開発

 AI企業として最前線にあるYITUは、ソフトウェアだけでなく、クラウド/データセンターでのマシンラーニング(機械学習)に特化したAIチップ「QuestCore」=写真=も独自に開発している。YITUは、このチップを2019年5月にリリースした。2019年10月29日から11月1日までの会期で、韓国ソウルで開催されたコンピュータービジョン(CV)の国際会議「ICCV 2019」では、これに関する研究成果を発表している。QuestCoreは、世界トップクラスの AI アルゴリズムと高度なチップ設計概念を統合した高性能で費用対効果の高いビデオ分析チップ。SoC(System-on-a-chip)として使用でき、顔認識や自動検出などのアプリケーションをこなす。QuestCore は、従来よりもサーバー体積を 80%、消費電力を80% それぞれ削減できる。これまで5台のサーバーで、年間 2万Wの電力を消費している場合、年間 4000 Wの電力消費量のサーバー1 台にでき、3 年間で1 億人民元 (1454 万ドル) 以上を節約できることになる。

 YITUは 2017 年 7 月から AI チップの開発を開始し、同年にチップ設計で総合力のあるAI チップ設計スタートアップのThinkForce に投資した。ThinkForce のコアチーム・メンバーは、IBM、AMD、Intel、ZTE などの主力チップメーカーで実績を積み、チップ設計では10 年以上の経験がある。40 種類超の大量生産型のチップ設計と最大数十億ドルの販売実績もある。QuestCoreのチップ設計ではThinkForce が多大な役割を果たした。
 QuestCoreの開発により、YITUが掲げていた「コンピューティング・パワー・ブースター」企業への転身を果たすことができた。
 ただし、チップそのものは、直接的な収益をもたらしておらず、YITUの製品やサービスに組み込まれることにより、収益構造を高め、ソフトウェアビジネスよりも、ソフトウェアとハードウェアを組み合わせた統合ソリューションへと軸足を移す契機になった。

 ICCV 2019において、このプレゼンテーションをしたYITU の CTO (最高技術責任者)に就いていたYan Shuicheng(顔水成:ヤン・シュイチェン)氏=写真=は、CVとマシンラーニングの分野で世界的な研究者として知られる。2019年 8 月に YITU に入社したが、それまでは中国でアンチマルウェアソフトウェアを開発しているQihoo 360(奇虎360)でAI 研究所を立ち上げ、そのチーフサイエンティストを務めていた。Yan Shuicheng氏は、Shangtang Technology (シャンタン・テクノロジー)の創設者で、Microsoft Research Asia(マイクロソフト・リサーチ・アジア)のビジュアル・コンピューティング・グループのディレクターのTang Xiaoou(タン・シャオウ)氏の薫陶を受けた。2004年に香港中文大学に進学し、ポスドク(Postdoc=Postdoctoral Researcher:博士研究員)生活をスタート。その後、2006年には米イリノイ大学アーバナ・シャンペーン校 (UIUC) のポスドクになった。UIUC では、米工学アカデミー学者で、中国のCV創始者で教授であるThomas Huang氏の下で学んだ。その後、重慶に戻りYuncong Technology を設立。2008年には、シンガポール国立大学(NUS: National University of Singapore)で学び、ここでマシンラーニングとCVのリーダーになった。その後、Qihoo 360に勤めた。

 2014 年、2015 年、2016 年、2018 年、2019 年、2020 年、2021 年に、米ニューヨークに本社を置く多国籍情報サービス企業であるトムソン・ロイターが、論文を多数引用された優れた学者として認証する「Thomson Reuters Highly Cited Researchers」に選出された。IEEE (電気・情報工学分野の学術研究団体)とIAPR(国際パターン認識連盟)、 シンガポールのAcademy of Engineering のフェローであり、「ACM Distinguished Scientist」にも選ばれている。国際的なジャーナルや会議で 600 以上の論文を発表し、少なくとも4万回以上引用されている。研究者の貢献度の指標(H-index:h指数)ではH-index 120+となっている。
 その後、Yan Shuicheng氏はYUTUを辞した後、シンガポール国立大学(NUS: National University of Singapore)の教授となり、 同時にシンガポールを拠点とするSea AI Lab(SAIL) の所長兼グループ・チーフ・サイエンティストも務めている。
 2021年12月にYan Shuicheng チームは、CPU リソースを大幅に節約する強化学習 (RL:Reinforcement Learning) 環境の並列シミュレーター(1秒あたり 100 万フレーム)をオープンソース化した。SAIL とシンガポールの主要大学との間のユニークな共同イニシアチブとして、Sea Industrial PhD Program (IPP) がある。これは、AI 研究で卓越した成果を挙げている大学院生を表彰するもので、IPP 候補者には授業料の全額だけでなく月給も支給される。

2012年に米MIT卒業のAI科学者のLeo Zhu氏らが設立

 YITU Technology は、2019年1月にシンガポールのMapletree Business Cityに AIの研究を推進する「YITU Singapore R&D Center」(YITUシンガポール研究開発センター)を開設している。
 YITU Singapore R&D Centerの初期段階では、スマートビルディング向けの AI ソリューションの開発、商用アプリケーション向けの自然言語および音声処理技術の強化、医療診断向けのCVの最適化に重点を置いていた。
 このセンターの立ち上げは、世界の成長の主要な原動力として、シンガポールと東南アジアの可能性を活用しようする YITUの戦略の重要な柱となっている。AI アルゴリズムの研究者、システム研究者、ハードウェア専門家、エンジニアで構成される約30人のスタッフからスタートし、すでに 100 人規模になっている。
 YITU Technologyは、2012年に米マサチューセッツ工科大(MIT)を卒業したLeo Zhu氏らによって共同設立された。AI科学者でもあるLeo Zhu氏は、2008年に米カリフォルニア大学ロサンゼルス校(UCLA)で統計学の博士号を取得し、英国の理論物理学者として知られるStephen William Hawking(スティーブン・ウィリアム・ホーキング)博士の弟子のAlan Yuille(アラン・ユイル)教授に師事し、CVとAIの統計モデリングを専攻した。
 2008年から2010年まで、Zhu氏はMITのAI研究室でポスドクを務め、IEEEフェローで計算写真の創始者でもあるBill Freeman(ビル・フリーマン)氏と共同研究に携わった。2010年から2012年までは、ディープラーニングの創始者として有名なYann Andre LeCun(ヤン・ルクン)氏が率いるニューヨーク大学のクーラント数理科学研究所(Courant Institute of Mathematical Sciences:CIMS)で研究員を務め、この期間に画像認識によるオブジェクト検出のベンチマーク(指標)となっているPASCAL VOC(Visual Object Classes) Challengeでチームを率いて優勝した。「PAMI」「IJCV」「NIPS」「AISTATS」「CVPR」などの学会誌や専門誌に数十本の論文を発表した。
 YITUは短期間にユニコーン企業に成長し、150 億元 (21 億 8000 万ドル) に相当する 5 回の資金調達を完了。投資家には、Sequoia China、Banyan Capital、Hillhouse Capital、Zhen Fund、YF Capital などが名を連ねている。

iFLYTEKは中国で音声認識市場の80%を握る

 中国には、AIを活用した音声認識や音声合成、音声翻訳の技術力で世界トップレベルを走る企業がある。それが、iFLYTEK(アイフライテック)である。
 AI 音声認識システムとは、主に人が話す言語をAIで解析し、その内容を認識して、デバイスやロボットを動作・操作でき、接客・応対では合成音声でインタラクティブに会話でき、文字データに変換したり、別の言語に翻訳するなどの処理をする。テキスト化したファイルからの検索や各種分析、要約などの機能拡張もある。
 世界的なスマートスピーカー(AIスピーカー)の普及が起爆剤となり、AIの発達で音声認識の精度が格段に上がり、大きな成長を遂げている。市場拡大にはスマート家電の普及や医療現場での効率化の高まりとともに、新型コロナ感染症(COVID-19)により企業活動のオンライン化が進み、音声データの収集や録音が比較的容易となった背景もある。
 複数のコミュニケーションモードでシステムとインタラクションするマルチモーダル・インタフェースの広がり、さらに個人を認証・識別するための音声ベースの生体認証システムの需要の高まりもある。生体情報や行動パターンによる予測により、デバイスやシステムが人間の代わりに操作するアンビエント・コンピューティング(Ambient Computing)も作用している。
 グローバルインフォメーション(小野悟社長、神奈川県川崎市)の調査によれば、音声認識・言語認識の市場規模は、2022年の94億ドルからCAGR(年平均成長率)24.4%で成長し、2027年には281億ドルに達すると予測。また、米調査会社のVerified Market Research によれば、音声認識の市場規模は 2021 年に 75 億ドルと推計され、2030 年までに 596 億ドルに達し、2022 年から 2030 年にかけてCAGR 22.57% で成長すると予測している。
2018年に、中国政府がAI分野の発展に向けて5つの企業を選出した。BATで総称されるBaidu(百度:バイドゥ)、Alibaba(阿里巴巴:アリババ)、Tencent(騰訊控股:テンセント)に加え、SenseTime(商湯科技:センスタイム)とiFlyTekの2社が挙げられた。いまや中国は、世界AI市場で 20% 以上のシェアを取り、AI関連特許では世界の 40%近くを占めるまでになっている。
 中国政府は、iFlytekと協力して、通話から対象となる声を自動的に特定できる監視システムのパイロット版を開発しており、中国では音声認識市場の約80%を握っている。
 音声認識システムが必要とされる、最も熱い市場の1つが、EV化と自動運転機能により変革期にある自動車市場である。自動車の音声認識市場では、中国のiFlytek と米国に本拠を置くCerence (セレンス)が競り合っている。中国市場に限れば、互角の闘いをしており、2020 年には約 40%ずつのシェアを占め、両社で約80%の市場を握っている。ドライバーの問いかけや質問に、人間が話すのと同じように、最良の返答や対話を返すことができる。

 iFlytekは、すでに日本にも進出しており、東京・京橋に「iFLYTEK JAPAN AI SOLUTIONS 株式会社(馮躍社長)」がある。2020年7月に、日本国内でAI翻訳機「iFLYTEK 翻訳機2.0 (easytrans 800)」=写真=を発売している。これは、世界で初めてオフライン翻訳機能を備えた翻訳機「暁訳」の後継機種。ニューラルネットワーク機械翻訳と音声認識、音声合成、画像認識、オフライン翻訳を統合している。4マイクロフォンアレイとAIにより、中国語と世界30言語のリアルタイム対訳を実現。対話翻訳、撮影翻訳、人工翻訳などの翻訳モードを備えている。広東語・四川語・東北語・河南語の4つの中国語方言も翻訳する。看板やレストランのメニューなどを内蔵カメラで読み取り自動翻訳する画像翻訳もできる。2019年1月に米ラスベガスで開催されたCESにおいて、「Innovation Award」を受賞した。前モデルの「iFLYTEK 1.0」は2016年11月に発売され、2020年6月末時点で130以上の国で計20万台以上販売した。

 2021年4月28日には、音声を自動でテキスト化するAIライティングレコーダー「VOITER(ボイター)」=写真=と「VOITER mini(ボイターミニ」を日本で発売した。VOITERは、ハイエンドモデルで、経営会議やインタビューなどのプロシチュエーション向け。VOITER miniは、会議や学校の授業など、講義録の作成などを手軽にしたい人向け。これらのAIライティングレコーダーは、Wi-Fi接続時やSIMカードによるネットワーク接続時に、画面上でリアルタイムに文字起こしをする。いったん間違って処理した言葉も、AIが文脈から判断して自動修正するのが特徴。2022年3月には、日本におけるVOITER の導入企業・団体数(大学・公共機関含む)が2000社を突破した。VOITERは、雑音環境での音声認識技術を競う国際コンテスト「CHiME」で2016~2020年(隔年開催)に3回連続No.1を受賞。高い音声認識技術と、それを支える高度なノイズ処理テクノロジーを誇っている。

iFLYTEKの主な製品

 iFLYTEK は、言語にまつわる障壁を改善・向上させるテクノロジーを駆使して、ビジネスパーソンだけでなく、一般の人にも使いやすい製品を世界で販売している。

ハンドヘルド翻訳機「Jarvisen」

 世界的によく知られているのが、2020年1月に発売したハンドヘルド翻訳機「Jarvisen」(429 ドル)。 音声認識・機械翻訳・音声合成システム「iFLYTEK トランスレーター 3.0 国際版」を搭載し、英語、スペイン語 中国語、韓国語、フランス語、アラビア語、日本語 をはじめとする60言語に95%以上の精度で0.5 秒という世界最速で翻訳する。60言語の翻訳には、Wi-Fiかデータプランが必要になる。アップグレードモデルには、2 年間のグローバルデータ・プラン(通常70ドル)が付属されている。日本でも、約7万~8万円のモデルでは、Wi-Fi不要で2年間無制限で4G/LTE のデータプランが使用できる。Jarvisenは、オンライン接続を必要とせずに翻訳できるオフライン言語のデータベースも構築している。オフライン言語を選択し、特定の言語データパッケージをダウンロードすれば、オフラインでも利用ができる。

モバイルアプリ「iFLYREC」

 モバイルアプリとして、「iFLYREC」のApps(アプリ)がある。2019年から中国や米国でリリースされた。AIは、音声を認識するだけでなく、内容の把握までできるのが特徴。
 アプリを立ち上げたら録音ボタンを押せば、録音が始まり、「中(中国)」と「En(English)」で中国語と英語の認識の切り替えができる。録音が終わればファイル保存ができる。トップ画面で「翻譯(翻訳)」を選べば同時通訳録音ができる。同時通訳は、「中国語→英語」「英語→中国語」「中国語→ロシア語」に対応する。
 録音した音声と文字起こしの内容が再確認できるが、テキストファイルに変換する場合は有料になる。チャージする金額を選ぶと、携帯電話番号での認証画面に切り替わるが、日本の携帯番号は登録できない。中国では、Alipay(支付宝)やWeChatPay(微信支付)で支払いができる。テキスト変換には、中国語AI文字起こし(1分0.33元)、中国語人間文字起こし(1時間80元)、英語AI文字起こし(1分0.33元)がある。
 iFlyrecのホームページ(HP)からテキストファイルをアップロードすれば、人間による各言語(9ヶ国語)の翻訳サービスも利用できる。中国語、英語、ドイツ語、フランス語、ロシア語、スペイン語、ポルトガル語、韓国語、日本語に対応する。中国語から日本語の翻訳料金は1000字につき280元相当。

iFLYREC Intelligent Conference System (Internet Edition) L1

 これは、ビデオ会議に対応するスマート会議システム向けのシステム。リアルタイムの多言語翻訳と文字起こしができるオフィス・ソリューション。各種会議・討議、国境を越えた遠隔会議、国際フォーラムなどで使用されている。バイリンガルの字幕や資料共有に対応する。音声と文字の同期、キーワード抽出、高速レイアウトなどができ、原稿作成を補助する。中国語と英語の音声のリアルタイム・テキスト化では、標準中国語の識別率は97.69%、英語(口語)の識別率は93.93%を誇る。

iFLYTEK A.I. Mouse「MiMouse S」

 2018年4月に発表されたインテリジェント音声マウスが「MiMouse S」。価格は299元。これは、前方と後方のキーエリアが円形になったデバイス。電池ではなく、microUSBによる充電式。マウスの機能のほか、ソフトウェアをダウンロードしてインストールすると、音声入力ができ、タイピング、スマート(PC画面操作)、翻訳の3つのモードの切り替えができる。左端の音声入力ボタンを押せば、音声だけで検索サイトや乗り換え案内、動画・音楽の選択などができる。標準中国語だけでなく、広東語、四川語、河南語も認識し、ほかに28言語の翻訳ができる。音声コマンドを記録、転写、翻訳、応答する。毎分400 ワードのテキスト入力を高精度で処理できるが、これは中国語の場合。他のシステムと同様にAIによる認識率は97%。右端の翻訳ボタンを押せば、中国語なら英語に翻訳されて表示され、英語なら中国語を表示する。

Alpha Egg Dictionary Pen Q / Alpha Egg Dictionary Pen T10

  Alpha Egg Dictionary Pen Q3 は辞書と翻訳機能の付いたペン型デバイス。中国語と英語を学習している学生向け製品。簡体字中国語、繁体字中国語、英語に対応し、英語と北京語の読み上げでは速度の調整もできる。電子辞書として、Oxford Advanced Learner's English-Chinese Dictionary(オックスフォード中国語&英語翻訳辞書) と20の主要な参考書が組み込まれている。テキストスキャンまたは音声コマンドで、単語の意味の説明や翻訳ができる。教科書、 絵本、新聞、印刷された文書、タブレットデバイスに表示された文字を読むことができる。Wi-Fiに対応するが、オフラインの使用もできる。 Alpha Egg Dictionary Pen T10 は、「ミニ AI チューター」として知られる、個別指導機能のある辞書・翻訳ペン。 中国語と英語を学習している向けの学習ツール。電子辞書には、Oxford Advanced Learner's English-Chinese Dictionary と、420万語を含む 20 冊の主要参考書が含まれる。テキストスキャンや音声コマンドで、単語の翻訳や意味・説明が検索できる。 画面サイズは3.7インチ。ストレージ容量は 16GB。 毎分 80 ワードのスキャンができ、Wi-Fiとオフラインでの使用に対応する。Alpha Eggの両製品ともUSB Type-Cポートで充電する。

iFLYTEK AINOTE Air tablet

 2022年5月に中国で発売したタブレット端末。1 人の話者で毎分最大 400 ワードを音声認識する。話者1人の認識精度は 98%。複数の話者も追跡できるが、精度は95%と若干落ちる。中国語と英語の混合音声も精度96%で認識できる。リアルタイムで言語を認識し、音声合成を使用して翻訳し、言語のテキスト化と編集・修正ができる。23地域の中国の方言も聞き取りができ、世界60言語をサポートする。自動で会議の議事録を作成でき、録音データの保存管理ができる。中国語でのリアルタイムの音声文字起こし精度は98%。音声による検索機能、ポイントインタイム(特定の時点間)の再生機能を備える。オンラインとオフラインで使用できる。16業界に固有のシソーラス(類語辞書)を組み込み、解像度 1404×1872 の7.8 インチの E Ink (電子インク)スクリーンを搭載。ディスプレイは300 PPI で、24 レベルのデュアル色温度設定をサポートする。指紋スキャナーによるロック・解除ができる。 中国大手書店のDangdang.com のオンライン書籍・出版物にアクセス、閲覧できる。書籍は、音声合成機能で読み上げることもできる。WACOMの画面機能を備え、無料のスタイラスが付属する。24 個の LED ライトによるフロントライト付きディスプレイにより、暗いところでも読むことができる。WeChatを介したデータ転送とともに、デバイス間のリアルタイムデータ転送も可能。キングソフトのWPS Office ソフトウェアがインストールされており、編集とファイリング、電子メールの利用ができる。1.8 GHz クアッドコア・プロセッサーと2 GB のRAM、64 GBのストレージを搭載。EPUB、PDF、MOBI TXT の電子書籍の読み込ができる。ドキュメントをスキャンするための5MP(メガピクセル)カメラを備える。USB-C ポート、2300 mAh のバッテリーに対応。OSは、Google Android 11。Androidアプリのインストールも可能。筐体は、航空宇宙グレードの軽量なマグネシウム・アルミニウム合金製。厚さ5mm、重量は230g。中国での価格は32 GB モデルが 2799元。64 GB モデルは3299元。

iFLYTEK Learning Pad T10(Study T10)

 中国では、2021年児童・生徒の宿題と塾通いの負担を減らす「双減政策」が導入された影響で学習塾の閉鎖が相次いでいる。そんな中で、2021年7月にiFLYTEKがリリースした学習パッド「iFLYTEK Learning Pad T10(Study T10)」が高い人気を集めている。これは、小学生から高校生までの生徒向けのAI 支援学習システム。個人の学習の進捗を記録し、個人に合わせたナレッジマップを作成できる。特定のテスト問題を提示して、子供の状況と弱点を診断でき、具体的な学力向上計画を示しながら、的を絞った演習を通して、生徒の弱点を強化する。AIにより、生徒に合わせて、学習計画がカスタマイズでき、よりパーソナライズされた学習ができるようにしている。英語の科目では、リスニングとスピーキングの演習、個人の状況に応じた英会話の練習ができ、発音の修正機能もある。英会話は、全国の高校・大学入試英語試験と同一ソースの評価技術を採用しており、受験にも役立つ。複数地域の複数の教科書をサポートしており、中国の全国高等学校入試英作文添削基準に準拠した英文作文添削機能も備える。添削は、毎回試験基準に合わせて実施されるため、実践的な学習ができる。

韓国HancomとAI 事業の合弁会社を設立

 iFYTEK は、2019 年 3 月に韓国のソフトウェア企業であるHancom (ハンコム)と提携し、AIビジネスを拡大するために、合弁企業「Accufly. AI」を設立している。この企業は、ソウルを拠点に、フィンテック、教育、ヘルスケアの各分野で、両社の最先端 AI 技術の組み込みに焦点を当ててきた。
 2020 年 3 月に、韓国のCOVID-19パンデミックに対処するため、Accufly. AIはAI アウトバウンド通話システム(AI Outbound Calling System)の運用を開始した。
 このシステムは、Hancomグループが開発した韓国語ベースの音声認識エンジンと iFLYTEKのトータル・ソリューションを統合したシステム。AIベースのメッセージングツールである Chatbot (チャトボット)が組み込まれ、韓国の地方自治体や健康管理チームのニーズを考慮して設計された。
 韓国語のAI音声認識を搭載し、感染者やウイルス保菌者に対して、有益で必要な情報を合成音声で自動配布でき、回復した患者にはフォローアップの電話をし、SMS(ショートメッセージサービス)でテキストメッセージの送信ができ、リスクの高い個人をスクリーニングもできる。症状が疑われる患者を特定し、自己隔離された居住者を管理できるため、コールセンターにおける感染リスクの軽減につながった。
 システムの導入により、緊急タスクである保健業務において、訪問調査を回避できるため、感染のリスクの軽減とともに、時間と人手・人員を減らすことができた。
 iFLYTEKは、コロナ禍の中国において、AI音声認識技術を使い、症状のある患者を特定し、自己隔離された居住者の管理とともに、感染リスクを軽減することをサポートしている。

人権侵害を監視するHRWがプライバシーへの懸念を提起

 世界の約100カ国の人権侵害を明らかにし、正義を追求する活動をしている Human Rights Watch(ヒューマン・ライツ・ウォッチ:HRW)は、すでに2017 年 10 月に中国の音声認識プログラムに関するプライバシー侵害の懸念を提起している。
 その調査によれば、中国政府は、音声認識技術で使用するデータベースを構築するため、市民から音声パターンのサンプルを収集しており、中国の音声認識市場で80%のシェアを握る iFlytekと協力し、中国の公安省は電話での会話で対象となる個人の声を特定するパイロット・プロジェクトに取り組んでいるとしている。
 この時点では、中国政府の音声パターン・データベースは、他の生体認証データベースに比べて小規模にとどまっていた。警察は、2015年までにパイロット・プログラムの 特定の地域から約 7万のサンプルを収集し、顔画像データベースには 10 億人以上の個人が含まれていた。その DNA データベースには約 4000 万のサンプルが含まれるとしている。
 中国では、当局が収集した個人情報の削除を要求したり、それに異議を唱えて、補償を勝ち取ることは極めて困難。音声パターンのResearch収集については、指紋採取やDNAサンプルのような生体データとは異なり、個人が監視下に置かれていることに気づかないケースもある。
 HRWが調査した公的な提案書や警察の報告書によれば、警察は「標準的」「統合的」な「情報収集」の際に、指紋や手のひら採取、顔写真、尿、DNAサンプルといった生体認証データだけでなく、音声パターンも収集しているという。
 また、オーストラリアのテレビ国際時事番組のSBS Datelineの報道によれば、IFLYTEKの技術が北京2022冬季五輪において、中国の少数民族の追跡にも使用されたという。少数民族が使用する現地語を中国語に即座に翻訳して、機密用語をスキャンすることができる。この開発に取り組んでいる企業の1社として iFLYTEKを挙げている。この技術は、iFLYTEK の別称であるKeda Xufeiに属しており、2004 年から音声認識と音声分析システムに関してウイグル人に特化した研究をしてきたことを関係者の証言から明らかにした。
 音声認識データの収集においては、このように個人のマルチモーダルの生体ポートレートの一環となるため、欧米においてはプライバシーの権利問題が絡むことになる。音声認証データは、IDナンバーと紐付けられ、それがその他の生体認証データや、個人の民族性とともに、居住地、ホテルでの滞在記録といった個人情報にまでリンクされる可能性がある、とHRWは警鐘を鳴らしている。

1999年に学生チームでiFLYTEKを創設

 iFLYTEKは、1999年に 現会長で創設者のLiu Qingfeng(劉慶峰)氏を中心とした学生チームが、音声認識技術を競う国際コンテスト「CHiME」に初めて出場し、コンテスト最高スコアを取ったのを機に創業した。ディープラーニングの概念が生み出される以前から、音声AI業界に焦点を絞って技術開発を進めて、音声認識、音声合成、自然言語理解、機械推論、適応学習などのコア技術の研究に多額の資金と労力を注ぎ込んできた。
 2000年に中国科学技術大学や中国社会科学院と提携し、最初の研究施設を設立。2002年には中国で「国家科学技術賞」を受賞。中国科学技術部とスポンサー契約を締結している。2004年に年間売上1億人民元を達成。2007年には、AI機能を搭載した「Intelligent Voice Chip(インテリジェント・ボイスチップ)」をリリースし、2008年に深セン証券取引所に上場した。
 2010年には、Inteligent VoiceとHCI(Human-computer interaction)を中心としたオープンプラットフォーム「iFLYTEK Open Platform」の提供を開始。それ以降、性能を向上させており、中国でAIソリューションの設計や実装に役立てられている。例えば、北京に本拠を置き、デジタル農業に取り組むSowreap Techは、中国農業大学、中国農業科学院、南京大学などの専門家と協力して、IoT、リモート衛星センシングを組み合わせて、牛糞をリサイクルして家畜の寝床にする方法を開発し、牛の飼育による汚染レベルを下げて、コストも削減している。
 2011年には中国語音声認識DNN(ディープ・ニューラル・ネットワーク)システムを発表。2012年にオープンプラットフォーム「Voice Cloud」の利用者数が1億5000万人を突破した。2014年になると、ニューラルネットワークに基づく認知情報システムの開発に着手し、「Super Brainプロジェクト」を正式に開始。2015年には人と機械のインタラクションインタフェース「AIUI」をリリースした。2017年と2019年には、科学技術誌のMIT Technology Reviewで「世界のスマート企業TOP50」でランクイン。2017年は中国で1位、2019年には世界で6位となった。
 2018年に年間売上が8億ドルに達成し、機械翻訳システムのCATTI(中国翻訳者・通訳者認定試験)を実施し、人間と同等のパフォーマンスを発揮した。
 2019年に、次世代音声翻訳システムが上海で開催されたWAIC(World Artificial Intelligence Conference:世界人工知能大会)でSAIL(Super AI Leader)応用賞を受賞。この年、2022北京五輪の自動翻訳ソフトのオフィシャルサプライヤー契約を締結している。

<つづく>

 (清水メディア戦略研究所 代表)