AI:ディープラーニング – 言語と音声の処理

Digital Japan 2030
Nov 9, 2020
6 min read

Updated: Feb 1, 2021

AIとディープラーニングの主な用語の紹介については、 この記事.

定義、創出できる価値

スマートスピーカーがニュースを読み上げる、バーチャルアシスタントに話しかけて近日の予定のリマインダーを設定する、テキストや音声をリアルタイムで自動翻訳する、ウェブサイトでチャットボットと対話してカスタマーサービス関連の問題を解決する。これらはすべて自然言語処理(NLP)の適用事例であり、テキストの理解、処理、生成を扱うAIの領域である。そこには、テキストから音声に変換する型、音声からテキストに変換する型、テキストから翻訳テキストに変換する型、会話型など、様々な型のAIが含まれる。自動音声認識(ASR)を使うと、言語音をテキストに変換できるアプリケーションが開発できる。音声合成(またはTTS(Text-To-Speech)とも称される)は、逆のプロセスを処理する。これらは技術的にはコンピュータービジョンの一部であり、コンピューターによる印刷文書や手書き文書の判読を可能にする光学文字認識(OCR)の隣接領域である。

この領域の根幹であるNLPモデルも予測を試みている。今回は、言葉の予測である。より正確に言えば、文章に含まれる単語を基に「文章の確率」を予測する。文法規則とテキストの統計的パターンを考慮に入れることで、NLPモデルはテキスト分析という極めて具体的なユースケースを実現する。

NLPの目的は非構造的なテキストデータを理解するプロセスを自動化することであり、企業は少しばかりの人的労力で膨大な量のテキストを取り込むことが可能になる。調査、顧客とのやりとり、文書の翻訳など、以前には人間の関与が不可欠と思われていたタスクの処理に、こうしたデータを活用することができる。

現況

音声や言語処理のビジネス事例は5つに分類できる。すなわち、顧客体験分析、バーチャル顧客対応、拡張検索、自動資料精査、および自然言語生成である。以下、それぞれの事例を説明する。

顧客体験分析: 企業は、人々のソーシャルメディアへの投稿内容やカスタマーサポートセンターの会話記録を分析することで、消費者の心理や満足度を把握することができる。例えば、アパレル企業のPumaはCloud Cherryとパートナーシップを結び、満足度分析を用いてネット・プロモーター・スコア(NPS)を20%改善し、スタッフ関連の苦情も40%削減した。

バーチャル顧客対応: 「チャットボット」は顧客をサポートする対話型インタフェースであり、限定的な人の介入でサービス案内や問題解決を図る。これらのモデルは、質問と回答のペアを使って訓練し、顧客の質問に対する最適な回答を予測できるようにする。現在、チャットボットはピザの注文や飛行機の切符予約など簡単なトランザクションに広く使用されている。2018年に資生堂のカスタマーサービスチームが、チャットや音声会話を処理する「対話エンジン」であるBEDOREを開発した。同システムは、立ち上げ以降、顧客からの問い合わせの80%を処理してサポート人員の余力を生み出すと共に、オペレーターの人的負荷を軽減した。

拡張検索: 何かを検索する際、膨大な量のランダムなコンテンツの中を行き来するのは、研究開発、法務、カスタマーサポートなど大抵の部署にとって手間がかかる仕事である。「情報抽出」システムは、非構造的な巨大な情報プールを行き来して、大事な知見を特定・統合することができる。例えば、日本の医療スタートアップUbieは、病院にAI駆動の医療問診票を提供し、医師が患者から報告された症状に基づいて潜在的な病気を特定するのを支援している。

自動資料精査: リスク・コンプライアンス関連の文書や履歴書のスクリーニングなど、重要書類の中から例外を探し出す際にNLPを使用すれば、膨大な量のテキストをリアルタイムで処理することができる。2020年6月にリーガルテックのスタートアップMNTSQ(モンテスキュー)は福岡銀行と提携し、契約書の処理時間を短縮し、スキャンを通じてリスクのある条項を検出する契約作成レビュー技術の実証実験を開始した。

自然言語生成(NLG)。NLG技術は、財務記録や記事検索からのレポート作成、異なる言語間の文書翻訳などに幅広く活用されている。2006年にGoogle翻訳が登場したことによって翻訳が簡単に利用できるようになり、今では毎日1千億ワード以上が翻訳されている。

今後の技術発展の方向性

おそらく次の10年間でNLPモデルの品質が着実に強化される可能性が高い。進歩は様々なタスクの精度に見受けられ、文書の要約、音声認識、質問応答といった、より複雑なタスクに対して最先端技術を絶えず拡大する研究が続けられている。この領域の最も刺激的な開発テーマの中で大いなる関心の対象となっているのは、テキストや音声の生成モデルの品質である。

広範囲なタスクに対するNLPシステムの精度改善は今後も継続的に取り組まれることだろう。それを支えるのは、高度なコンピューティングの使用コストが低減していること、様々な産業やユースケースからの訓練データがより多く利用できるようになってきていること、言語分野のディープラーニングが最近大いに進歩していることなどである。

2018年以降、ディープラーニングによるNLPモデルの導入によって、精度の向上とリードタイムの短縮が図られ、アドバンストユースケースの新時代を迎えた。2020年の夏には、OpenAIによって強力なGPT3モデルのベータ版が開始された。GPT3は、題、質問、指示などの人間の言語を解釈することができ、散文の生成、情報の提供、あるいはプログラミング言語で動作するコードの作成さえ行える。日本では、それに類似したELYZA(イライザ)のようなモデルも生み出されている。日本語の十分なデータセットが利用可能であれば、これらの強力なモデルは多様なビジネスアプリケーションとの統合も可能である。

将来の主要な適用事例

世界と同じく日本でも、NLPの適用はますます多くの産業やユースケースに拡大することだろう。そうした拡大は、3つの要素によって促進される。すなわち、技術面での信頼性が確立され、精度が継続的に改善されていくこと、サービスとしてNLPが一般化することでローコードソリューションが利用可能になること、および、企業のデータ成熟度が向上し、戦略的・オペレーション的分析に向けて事業にとって重要なデータに簡単にアクセスできるようになることである。

具体的に言えば、日本で採用の拡大が期待される領域は4つある。

チャットボット: テキスト生成技術が向上することで、チャットボットが24時間年中無休の即時的カスタマーサービス需要を、より低い運用コストで満たすことができるようになる。世界のチャットボット市場は、2024年までに94億ドルに達すると見込まれており、小売と銀行が成長を牽引する。IDCは、早くも2022年には30%の企業が顧客対応に会話型インタフェースを利用していると予測している。

高精度でリアルタイムの機械翻訳: 機械翻訳は個人の生活と仕事の両方に一層浸透する。世界中からコンテンツをシームレスに取り込んだり、言語の壁を越えた会話を今まで以上にスムーズに行ったりするだろう。翻訳がクロスボーダーな共同作業に効果があるのは明らかである。例えば、eBayに機械翻訳を導入したことはマーケットプレイス上での国際的な取引に大きな効果を与え、米国やヨーロッパから他の国々に販売される商品が著しく増加した。

音声認識: 人間と同等レベルの音声認識や合成にも急速に近づいており、自動見出し生成、即時の文字起しサービス、および、人間のように自然に振舞うAIアシスタントなど、様々なユースケースが促進されている。

資料精査: 企業はデータレイクを構築する方向に進んでおり、情報抽出技術と資料処理技術の統合コストが低下すれば、これらのソリューションによる自動化やアナリティクスのメリットを獲得することがより容易になるだろう。

AI:ディープラーニング – 言語と音声の処理

定義、創出できる価値

現況

今後の技術発展の方向性

将来の主要な適用事例

Recent Posts

Comments