AI:ディープラーニング – コンピュータービジョン

Digital Japan 2030
Nov 10, 2020
6 min read

Updated: Feb 24, 2021

AIとディープラーニングの主な用語の紹介については、 この記事.

定義、創出できる価値

コンピュータービジョンとは、コンピューターが画像を理解し、その画像が何であるかを「予測する」ことを可能にするディープラーニング（深層学習）の領域である。画像の理解や判別が「予測する」ことのの範疇に入るのは、人間にとっては簡単な画像の理解や判別でもコンピューターには困難なことが多いからである。多くの分野で、コンピューターは人間の精度に迫っており、場合によっては上回ることもある。コンピュータービジョンの根幹は、やはり「Yes」か「No」の予測にあるが、今回の対象は画像であり、コンピューターが「見ている」ものは、画像の赤、青、緑の画素に対応する数値である。アルゴリズムはそれらの数値を画像自体と関連づけることを学習する。開発の端緒は遊び心であり、ある画像が猫か、猫ではないかを検出するアプリが作成されたりした。それが今では、重要な商業用アプリケーションへと発展している。一般的なものとして、自動運転、精密農業、Ｘ線による病理診断などが挙げられる。

コンピュータービジョンと聞くと複雑に思われるかもしれないが、実際はそれほどでもない。まず、元になるのは画像のデータセットであり、X線の場合のように、実際は極めて小さいものもある(X線では数千件、あるいは病理診断が陽性の場合それより少ない可能性がある)。そうしたデータセットは「スモールデータ」と呼ばれる。画像データは、次いでラベル付けする必要がある。X線の場合、経験豊富な医師が画像に対して病理が陽性(1)か陰性(0)を示すラベル付けを行う。自動運転用の道路の画像の場合、画像の中に、例えば車や歩行者が含まれているかを特定するためのラベル付けする必要がある。今日、データセットにラベル付けをしてくれる第三者企業は多数存在する。ラベル付けされたこれらの画像は「ニューラルネットワークモデル」に入力される。それは多数の式を集めたものに過ぎず、どの式もそれ自体は単純なものであるが、合わさると強力な予測を生成する。訓練されたモデルを使用して、今後入って来る画像が何かを予測する。より適切に言えば、新規画像の内容を確率的に予測するのである。

画像認識処理の適用事例の中で最も一般的なニューラルネットワークのタイプは、「畳み込みニューラルネットワーク」(CNN: Convolutional Neural Network)と呼ばれるものである。画像のサイズが大きいと、計算処理にかかるコストも高くなる。そこでCNNは「フィルター」または「畳み込み」を適用して画像サイズを縮小する。画像は様々なステップを経て縮小されるものの、縁や重要な特徴などの主要な属性は維持される。したがって、ニューラルネットワークを通過すると、解析対象となる画像のサイズは著しく小さくなるが、モデルが画像内容を予測するのに必要な主な特徴はすべて保持されている。下記は、こうしたすべてのステップとCNNの事例を示したものである。

この技術の価値は、多くのビジネスプロセスのスピードや品質を改善する他、プロセス内の多くのタスクを自動化することでコスト改善が図れることにある。大抵の会社がバリューチェーンを中心に組織化されているが、逆に言えば、バリューチェーンは主要プロセスに分解できるのであり、その多くがコンピュータービジョンを活用した自動化による改善の候補になり得るのである。

現況

今現在、コンピュータービジョンの活用を模索している組織にとって、朗報が沢山ある。モデルの訓練に膨大な量のデータセットが利用可能であり、またスマートフォンが広範に普及していることで大規模なデータセットを迅速に生成することも難しくない。画像の迅速なラベル付けをサポートするiMeritなどのサービス会社もある。Google AutoMLやAmazon Rekognitionなどの主要なクラウドプラットフォームは、訓練を実施したり、画像内容を予測したりするサービスを提供している。これらのサービスは、いずれもモデルの精度をテストするツールを備えている。また、自社のカスタマイズモデルを活用したいと望んでいる企業には、オープンアルゴリズムが用意されている。例えば、テスラが使用しているアルゴリズム(YOLO: You Only Look Once)をGitHubでダウンロードすることも可能である。

ここ数ヵ月、日本ではコンピュータービジョンを活用する事例が注目を集めている。

日本の自動車オークション会社のオークネットは、コンピュータービジョンを活用してkonpeki.io上で中古車価格の予測を行っている。通常、中古車の価格付けは、車体、タイヤ、内装など車の各部分を評価するために、フローチャート、データサイエンス、およびルールベースのシステムなどを使って行っている。従来のデータアナリティクスでは、特定の車種に標準以下の値段を付けることがあり、鑑定士がすぐに修正する必要があった。対して、ディープラーニング駆動のアプリケーションの場合、様々な角度から写した車の画像をアップロードしさえすれば、これらの画像を用いて車の価格が予測されるので、価格付けプロセスが劇的に短縮され精度が改善された。オークネットはその実現に向けて、多くの車両画像を使ってモデルを訓練し、車種に応じてラベル付けを行った。こうして価格の予測が可能になったのである。

話題となっているもう1つのコンピュータービジョンの事例は、電通が開発したTuna Scopeである。tuna-scope.comは、スマートフォンでマグロの尾のカット部分の写真を撮るだけでマグロの鮮度を予測するモデルを開発した。このアプリケーションは、専門の職人が減って知識の喪失を防ぐことが必要な状況で、見事に自動化を実現した好例である。

なお、グローバルに見た場合、コンピュータービジョンの最も注目されている用途には、自動運転とX線による病理診断がある。

今後の技術発展の方向性

従来の機械学習と同じく、コンピュータービジョンに重要な開発の方向性は3つある。

1つ目は、画像認識を使用してプロセスをどう劇的に改善できるかを示す非常に創造的なユースケースが出現することである。例えば、最近ではGoogleと米国海軍が提携し、ドローンの撮影した画像を使用して軍艦の錆びた部分を検出することで、長時間を要する保守の人的精査の必要性を軽減させた。

2つ目は、合成データを用いたデータ量の増大やモデルの改善を通じて、これらのモデルの予測能力を向上させていくことである。

3つ目は、AutoMLモデルの活用を増やすことである。これらによって、精度の改善、画像検出の向上、画像データの差異に対する説明の向上などが絶えず図られてきた。

主な適用事例

日本の各産業界は、この技術から今後も多大な価値を導きだすことができる。

小売業や防犯: ユーザーにとっては商品を迅速に見つけ出し購買することが可能となり、店舗にとっては物理的な商品や店舗の防犯に有用である。
· 製造業: 画像認識技術を利用すれば、製造ライン上の画像を直接用いるだけで製造ラインの欠陥品を検出できる。
ヘルスケア: 主要な病理を発見する放射線診断アプリケーションは今後も全体的に増え続け、放射線技師の不足を補う。
農業: 精密農業は、作物の画像を分析して肥料や潅漑が必要な箇所を特定し、農業投入物の削減に寄与する。
政府: 資料認識に活用したり、適切に使用できるのであれば顔認識技術に使用して不正を減らしたり、あるいは認証に役立てることができる。

AI:ディープラーニング – コンピュータービジョン

定義、創出できる価値

現況

今後の技術発展の方向性

主な適用事例

Recent Posts

Comments