人工知能とは ⑧ ディープラーニングの研究

画像認識分野

この分野には2つに課題があります
位置課題 Location task
検出課題 Detection task

アレックスネット|AlexNet

このAlex-Netは、2012年のILSVRC|イメージネット画像認識コンテストで優勝しました。

R-CNN|Regional CNN

関心領域|ROI Region od Interest、いわゆる「どこにあるのか?」の判別は、対象範囲を長方形に画像から切り出すことですが、長方形の4つの頂点を算出する回帰問題となります。このR-CNNでは従来からある画像分類手法を利用しています。また、切り出す長方形を、バンティングボックスと呼びます。

高速RCNN|fast RCNN

畳み込み演算を何度も繰り返すことによって位置情報も保持しながら、領域の切り出しと物体認識を同時に行うモデルです。また、さらにモデルを進化させたfaster RCNNによって、画像認識は実際のサービスで利用できるようになりました。

また、領域切り出しと物体認識を同時に行うモデルの進化版として、YOLO|You Only live Once、SSD|Single Shot Detector|1ショット検出器が考案されています。

セマンティックセグメンテーション|Semantic segmentation

セマンティックセグメンテーションSemantic segmentationを実現する完全畳み込みネットワークFCNFully Convolutional NetworkはCNNなどのように長方形の領域分割ではなくて、画素単位で領域分解を行う全層が畳み込み層であるモデルです。出力層は、画像の画素数✕カテゴリー数と膨大な量になります。

畳み込みでは出力層に近づくほど画像が荒くなります。最終出力層で入力層と同じ解像度が必要な場合はプーリング層の情報を利用して解像度を復元するアンサンプリングという手法を用い、セグネット|Segnetでも同様の手法が用いされています。

インタンスセグメンテーション|Instance segmentation

カテゴリーで分類するのではなくて、物体を個々に判別する技術としては、インタンスセグメンテーションInstance segmentationがあります。