【G検定】画像認識分野での応用その2

どうも、カタミチです。

昨日に引き続き、画像認識分野での応用ですね。昨日は、画像認識、物体検出、セグメンテーションについてでした。さて今日は…？

行ってみましょう！

姿勢推定タスク

ほう、姿勢推定ですか。これは、人の頭や足、手などの関節位置を推定するタスクですね。なるほど、被写体としての人間に特化したタスクですね。

関節の位置は人の姿勢によって大きく異なるため、信頼度マップによるアプローチが有効なようです。

Convolutional Pose Machinesは、CNNを多段に組み合わせて徐々に各骨格の信頼度マップを高精度化していきます。多段に組み合わせることで、着目する範囲を広げていき、人の体全体の構造を考慮して各骨格の位置を推定します。

複数の人の骨格を同時に推定できるようにした手法にOpen Poseがあります。これは、Parts Affinity Fieldsと呼ばれる骨格間の位置関係を考慮した処理を導入しており、これにより、骨格の位置関係が分かるようになります。

モーションキャプチャー技術などがこれに当たるんですかねー。しばらくアツくなってプレイしていた「ウマ娘」のキャラクターたちの人間らしい動きは、もしかするとこういった要素技術のタマモノだったのかなー、なんて妄想しました。

マルチタスク学習

これまで4つのタスクを見てきましたが、最後は複数のタスクを1つのモデルで対応する、マルチタスクについて触れて本節は終わりです。

昨日の記事に出てきたFaster R-CNNや、YOLOのなどの物体検出モデルは、物体クラスの識別と物体領域のいち検出を同時に行っているので、マルチタスクとも言えます。

Mask R-CNNは、Faster R-CNNによる物体検出だけでなく、セグメンテーションも同時に行うマルチタスクのモデルです。このセグメンテーションは、物体検出をした領域ごとに行うので、インスタンスセグメンテーションということになりますね。

ということで

これで、画像認識分野での応用の節は終わりです。色んなモデルが出てきましたねー。理論はほぼ分かっていない状態なので、今後深めていきたいと思います。また、それと同時に、モデルを使いこなせるようになりたいですね。どんなときにどんなモデルが最適なのかは、実践を通して身につけていくものだと思いますので、このG検定の勉強が終わったら、次は実践できるような勉強の仕方を模索していきますかねー。

ではまた。

勉強に使ってる書籍はこちら↓
深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト第2版