2022年年末あたりからAIによる物体検出の実験をしている。その中でDETRによるアプローチが、広い可能性のある汎用性の高いモデルとして注目されている様である。これは、Facebookの研究チームが2020年に公開したもので、End-to-End Object Detection with Transformersの略である。初めてTransformerを物体検出に利用したモデルで、Transformerに画像を入力するだけで物体検出が可能というシンプルな構造を有しているのが、DETRの特徴のひとつである。
今回、撮り溜めてあった写真を入力画像として利用してみた。以下の写真は2022年の川越祭り前日に訪れた際の写真で、データセットCocoを用いて、物体検出とバウンディングボックス、その確率を示している。抜け落ちなくperson, bicycle, traffic light, handbag, carなどが検出されており、その精度に驚かされる。ただし、Cocoは米国を中心として構築されているデータベースなので、駐車禁止のサインがstop signとなっているのはご愛嬌。
さらに山車の準備をする川越市民の様子を示すのが下の写真である。
さらに、Attentionの表示をおこなった。これは、写真中のどこにpersonと判断するのに注目しているかを示すAttention weightと呼ばれるデータを可視化しているものである。明るい箇所にAIが注目しているということで、手や頭髪だったりするが、なかなか興味深い。
Comments