분석과 자율주행 객체 인식까지 [컴퓨터 비전] 축구 영상

https://youtu.be/_f-oX7ca3 Ik

1.내용의 요약

축구 영상 비디오를 분석하는 딥러닝 모델을 설명합니다. Foot And Ball 모델은 1920 * 1080 의 고해상도 이미지에 대하여 37 FPS 의 어느 정도 실시간 구동과 MAP 0.9 이상의 뛰어난 성능을 보이고 있습니다. 과거에는 축구 영상을 분석하기 위해 수작업으로 해왔습니다. 예를 들어 특정 선수가 공을 들고 있는 순간을 찾아야 하고 매번 다른 경기를 반복하는 번거로움이 있었습니다. 그러나 위의 모델로 인해 이 작업을 자동화하여 처리할 수 있게 되었다는 점에 의의를 두고 있습니다. 모델은 크게 Player Classifier와 위치 좌표를 담당하는 Bbox regressor, 그리고 Ball Classifier로 이루어지며, Top-down process를 통해 Ball confidence를 높이는 데 주력한다고 합니다. 공의 위치는 축구라는 운동의 특성상 가장 중요한 정보이기 때문입니다. 물론 아직도 안대, 양손의 오르내림, 전도 등의 변형에 대해서는 영향을 받지만, 이는 보다 다양한 데이터 구축과 전처리를 통해 개선되는 것으로 알려져 있습니다.

2 . Real Time Multi Object Detecting

주제 선정 실시간으로 다양한 객체를 정확하게 탐지하는 기술에 관심이 있습니다. 특히 최근 화제가 되고 있는 ‘자율주행’ 기술에 접목될 이 기술에 기대가 큽니다.

개념 최초로 객체 인식이란 하나의 특정 이미지를 입력했을 때 부여받은 이미지를 분석하고 위치(location)와 종류(class)를 파악하는 것입니다.

기술원리, 특히 이를 구하는 방법으로 크게 두 가지로 나눌 수 있는데 단일 단계의 검출과 두 단계의 검출 방법입니다. 단일 단계에서는 모든 영역에서 위치 검출과 분류를 동시에 합니다. 그래서 속도는 빠르지만 정확도는 좀 떨어집니다. 그러나, 2단계는, 우선 대략적인 위치 검출 후에 후보군내에서 분류를 실시합니다. 그래서 정확도는 높지만 속도는 떨어지는 단점을 가지고 있습니다. 대표적인 것으로는 단일 단계로는 YOLO, SSD가 있으며 2단계로는 R-CNN, Faster R-CNN을 들 수 있습니다.

단단계 검출 알고리즘, YOLO와 SSD, 참고논문 이미지

이단계 검출 알고리즘, R-CNN과 Faster R-CNN, 참고논문의 이미지-전망 및 결론 자율주행이란 운전자 개입 없이 독자적으로 주변을 인식하고 상황을 판단하여 목적지까지 스스로 주행하는 것입니다. 즉, 성능이 충분히 보장되면 교통사고 및 도로 범죄의 발생률을 줄일 수 있고, 운전자의 편의성 향상 등 교통 효율성을 높일 수 있습니다. 거시적 도시오염을 줄이고 사회경제적 비용을 줄이는 효과를 낼 수 있습니다. 물론 아직도 상용화를 위해 다양한 문제들을 해결해 나가야 합니다. 예를 들면, 외부와 무선으로 연결되는 컴퓨터 시스템의 보호, 사고 발생시의 책임 소재의 규명, GPS가 닿지 않거나, 통신이 불가능한 지역에서의 주행 등입니다. 그러나 결국 기계는 인간과 달리 집중력이 흐트러지지 않는다는 점, 그리고 점점 정확해진다는 점에서 전도유망하다고 할 수 있습니다.

참고문헌
임헌국, 자율주행차량 영상기반 객체인식 인공지능 기술현황, 한국정보통신학회 논문지, Vol.25, No.8: 1117~1123, Aug. 2021