피사체의 시선 추적(Gaze Following)은 단일 이미지에서 피사체의 시선이 응시하는 지점을 탐지한다. 딥러닝 기반의 기존 연구는 단순히 시선의 각도를 추정하거나, 스마 트폰과 같은 기기 스크린 내부의 응시점을 추정하므로 어떤 물체를 보는지에 대한 정보를 얻을 수 없다는 한계가 있다. 본 논문에서는 최초로 딥러닝 모 델을 활용하여 피사체의 시선을 추적하고 ‘J가 넥타이를 본다.'와 같이 자동으로 캡션을 생성하는 시스템을 제안한다. 시스템은 전처리 모 듈, 시선 추적 모 듈, 후처리 모 듈로 구성되며 , 전처리 모 듈에서
인물을 인식하고 딥러닝 모 델의 입력을 생성한다. 시선 추적 모 듈에서는 약 12만 장의 GazeFollow 데이터 세트로 학습한 모 델을 활용해서 시선의 응시 지점이 표시된 히트맵 (heatmap)을 생성한다. 후처리 모듈에서는 우리 가 제안하는 객체 선택 알고리 즘에 의해 응시 지점에 있는 물체를 판별하고 캡션을 생성한다.제안된 시스템은 리 테일링 및 학술 목 적의 대규모 메 타데이터를 효율적으로 생성하는 데 활용될 수 있다.