Temporal action localization는 untrimmed video가 주어졌을 때 행동을 포함하는 frame을 말한다. 기존에는 fully supervised learning을 사용했다. 그러나 학습할 데이터가 모두 프레임 단위로 주석이 있어야 하고 그에 따라 더 많은 인력과 시간이 소모된다는 단점이 있다. Weakly supervised learning은 비디오 수준의 태그만 사용해서 학습할 수 있다. 이 논문에서는 2개의 브랜치(branch)를 기반으로 배경임에도 불구하고 행동으로 인식되는 것을 방지하기 위해 control network을 사용하여 배경에 대한 것은 점수를 낮
추는 ConNet(Weakly-supervised action localization by Control Module)를 제안한다.