Visual Grounding이란 무엇이며, 어떤 분야에서, 어떻게 연구되고 있을까?
들어가기 전에…
인포리언스는 대용량의 문서 세트에 포함된 “지식의 분포와 흐름, 진화과정을 추적하고 해석하는 시스템 (가칭:ShadowKernel)”을 개발하고 있습니다.
ShadowKernel은 다음과 같은 기능을 탑재하고 있습니다.
- 지식의 구성과 흐름을 시각화
- 특수한 흐름이 나타난 부분에 대한 해석을 자동 추출
- 분석한 내용을 바탕으로 사용자의 질문에 응답
본 글은 ShadowKernel을 활용하여 작성하였습니다.
Visual Grounding이란?
Visual Grounding은 텍스트로 설명된 객체를 이미지에서 식별하는 기술로, 컴퓨터 비전과 자연어 처리 기술의 긴밀한 결합을 필요로 합니다.
예를 들어, “가장 큰 코끼리 옆에 있는 붉은 공”과 같은 설명에 대해, 컴퓨터 시스템은 이 공을 이미지 내에서 찾아내야 합니다. 이 과정에서 머신러닝 모델은 이미지와 텍스트 모두에서 특징을 추출하고 융합하여, 객체를 검출하거나 추적하는 작업을 수행합니다.
이 기술이 잘 구현되면, 정밀한 객체 인식과 추적을 자연어 설명을 기반으로 수행하게 하여, 사람과 컴퓨터 시스템 간의 자연스러운 상호작용을 가능하게 합니다.
따라서 자율주행 차량, 증강 현실(AR)/가상 현실(VR), 로보틱스와 같은 분야에서 구체적으로 응용할 수 있습니다. CCTV 영상을 분석하는 과정에서도 큰 역할을 할 수 있겠지요.
10개의 주요 컴퓨터 과학 분야에 나타난 Visual Grounding의 시간에 따른 비중은 위의 그림과 같습니다. 그림에 의하면, 시간에 따라 가장 급격하게 비중이 상승하는 형태를 보이는 분야가 있습니다. 이 분야는 Computer Vision 입니다. “Visual”이라는 키워드가 들어있으니, 어쩌면 당연한 결과라고 볼 수도 있습니다.
그런데, 오래 전부터 Visual Grouding 관련 연구가 계속 이루어져 왔음에도 불구하고, 최근에 들어서 갑자기 비중이 커지는 이유는 무엇일까요? 혹시 Visual Grounding을 가능하게 하는 주요한 세부 기술에 새로운 돌파구가 생긴 것은 아닐까요?