CLIP은 어떻게 활용될 수 있을까?

글쓴이 Inforience 날짜 2021-08-122021-08-12

텍스트 정보가 주어졌을 때, 해당 텍스트와 관련된 이미지를 검색해 내는 것에 대해 알아보자. 문장을 읽고 자신의 경험 이미지를 떠올리는 것처럼. 물론 모든 이미지에 대해 각 이미지를 적절히 설명하는 텍스트를 미리 작성해 놓은 후에 텍스트 기반의 검색엔진을 만들면 될 듯 하지만, 최근에는 인공지능 관련 기술이 크게 발전하고 있으니 좀 더 발전된 방법을 생각해 보자.

현재 이러한 방법과 관련해서 가장 주목을 받고 있는 모델 중의 하나가 CLIP[1]인데, ‘(CLIP) 텍스트 정보를 이용한 Visual Model Pre-training’ [아래의 내부링크 참조]에서 CLIP에 대해 간단하게나마 살펴봤으니, 이번 포스트에서는 CLIP을 활용하여 텍스트가 표현하는 의미를 담은 이미지를 찾아내는 실험을 해 보고자 한다.

이번 실험에서는 CLIP기반으로 구성된 Natural Language Image Search[2] 프로젝트를 활용한다. 간단한 텍스트를 입력한 뒤, 입력 텍스트를 가장 잘 묘사하는 것으로 판단된 5개의 이미지를 확인한다. 검색 대상이 되는 이미지 데이터베이스는 upsplash[3] lite를 사용한다.

더보기 >> CLIP은 어떻게 활용될 수 있을까?