인포리언스는 대용량의 문서 세트에 포함된 “지식의 분포와 흐름, 진화과정을 추적하고 해석하는 시스템 (가칭:ShadowKernel)”을 개발하고 있습니다.
ShadowKernel은 다음과 같은 기능을 탑재하고 있습니다.
지식의 구성과 흐름을 시각화
특수한 흐름이 나타난 부분에 대한 해석을 자동 추출
분석한 내용을 바탕으로 사용자의 질문에 응답
본 글은 ShadowKernel을 활용하여 작성하였습니다.
Visual Grounding이란?
Visual Grounding은 텍스트로 설명된 객체를 이미지에서 식별하는 기술로, 컴퓨터 비전과 자연어 처리 기술의 긴밀한 결합을 필요로 합니다.
예를 들어, “가장 큰 코끼리 옆에 있는 붉은 공”과 같은 설명에 대해, 컴퓨터 시스템은 이 공을 이미지 내에서 찾아내야 합니다. 이 과정에서 머신러닝 모델은 이미지와 텍스트 모두에서 특징을 추출하고 융합하여, 객체를 검출하거나 추적하는 작업을 수행합니다.
이 기술이 잘 구현되면, 정밀한 객체 인식과 추적을 자연어 설명을 기반으로 수행하게 하여, 사람과 컴퓨터 시스템 간의 자연스러운 상호작용을 가능하게 합니다.
따라서 자율주행 차량, 증강 현실(AR)/가상 현실(VR), 로보틱스와 같은 분야에서 구체적으로 응용할 수 있습니다. CCTV 영상을 분석하는 과정에서도 큰 역할을 할 수 있겠지요.
10개의 주요 컴퓨터 과학 분야에 나타난 Visual Grounding의 시간에 따른 비중은 위의 그림과 같습니다. 그림에 의하면, 시간에 따라 가장 급격하게 비중이 상승하는 형태를 보이는 분야가 있습니다. 이 분야는 Computer Vision 입니다. “Visual”이라는 키워드가 들어있으니, 어쩌면 당연한 결과라고 볼 수도 있습니다.
그런데, 오래 전부터 Visual Grouding 관련 연구가 계속 이루어져 왔음에도 불구하고, 최근에 들어서 갑자기 비중이 커지는 이유는 무엇일까요? 혹시 Visual Grounding을 가능하게 하는 주요한 세부 기술에 새로운 돌파구가 생긴 것은 아닐까요?
“현재 우리가 주목하고 있는 ChatGPT는 Question-Answering 방식으로 사용자와 대화를 나누며 정보를 제공합니다. 그에 비해 현재의 Google 검색엔진의 사용방식은 대화형 인터페이스와는 거리가 있죠. Question-Answering 방식은 아니지만, 전통적인 검색엔진도 키워드를 입력한 후 결과를 얻는 방식이기에, 좀 더 사용자 친화적인 활용방식을 갖추도록 발전할 여지가 있습니다. 따라서, ChatGPT와 같은 대화형 인터페이스가 검색엔진에도 적용될 거라는 예측은 꽤 타당해 보입니다.”
HCI 커뮤니티는 continuous 타입과 proactive 타입의 human-AI interaction에 대해 아직 충분히 고려하고 있지 않습니다. 그러나 앞으로 사람들은 continuous 타입과 proactive 타입의 human-AI interaction에 대한 경험을 점점 더 많이 하게 될 것이므로, HCI 연구자들은 사람들이 새로운 경험에 걸맞은 mental model을 가질 수 있게끔 도울 필요가 있습니다. 사용자들의 mental model은 전통적인 turn-taking process에 맞춰져 있지만 이러한 모델은 continuous 타입과 proactive 타입의 human-AI interaction에는 적합하지 않기 때문입니다.
[…] https://inforience.net/2021/01/28/bias-ai/ […]