IT 응용 분야들 사이의 관련성을 간단히 측정해 보자.
클릭 >> Hello, world !! (from ShadowEgo)
들어가는 말
최근의 IT(Information Technology)는 활용되지 않는 분야가 거의 없으며, 각 분야의 특성과 요구사항에 맞추어 여러가지 형태로 활용된다. 만약 내가 일하고 있거나 관심을 가지고 있는 분야의 IT기술과 그와는 다른 분야에서 주로 활용되고 있는 IT기술들 사이의 전체적인 유사도나 관련성을 측정할 수 있다면 어떤 일을 할 수 있을까? 자신이 보유한 전문 기술이 어떤 분야에서 활용될 수 있을지 파악할 수 있게 되어 자신의 커리어 루트를 설계할 때 도움이 되지 않을까? 또는 관련성이 높은 다른 분야의 세부 기술을 찾아내어 자신의 분야에 적용해 볼 수 있지 않을까? 아니면 관련성이 낮은 분야의 세부 기술들을 자신의 분야에 적용해 볼 방법을 남들보다 먼저 생각해 볼 수 있지 않을까?
이번 포스트에서는, 아주 기초적인 방법을 통해, IT가 활용되고 있는 여러 응용 분야들 사이의 관련성을 측정한 결과를 확인한다.
실험 방법
이번 실험에서는 총 12개 분야 – robot, drone, education, game, car, chatbot, farm, climate, factory, military, transportation, health – 의 특성을 모델링해 보기로 한다. 각 분야의 특성은 2019년 1월부터 2019년 9월까지 약 9개월 동안 IT분야에 공개된 연구 논문들 중에서 각 분야의 관련 논문들을 모아 word 들의 분포 패턴(word frequency)을 추출하여 모델링한다. Word들의 분포 패턴(word frequency)을 추출하는 과정을 수행하기 전에 NLP(Natural Language Processing) 분야에서 일반적으로 활용하는 전처리(preprocessing) 과정을 거친다.
Word들의 분포 패턴으로 각 분야의 특성을 모델링하였으므로, 확률 분포들 사이의 유사도를 측정하는 방법 또는 수치 리스트들 사이의 유사도를 측정하는 방법을 통해 각 분야의 모델들 사이의 관련성을 측정한다.
극초기 실험 결과 및 매우 주관적인 해석
그림 1은 로봇 분야와 다른 분야들 사이의 관련성을 나타낸다. 자동차, 공장, 드론과 같은 응용 분야와 관련성이 높은 반면에, 의료, 기후, 챗봇 분야와의 관련성은 상대적으로 낮게 측정되었다. 로봇이 기계 장치로 구성된다는 점을 고려할 때 자연스러운 결과이다.
그림 2는 드론 분야와 다른 분야들 사이의 관련성을 나타낸다. 예상할 수 있는 것과 같이 군사 분야가 가장 관련성이 높았다. 예상과 달리 농업과 기후 분야와의 관련성이 상대적으로 낮게 측정되었다.
그림 3은 교육 분야와 다른 분야들 사이의 관련성을 나타낸다. 게임과 의료 분야가 교육 분야와 상대적으로 가장 관련된 것으로 측정되었는데, 이 결과에 대해서는 다양한 해석이 가능할 듯 하다. 챗봇 분야와의 관련성이 상대적으로 낮게 나온 것도 예상을 벗어났다.
그림 4는 게임 분야와 다른 분야들 사이의 관련성을 나타낸다. 로봇, 교통(수송), 교육 분야와의 관련성이 상대적으로 높게 측정되었고, 챗봇, 기후, 농업 분야와의 관련성이 낮게 측정되었다.
그림 5는 자동차 분야와 다른 분야들 사이의 관련성을 나타낸다. 자동차가 기계 장치의 일종이라는 점에서 로봇, 교통(수송), 공장 분야들과 상대적으로 높은 관련성을 보이는 것은 자연스러워 보인다.
그림 6은 챗봇 분야와 다른 분야들 사이의 관련성을 나타낸다. 의료, 게임, 교육 분야와의 관련성이 상대적으로 높았고, 기후, 농업, 드론 분야와는 관련성이 낮았다. 그러나, 챗봇 분야는 전체적으로 타 분야와의 관련성이 낮게 측정되었다.
그림 7은 농업 분야와 다른 분야들 사이의 관련성을 나타낸다. 농업에 가장 큰 영향을 미치는 기후 분야가 높은 관련성을 보이는 것은 자연스러워 보인다.
그림 8은 기후 분야와 다른 분야들 사이의 관련성을 나타낸다. 그림 7에서 이미 확인한 바와 같은 맥락에서, 기후 분야와 가장 관련성이 높은 분야는 농업 분야이고, 교통(수송) 분야가 그 뒤를 따르는 것으로 나타났다.
그림 9는 공장 분야와 다른 분야들 사이의 관련성을 나타낸다. 기계 장치와 밀접한 관계를 가진다는 점에서 볼 때, 로봇, 교통(수송), 자동차 분야와의 관련성이 높게 측정되는 것은 자연스럽다.
그림 10은 군사 분야와 다른 분야들 사이의 관련성을 나타낸다. 그림 2에서 확인한 바와 같이 군사 분야와 드론 분야는 관련성이 높으며, 로봇 분야가 그 뒤를 따른다.
그림 11은 교통(수송) 분야와 다른 분야들 사이의 관련성을 나타낸다. 자동차, 로봇, 공장 분야와의 관련성이 상대적으로 높고, 농업, 의료, 챗봇 분야와의 관련성은 상대적으로 낮다.
그림 12는 의료 분야와 다른 분야들 사이의 관련성을 나타낸다. 의료 분야는 교육, 게임, 챗봇 분야와 상대적으로 높은 관련성을 보였다.
잠정적인 결론과 future works
이번 실험은 아주 기초적인 결과이지만, 나름대로 의미있는 패턴도 보인다. 가장 재미있는 것은 대부분의 관련 상위 분야에 로봇 분야가 포함되어 있다는 점이다. 로봇 분야에서는 기계, 전자, 컴퓨터 등 거의 모든 공학 분야의 세부 기술들이 활용되고 있을 것이므로 자연스러운 결과일 수 있다.
이와는 달리, 챗봇 분야는 전체적으로 다른 분야들과의 관련성이 낮았는데, 이와 관련하여서는 좀 더 세밀한 분석이 필요하다. 그러나, 이 결과를 그대로 받아들일 수 있다면, 관련성이 낮은 분야와 서로 관련을 지어서 아이디어를 내보는 것도 재미있을 것이다. 예를 들면, 서로 관련성이 낮은 게임 분야와 챗봇 분야의 세부 기술의 결합, 기후 분야와 챗봇 분야의 세부 기술의 접목 등을 생각해 볼 수 있을 것이다. (물론, 이미 접목된 기술들도 있겠지만.)
이번 실험은 소량의 데이터에 아주 기초적인 방법을 적용한 결과이므로 발전의 여지가 아주 많이 남아있다. 가장 먼저, 단순한 word의 분포 만으로 해당 분야의 특성을 충실히 모델링하는 데에는 한계가 있을 것이므로 발전된 다른 방법들을 활용해 볼 수 있을 것이다. 또한 논문 데이터 외의 다른 데이터를 함께 활용하는 것이 더 세밀한 모델링을 가능하게 할 수도 있다. 인포리언스는 이와 관련된 다양한 주제로 연구를 진행하고 있다.