대화 내용의 다양성을 바탕으로 한 사회적 관계 측정

글쓴이 Inforience 날짜

클릭 >> Hello, world !! (from ShadowEgo)

본 포스팅은 아래의 국제 컨퍼런스 논문을 바탕으로 작성되었습니다.

Jiyeon Jang, Jinhyuk Choi, Gwan Jang and Sung-Hyon Myaeng, “Semantic Social Networks Constructed with Topical Aspects of Conversations: An Explorative Study”, The International AAAI Conference on Weblogs and Social Media (ICWSM 2012)

사람은 누구나 다른 사람들과 대화를 나눈다. 대화를 통해 정보를 공유하며, 감정을 전달하고 소통한다. 만약 사람들 사이에 오고가는 대화 내용의 특성을 자동적으로 측정할 수 있다면 그 결과를 기반으로 무엇을 할 수 있을까? 어쩌면, 두 사람이 어떤 타입의 사회적 관계를 맺고 있는지 알아낼 수도 있지 않을까? 일단, 이와 같은 의문을 해결하기 위해서는 사람들 사이의 대화 내용을 수집할 수 있어야 하며, 대화 내용을 분석하기 위한 기술이 필요하다. 물론, 대화 내용이 텍스트로 기록되어 있고, 텍스트의 특성을 분석하기 위한 언어 처리 기술을 활용할 수 있다면 이것은 충분히 고민해 볼 수 있는 이야기가 된다.

스크린샷 2017-04-21 09.23.27

그림 1. Semantic Social Network

이 논문은 사람들 사이에 오고가는 대화의 특성을 분석하기 위해 트위터 데이터를 수집하여 활용하였고, 텍스트로 구성된 문서로부터 topic 을 추출하는 기술인 LDA (Latent Dirichlet Allocation) 를 기반으로 하여, 두 사람 사이의 관계를 파악하기 위한 2가지의 측정 방법 – Topic Diversity 와 Topic Purity – 을 제안하였다.

스크린샷 2017-04-21 10.23.11

그림 2. Topic Diversity 와 Topic Purity

Topic Diversity 는 두 사람이 얼마나 다양한 topic의 대화를 나누는가를 측정하는 개념으로서, 여러 topic의 대화를 나눌 수록 높은 수치를 기록하게 된다. 이에 반해 Topic Purity 는 두 사람이 특정 topic에 대해 집중적으로 대화를 나눌 때 높은 수치를 나타내게 된다. Topic 의 다양성은 두 사람의 대화에 포함된 topic들 사이의 유사도를 기반으로 측정한다. LDA 에서 하나의 topic 은 word 들의 확률분포로 표현되므로 두 topic 의 유사도는 JS divergence 를 활용하여 측정한다.

스크린샷 2017-04-21 09.33.40

그림 3. Relationship-type oriented Sub-Networks of SSN

이 논문에서는, 두 사람이 나눈 대화에 포함된 topic 들의 diversity 와 purity 를 기반으로 표현한 social network 을 Semantic Social Network 이라 이름 붙이고, 단순히 following 관계만으로 표현한 social network 을 Syntactic Social Network 이라 칭하면서 구분지었다. 그렇다면, 이 논문에서 제시한 ‘대화 topic 의 다양성을 기반으로 표현한 Semantic Social Network’ 을 어떻게 활용할 수 있을까?

만약 내가 특정인과 사회적 관계를 맺고 있다면, 내가 좋아하는 컨텐츠를 그에게도 추천해 주는 것이 옳을까? 내가 그 사람과 다양한 topic 의 대화를 나누어왔다면, 추천해 주는 것도 좋겠지만, 만약 특정 topic 에 대해서만 정보를 공유해왔다면, 그 컨텐츠를 추천해 주는 과정에서 고민이 더 필요할 지 모른다. 만약 그가 직장상사라면? 거래처 직원이라면? 연세가 지긋하신 선생님이라면? 물론, 이 모든 이야기는 나와 그 사람이 나누어왔던 대화에 얼마나 다양한 topic 이 포함되어 있었는가를 측정할 수 있을 때에 가능한 것이다. 더 나아가, SNS 뿐만 아니라 다른 모든 대화의 내용도 분석대상이 된다면 더 많은 것들이 가능해질 것이다. 물론, 프라이버시 문제를 고려해야 되겠지만.