사회적 관계의 타입을 커뮤니케이션 데이터를 활용해서 측정할 수 있을까?

글쓴이 Inforience 날짜

클릭 >> Hello, world !! (from ShadowEgo)

본 포스팅은 아래의 국제 컨퍼런스 논문을 바탕으로 작성되었습니다.

Jinhyuk Choi, Seongkook Heo, Jaehyun Han, Geehyuk Lee, Junehwa Song, “Mining Social Relationship Types in an Organization using Communication Patterns”, The 16th ACM Conference on Computer Supported Cooperative Work and Social Computing. (CSCW 2013)

들어가는 말

난 Big Brother, 너를 계속 지켜보고 있지.

인공지능을 가진 Big Brother가 있다면, 그리고 그것이 사람들의 행동을 항상 관찰, 분석한다면 무엇이 가능해질까? 행동에 의해 기록되는 데이터가 충분히 수집될 수 있고 데이터가 나타내는 패턴을 제대로 찾아내어 이해할 수 있다면 관찰하고 분석하는 것은 어렵지 않을 듯 하며, 최근의 인공지능, 머신러닝 분야의 발전 속도를 고려하면 다양한 응용들이 가능해지는 것도 그리 먼 이야기처럼 느껴지지 않는다. 물론, 무엇인가가 나를 계속 주시하고 있다면 꽤나 꺼림칙할 것 같지만.

2

모여라, 일단 모이자구.

한 그룹의 사용자들이 같은 공간에 모여있다고 가정해 보자. 과연 이 그룹의 현재 분위기는 어떨까? 누구나 즐겁게 농담과 사적인 이야기를 꺼낼 수 있을 정도로 자유롭고 편안한 분위기일까? 아니면 존칭을 쓰면서 공적인 내용의 대화를 하는 딱딱하고 차분한 분위기일까? 물론, 대화의 내용을 다 녹음해서 분석할 수 있다면, 사람들의 표정을 분석할 수 있다면, 더 나아가 그러한 분석작업을 자동적으로 수행하는 인공지능 머신을 만들 수 있다면 분위기를 파악하는 정도의 작업은 어렵지 않게 수행할 수 있을 것 같다. 그러나, 우리가 모을 수 있는 데이터가 제한적이고, 활용 가능한 머신의 용량마저도 제한적이라면 이러한 작업을 자동화하는 것은 생각보다 쉽지 않다. 아니 그것보다는, 솔직히 말해서, 대화내용이나 얼굴 영상데이터까지 다 수집하고 분석하려니 귀찮기도 하다. (일이 많아진다.) 웬만하면 데이터도 최소한으로 모으고, 분석작업도 최대한 간단하게 하고 싶다.

사회적 관계의 타입 – 이걸 알아내면 많은 것을 할 수 있다.

3

분위기 파악 좀…

결국에는 사람들이 맺고 있는 사회적 관계의 타입을 알아내는게 핵심인 듯 하다. 그런데, 대화 내용을 분석하지 않고서도 사회적 관계의 타입을 자동적으로 파악할 수 있을까? 아니 그보다 먼저, 사회적 관계의 타입에는 어떠한 것들이 있을까? 본 논문에서는 사회과학 분야의 연구결과를 근거로 하여 사회적 관계에는 formal relationship 과 informal relationship의 두 가지 타입이 있다고 가정했다. Formal relationship 은 업무와 관련한 공통의 목적을 달성하기 위해 맺어진 인위적인 관계이며, informal relationship 은 업무와는 무관하게, 개인적인 친근함을 바탕으로 맺어진 자연스러운 관계이다. 물론 우리는 다른 사람과 두 가지 타입의 관계를 모두 맺기도 한다.

커뮤니케이션 패턴을 수집하기 위한 데이터, 그리고 indicators

두 사람이 어떠한 타입의 관계를 맺고 있는가를 파악하려면 어떤 데이터를 수집해서 어떻게 분석해야 하는가? 본 논문에서는 두 사용자가 어떠한 커뮤니케이션 패턴을 보이는가를 바탕으로 사회적 관계의 타입을 파악할 수 있다는 비교적 간단한 가설을 세웠다. 그리고 실험과정에서는, 특정 공간에서 활동하는 사람들의 실시간 위치 데이터와 그들이 서로 온라인 메신저를 통해 커뮤니케이션을 나누는 동안에 기록되는 로그 데이터를 활용했다. 위치 데이터를 통해서는 사람들의 face-to-face 커뮤니케이션 패턴을 측정하고자 했고, 접촉 여부와 대화내용이 외부로 잘 드러나지 않는 메신저 대화 패턴을 통해서는 온라인 대화의 패턴을 측정하고자 했다. 위에서도 언급했듯이, 데이터도 최소한으로 모으고 분석작업도 최대한 간단하게 하고 싶었으므로, 이메일이나 통화 내역, 온라인(소셜) 미디어상에서의 친구관계 등은 분석대상에 포함시키지 않았다.

4

실험 공간 개념도 (회의실, 연구실, 휴게실로 구성되어 있다)

일단 사람들의 위치를 파악하기 위해, 회의실, 휴게실, 연구실에 bluetooth station 을 설치하여 피실험자들이 가지고 다니는 휴대폰의 bluetooth ID 를 주기적으로 수집했으며, 온라인 메신저 로그를 수집하기 위한 프로그램을 만들어 피실험자들의 컴퓨터에 설치했다. (이 논문은 KAIST 문지 캠퍼스 6층에서 활동하는 대학원생들을 대상으로 데이터를 수집하고 분석하였다.) 그리고 피실험자들 사이의 사회적 관계를 파악하는데 유용할 것으로 생각되는 indicator 들을 다음과 같이 디자인하였다.

스크린샷 2017-05-16 13.11.09

피실험자들이 서로 맺고 있는 실제적인 사회적 관계의 타입을 나타내는 데이터는 설문조사를 통해 확보하였다. 설문 문항에는 서로 간에 어떠한 타입의 사회적 관계를 맺고 있는지, 그리고 그 관계의 수준은 어느 정도나 되는지를 묻는 질문들을 포함하였다.

사회적 관계를 파악하기 위한 Indicator 들의 역할

5

각 indicator 들의 유용성

위의 표는 피실험자들이 서로 맺고 있는 사회적 관계의 타입을 파악하는데 있어서의 각 indicator 들의 유용성 (Information Gain) 을 측정하고 그 값을 바탕으로 순위를 매긴 결과를 나타낸다. 높은 수준의 formal relationship (HFR)을 맺고 있는가의 여부를 파악하는데 있어서는 두 사람이 회의실에서 만나는 정도와 관련된 indicator 들이 중요한 역할을 하는 것으로 나타났다. 이와 달리, 높은 informal relationship (HIR)을 맺고 있는가의 여부를 파악하는 데에는 휴게실에서 만나는 정도를 측정한 indicator 들이 중요한 역할을 수행하였다. 이 결과는 우리의 직관과도 부합한다고 볼 수 있다. 온라인 메신저를 통한 대화의 정도를 나타내는 indicator 들은 두 관계에서 모두 비슷한 수준의 역할을 수행하였는데, 이 결과만을 바탕으로 한다면 온라인 대화 패턴은 사회적 관계의 타입을 구분하는 것보다는 관계의 수준을 파악하는 것에 유용해 보인다. 물론, 대화의 내용은 상대방과의 관계에 따라 많이 다를 수 있겠지만.

머신러닝이 해낼 수 있을까?

그렇다면, 이러한 데이터를 바탕으로 피실험자들 사이의 사회적 관계의 타입을 측정하는 머신러닝 모델을 학습시킬 수 있을까? 그리고 그렇게 학습된 모델은 서로의 사회적 관계를 정확하게 측정할 수 있을까?

6

머신러닝이 노력한 결과

위의 표는 두 가지 머신러닝 모델 (Decision Tree 와 Bayesian Network) 을 활용할 경우, 피실험자들이 맺고 있는 사회적 관계를 얼마나 잘 측정할 수 있는가를 나타낸다. Bayesian Network 의 경우, 80% 후반대의 정확도로 각 타입의 사회적 관계의 수준을 측정해냈는데, 본 논문은 초기 단계의 연구로서, 그리 길지 않은 기간동안 적은 수의 사용자들로부터 수집한 간단한 데이터만을 활용하였음을 고려할 때 이 결과는 상당히 의미있는 수치이다.

용기가 필요한, 그러나 재미있는 데이터 놀이

본 논문은 간단해 보이는, 어쩌면 누구나 세워볼 수 있는 가설을 세웠고, 그 가설을 검증하기 위한 실험을 구체적으로 디자인하고 진행하였다. 그다지 고급스러워 보이지 않는 아이디어를 검증했음에도 불구하고, 더 나아가 정확도가 90%도 되지 않는 머신러닝 결과를 제시한 데다가 다른 사용자들이 활동하는 다른 환경에서 수집한 데이터에 대해서도 동일한 결과를 얻을 수 있을 지의 여부가 아직 불확실함에도 불구하고 본 논문이 HCI 분야에서 최고로 꼽히는 국제 컨퍼런스의 프로시딩에 실릴 수 있는 가장 큰 이유는, 아무도 실행해 보지 않은 작업을 직접 수행하여 그 가능성을 구체적으로 검증하였기 때문이다.

데이터를 수집하고 해석하는 과정에서 필요한 것들 중의 하나는 도메인 지식을 기반으로 한 상상력이며, 그 상상력을 구체화하는데에는 용기와 추진력이 필요하다. 용기가 필요한 가장 큰 이유는, 때로는 데이터를 아무리 흔들어 보아도 자신이 찾고자 하는 패턴이 탐색되지 않을 수도 있으며, 그럴 경우 데이터를 수집하기 위해 진행해 온 중간 작업의 결과들이 모두 휴지조각이 되어버릴 수도 있기 때문이다. 이것이 바로 데이터 분석자에게 ‘기꺼이 방황할 마음의 준비’가 필요한 이유다. 물론, 결과가 좋지 않더라도, 기꺼이 방황한 경험은 데이터 분석자에게는 그 무엇과도 바꿀 수 없는 귀중한 자산이 된다.


1개의 댓글

Social Science와 Machine Learning의 만남  – 인포리언스 · 2020-10-26 4:32 오후

[…] 관련되어 있습니다. Ambient Intelligence의 개념은 이 논문을 소개한 글(사회적 관계의 타입을 커뮤니케이션 데이터를 활용해서 측정할 수 있을까?)에서 언급한 아래의 문장이 암시적으로 표현하고 […]

댓글이 닫혔습니다.