[Episode] ShadowEgo에게 나의 과거를 묻다.

YouTube 영상

“12년 전 오늘, 오전 10시의 나와 대화하고 싶어.

+++++++ 12년 전 오늘, 오전 10시의 내가 입장하셨습니다.

나를 불렀니?

응, 내가 불렀어. 이것저것 이야기하고 싶어서.”.

….

더보기 >> “ShadowEgo에게 나의 과거를 묻다.

카테고리: Human, Data & A.I. | 댓글 남기기

국방 분야에서의 인공지능 기술의 역할

인공지능 기술이 국방 분야에 커다란 변화의 바람을 일으킬 것이라는 점은 명백하다. 이미 전장상황을 실시간으로 공유할 수 있는 네트워크 중심 작전환경이 활용되고 있으며 감시정찰 자산의 능력도 지속적으로 발전하고 있으므로, 인공지능 기술을 적용하는데 가장 중요한 데이터의 수집과 공유를 위한 인프라와 프로세스가 갖춰지고 있기 때문이다. 더 나아가 인명 피해를 최소한으로 줄이면서도 효율적인 작전을 수행할 수 있도록 하기 위한 무인 전투 체계가 실전에 배치되고 있다는 점도 인공지능 기술의 국방 분야에서의 비중을 알 수 있게 한다.

미 의회 조사국 (Congressional Research Service: CRS)에서 발행한 보고서[3]에서는 국방 분야의 인공지능 기술 응용을 총 7가지로 분류하고 있다.

  • Intelligence, Surveillance, and Reconnaissance
  • Logistics
  • Cyberspace Operations
  • Information Operations and “Deep Fakes”
  • Command and Control
  • Semiautonomous and Autonomous Vehicles
  • Lethal Autonomous Weapon Systems (LAWS)

Intelligence, Surveillance, and Reconnaissance

인공지능 기법들은 방대한 데이터로부터 중요 패턴을 추출하거나 인식하는 작업을 수행할 수 있다. 특히 탐지 및 인식 대상에 해당하는 패턴들의 특성(feature)을 스스로 찾아낼 수 있는 딥러닝 기반 모델의 능력이 큰 역할을 할 수 있다. 또한 인공지능은 사람의 손을 거치지 않고도 많은 데이터를 처리할 수 있게 하며 처리 속도와 정확성도 높기 때문에, 정보, 감시, 정찰 분야에서의 인공지능의 활용 가능성이 매우 높다.

<더보기> https://shadowego.com/articles/33

카테고리: Trends of Data, Machine Learning, A.I. | 댓글 남기기

Hello, world !! (from ShadowEgo)

클릭!! >> https://shadowego.com/

“ShadowEgo.com is looking forwards, and walking towards.

인공지능 및 뇌 관련 분야를 다양한 시각으로 분석, 고민, 상상해 보기 위해 ShadowEgo.com 에는 다음과 같은 세가지 타입의 콘텐츠들이 포함됩니다.

첫째, ‘The Episodes’ 섹션은 상상 위주의 섹션이며, 발전된 인공지능 및 뇌 관련 기술들이 이미 실용화된 미래의 인간 사회의 모습을 상상합니다. 따라서 이 섹션의 컨텐츠들은 100% 허구이며, 창작의 결과물입니다. 개념을 구체화하고 이해하는데 있어서 스토리텔링은 아주 훌륭한 도구이므로, 이 섹션은 상상의 결과를 경험해 볼 수 있도록 합니다.

둘째, ‘Looking Forwards’ 섹션은 인공지능 및 뇌 관련 연구 결과들의 변화 흐름이나 인간 사회에 미칠 영향에 대한 의견, 또는 episode에 묘사된 미래 사회에 대한 해석을 제시합니다. 그리고 인공지능 및 뇌 관련 서비스나 제품의 사용성을 평가한 결과도 소개될 수 있습니다. 정리하면, 기술 분석이나 창작물이 아닌 콘텐츠들이 이 섹션에 포함될 수 있습니다.

셋째, ‘Walking Towards’ 섹션은 기술 집약적인 섹션이며, 인공지능 및 뇌와 관련된 실제적인 연구 결과들에 대해 소개합니다. 이 섹션의 내용을 이해하는 데에는 일정 수준 이상의 기술적 배경지식이 필요할 수 있습니다.

ShadowEgo.com 의 구성

인공지능 및 뇌 관련 분야의 발전은 인간 사회의 모습과 개인이 살아가는 방식을 변화시킬 것입니다. 그런데 그 변화의 무게와 깊이는 누구나 쓸 수 있는 개인용 컴퓨터의 시대가 가져왔던, 인터넷이라는 정보 공유의 장이 가져왔던, 스마트폰이 정보 활용의 패턴을 크게 바꾸었던 것과는 비교할 수 없을 정도로 무겁고 심오할 것입니다. 따라서, 우리는 인공지능 및 뇌 관련 분야가 가져 올 변화를 다양한 시각을 통해 예측하고 검토해 봐야 합니다. 인공지능 및 뇌 관련 분야의 발전은 인간 사회를 바라보는 새로운 시각을 싹트게 할 수 있으며, 궁극적으로는 우리의 존재와 정체성에 대한 새로운 관점을 가지게 할 수 있다는 점도 이러한 변화를 진지하게 살펴보아야 할 중요한 이유입니다.

클릭!! >> https://shadowego.com/

카테고리: Inforience NEWS | 댓글 남기기

2020 AI 특성화 기업 역량강화 사업에서의 인포리언스

클릭 >> Hello, world !! (from ShadowEgo)

AI 특성화 기업 역량강화 사업’(AI 역량강화)은 AI 기술을 접목하여 비즈니스를 창출하고자 하는 중소기업을 지원하는 것을 목적으로 연구개발특구진흥재단에서 발주한 사업입니다. 이 사업에서는 AI 기술을 필요로 하는 수요기업들을 대상으로 기술교육을 진행하거나 기술 수요기업들과 기술 공급기업(기관)을 매칭하여 컨설팅을 진행하고 초기 파일럿 프로젝트를 함께 수행하면서 수요기술에 대한 이해를 높입니다. 더 나아가, 기술을 직접 구현하여 비즈니스 창출 가능성을 직접 확인하도록 합니다.

인포리언스는 2020년 하반기에 시작된 두번째 AI 역량강화 사업(주관기관: 한국원자력연구원)에 기술 공급기관으로 참여하여 7개 기술수요기업을 대상으로 컨설팅을 진행하였고, 현재는 4개 기술수요기업의 프로젝트를 담당하여 진행하고 있습니다.

열심히… 열심히… (실제 인포리언스 사진은 아닙니다…)

첫번째는 대덕넷(https://www.hellodd.com/)에서 신청한 ‘관련 기사 자동 추출 모듈 구현’ 프로젝트로서, 여러가지 텍스트마이닝 및 자연어 처리 기술을 융합 활용하는 케이스입니다. 프로젝트가 완료되면, 새로운 기사가 쓰여질 때마다 과거의 기사들 중에서 해당 기사와 관련된 기사들을 자동적+효율적으로 찾아내는 길이 열리게 됩니다.

두번째는 심플라이(http://www.symplai.com/)에서 신청한 ‘중,고교 교과 내용의 학년-교과목 분류 모듈 구현’ 프로젝트로서, 이 프로젝트에도 여러가지 텍스트마이닝 및 자연어 처리 기술이 적용됩니다. 프로젝트를 통해 구현될 모듈은 학생들의 학습 성향과 학습 진도를 자동적으로 측정하는데 활용될 수 있습니다.

세번째는 딥센트(https://www.deepscent.shop/service/company)에서 신청한 ‘냄새 자동분류 모듈 구현’ 프로젝트로서, 이 프로젝트에는 센서가 출력한 시계열 데이터를 처리, 분석하는 기술이 적용됩니다. 이 프로젝트의 결과는 공기 중에 포함된 냄새나 가스의 종류를 자동적으로 파악하는 장치를 구현하는 데에 적용될 수 있습니다.

네번째는 코디너리(https://cordinary.co.kr/)에서 신청한 ‘패션 분류 모듈 구현’ 프로젝트로서, 이 프로젝트에서는 이미지 데이터를 처리하고 분류하는 기술을 적용합니다. 이 프로젝트의 결과는 고객을 위한 추천 시스템이나 고객 성향을 파악하는 시스템에 적용될 수 있습니다.

인포리언스는 데이터 분석 또는 인공지능 관련 기술을 실제 현장의 문제에 적용하기 위해 계속 노력하고 있습니다.

카테고리: Inforience NEWS, Tech. of Inforience | 댓글 남기기

Brain Implant 뉴스 기사 흐름 분석

클릭 >> Hello, world !! (from ShadowEgo)

YouTube 영상:

개요

Brain implant 기술은 전기적으로 동작하는 소형장치를 써서 뇌가 생성하는 전기신호를 수집하거나 뇌에 자극(stimulation)을 주는 기술이다. 사고 또는 질병으로 인해 몸을 움직일 수 없게 되었거나 시각 또는 청각 능력을 상실한 사람들로 하여금 자신의 신체활용능력과 감각을 회복할 수 있게 하기 위한 연구의 핵심이다. 의학, 뇌과학, 전자공학, 재료공학, 컴퓨터 관련 기술들이 모두 적절히 어우러져야 하는 복합적 기술이기도 하다.

Brain implant를 활용한 실험 결과가 사람들에게 본격적으로 소개되기 시작한 것은 1990년대부터이며 [1], 그 이후로 높은 성장세를 보이고 있다. 이러한 성장은 DARPA(Defense Advanced Research Projects Agency)의 초기 투자에 힘입은 바가 크며, 최근에는 기업의 투자와 병원에서의 연구 활동도 활발하게 이루어지고 있다.

본 포스트에서는 2014년 이후부터 현재까지의 뉴스 기사들을 3기간(기간#1: 2014년~2016년, 기간#2:2017년~2018년, 기간#3:2019년~2020년)로 나누고 brain implant 기술의 변화 흐름을 3가지 관점에서 정리해 본다. 뉴스 기사들을 기반으로 정리하였으니, 기술의 세부적인 내용을 파악하는데에는 한계가 있을 수 밖에 없다는 점을 염두에 두자. 세부적인 기술에 관한 내용은 다른 포스트를 통해 추후에 정리해 보기로 한다. 또한 최근에 주목받고 있는 Neuralink[27]에 대해서는 따로 정리해 볼 예정이다.

연구개발의 흐름

2014년 이후의 뉴스 기사들을 토대로 추출해 본 3가지 관점에서의 기술의 변화 흐름은 다음과 같다.

  1. 실험실 환경에서의 가능성 타진에서 사용성 높은 brain implant의 개발을 위한 연구로의 발전
  2. 뇌 신호를 수집하고 해석하는 것에서 자극(stimulation)과 같은 적극적인 개입으로의 발전
  3. 사람의 의도 파악 및 운동기능 보조에서 다양한 기능 – 말하기 능력, 시력 및 청력과 같은 – 의 회복을 위한 개발로의 확장

1의 흐름은 brain implant 장치와 기술이 서서히 실험실 환경에서 벗어나 실제 생활 환경에 접목할 수 있는 형태로 발전하고 있다는 뜻이며, 2의 흐름은 수동적으로 뇌 신호를 활용하는 것에서 이제는 적극적으로 뇌의 활동에 변화를 주는 기술로 발전하고 있음을 의미한다. 마지막으로 3번 흐름은 brain implant 기술의 적용 스펙트럼이 점차 넓어지고 있다는 의미로 해석할 수 있다.

실험실 환경에서의 가능성 타진에서 사용성 높은 brain implant의 개발을 위한 연구로의 발전

기간#1(2014년~2016년)에 발표된 기사들은 brain implant 관련 기술의 사용성(usability)보다는 brain implant를 기반으로 어떠한 신호를 수집, 활용할 수 있는가에 대한 분석 연구결과들을 많이 언급하고 있다. 근위축성 측색 경화증 환자로 하여금 “생각만으로” 56초에 한 글자씩 선택하여 의사를 전달하도록 한 연구에 대한 기사[2]에서는 electrode가 설치된 얆은 플라스틱 strip을 motor cortex 부위에 삽입한 결과를 소개하였다. 기존의 연구들이 감염의 위험성, 특수 장비의 필요성 등으로 인해 실험실에서만 가능했었던 한계를 넘고자 하였으나 이 기사에서 소개한 연구도 특수 훈련을 받은 사람에 의해서만 장비가 다뤄져야 한다는 한계와 장비의 착용성과 외형 때문에 생기는 거부감을 해결할 필요가 있음을 언급하고 있다. [4]에서도 mortor cortex에 마이크로칩을 심어서 신호를 수신하고 해석한 연구를 소개하였는데, 마이크로칩에 대한 신체의 거부반응과 감염의 문제를 해결해야 한다는 점을 언급하였다. [6]에서는 행동 계획, 환경 인식 또는 목표 설정과 같은 추상적인 개념을 처리하는 부위로 알려진 posterior parietal cortex(후두정엽피질)에 impant를 삽입하여 행동을 취할 의도(urge)를 추출할 수 있다는 결과를 소개하고 있다는 점에서 한 단계 발전한 내용이지만, implant가 보내는 신호를 수집하기 위해서 많은 wire가 연결되어야 하는 한계도 뚜렷하였다.

기간#2(2017년~2018년)에 발표된 기사들 중에는 뇌에 삽입해야 할 electrode에 대한 개선을 시도한 결과가 보이기 시작한다. 기존의 electrode들이 고정되지 못하고 움직이거나 부식되면 뇌 신호의 품질이 나빠지거나 신체에 부작용을 일으킬 수 있다는 단점을 해결하기 위해 줄기세포를 이용하여 만든 living electrode를 개발한 결과가 소개되었다. [7] 이 기사에서 소개한 연구에서는 살아있는 조직으로 만든 electrode가 특정 기능을 수행할 수 있다는 결과를 보였으나, 쥐를 대상으로 한 실험에 그쳤다는 한계가 있다. [11]에서는 Brain implants의 현재와 미래에 대한 전문가 인터뷰를 소개하였는데, 생체조직과 호환 가능한 electrode의 필요성 및 장시간 동안 동작하는 것을 가능하게 하기 위한 전력 공급 방법의 중요성, 그리고 외부와의 연결없이 사람의 체내에서 computation이 가능한 수준까지 implant가 발전해야 한다는 점을 제시하고 있다. [13]은 FDA의 승인을 받은 장치에 대한 기사로서, 원격으로 외부 장치와 연결할 수 있어 일반 환경에서도 사용할 수 있는 implant의 개발결과를 소개하고 있다.

기간#3(2019년~2020년)에 발표된 기사들에서는 새로운 재료를 활용한 electrode에 대한 연구결과 및 전력 공급 문제를 해결하기 위한 시도들이 언급되기 시작한다. [15]에서는 polymer probe를 사용하여 더 많은 수의 뉴런들을 모니터링하도록 시도하고 있는 Neuralink[27]의 케이스가 소개되고 있고, [16]에서는 머리카락 절반 두께의 마이크로와이어를 활용하여 시간이 지나도 퇴화되지 않고 뇌 조직의 손상도 최소화할 수 있는 array를 개발한 내용을 소개하였는데, 망막에서부터 신호를 수집할 수 있다는 점에서 주목할 받았다. [18]과 [25]에서는 그래핀을 기반으로 만든 brain implant를 소개하고 있다. 그래핀을 소재로 할 경우 기존 소재로 만든 electrode보다 생체적합성(biocompatibility)이 뛰어날 뿐만 아니라 저주파의 미약한 신호도 잡아낼 수 있다는 장점이 있다는 언급을 하고 있다. [22]에서는 외부에서 생성시킨 magnetic field를 통해 brain implant를 컨트롤하고 전력을 공급할 수 있다는 내용을 소개하고 있다. [23]에서는 많은 수의 electrode를 포함하면서도 크기를 줄이고 오랜 기간동안 쓸 수 있는 brain implant를 개발했다는 내용이며, [24]는 3D 프린터와 폴리머를 이용하여 더욱 유연한 형태의 brain implant를 개발했다는 내용이다.

뇌 신호를 수집하고 해석하는 것에서 자극(stimulation)과 같은 적극적인 개입으로의 발전

기간#1(2014년~2016년)에 발표된 기사들은 주로 뇌 신호를 수신하고 해석하는 것에 초점을 맞춘다. [2]에서는 손가락을 접는 상상을 할 때마다 발생하게 되는 뇌 신호 패턴을 mortor cortex 부위에 연결된 electrode를 통해 수집한 실험을 소개한다. Electrode를 부착한 사람이 특정 알파벳이 보일 때 손가락을 접는 상상을 하게 되면 해당 알파벳을 타이핑할 수 있게 되는 것이다. [4]도 mortor cortex에 마이크로칩을 심어서 시그널을 수신하고 해석한 연구결과이며, [6]에서도 posterior parietal cortex(후두정엽피질)에서 뇌 신호를 수집하여 행동을 취하게 하는 의도(urge)를 추출한 결과를 소개한다. [3]은 뉴런을 모니터하는 것에서 더 나아가 자극을 통해 변화를 주는 실험을 수행한 결과를 소개하고 있으나 사람을 대상으로 한 실험이 아니라 쥐를 대상으로 하고 있다. [5]는 brain implant를 통해 특정 부위를 자극하여 다양한 정신적 질환을 치료하는 것에 대해 언급하고 있으나 앞으로의 계획을 정리한 수준이다.

기간#2(2017년~2018년)에 발표된 기사들은 좀 더 본격적으로 뇌에 대한 자극 실험에 대해 소개하고 있다. [7]에서는 living electrodes를 써서 뇌 시냅스의 연결상태를 재생할 수 있다는 연구결과를 소개하고 있지만 사람을 대상으로 한 실험이 아니라는 한계가 있다. [10]에서는 파킨슨병을 치료할 목적으로 전기자극을 주입한 실험에 대한 내용을 담고 있는데, motor cortex에 심은 electrode로부터 수집한 신호를 기반으로 stimulation의 파라메터를 결정하는 방법을 구현하여 dyskinesia(이상운동증)가 나타나면 자극을 멈출 수 있게 할 수 있음을 설명하고 있다. 이 기사의 내용은 자극에 대한 사람의 반응에 적응할 수 있도록 한 케이스로 주목받을 만 하다. [11]에서는 광유전학(optogenetics)을 바탕으로 빛을 활용하여 특정 타입의 신경세포들을 stimulate하는 방법과 스스로 타겟 신경세포를 찾아내고 stimulation 방법을 결정하는 방법을 제시한다. [12]는 뇌 뿐만 아니라 팔에 설치한 36개의 implants들을 써서 뇌의 지령에 따라 팔과 손을 움직일 수 있다는 연구결과를 소개한다. [13]에서는 뇌 활동의 이상이 감지되면 전기 펄스를 보내어 이상패턴을 완화시키는 연구결과이다. [9]에서는 사람의 인식과 행동에 극적인 변화를 일으킬 수도 있는 brain stimulation이 실용화되면 사람의 행동을 자유의지에 의한 것으로 판단할 수 있는지에 대한 질문을 던지고 있다. 더 나아가 만약 stimulation 장치의 고장으로 인해 사고가 발생한다면 이것에 대한 책임을 누구에게 물어야 하는가에 대한 의문도 제시하고 있다.

기간#3(2019년~2020년)에 발표된 기사들 중에는 선글래스에 장착한 비디오 카메라로부터 수집한 정보를 전기 신호로 변환하여 사람의 신경으로 전송한 연구[19]가 있다. 이와 비슷하게, [20]에서는 카메라로부터 얻은 정보를 펄스로 변환하여 뇌에 부착된 electrode로 직접 전송하여 눈을 거치지 않고도 물체나 글씨의 형태를 볼 수 있게 한 연구결과를 소개한다. [21]은 intraneural electrode를 신경에 주입하여 전기적 자극이 토끼의 visual cortex에 특정 패턴의 activation을 생성시킬 수 있음을 제시한 논문을 소개한다.

사람의 의도 파악 및 운동기능 보조에서 다양한 기능 – 말하기 능력, 시력 및 청력과 같은 – 의 회복을 위한 개발로의 확장

기간#1(2014년~2016년)과 기간2(2017년~2018년)에 발표된 기사들은 거의 대부분 뇌의 신호를 바탕으로 의도를 파악하거나 뇌와 관련된 질환을 극복하려는 시도들과 관련되어 있다. 뇌의 신호를 해석하여 글자를 타이핑하거나, 신체를 움직이게 하거나, 우울증, 기억 상실, 외상 후 스트레스 장애 등과 같은 질환들을 치료하기 위한 것들이다.

기간#3(2019년~2020년)에 발표된 기사들 중에는 시력과 청력을 회복시키는 것과 관련된 주제들이 나타나기 시작하였다. 제 기능을 상실한 기관을 우회하는 인공적인 pathway를 구현하여 잃어버린 감각을 회복시키기 위한 연구에 대한 기사들이 대부분이다. 쥐를 대상으로 한 연구이긴 하지만 [16]에서는 망막으로부터 신호를 수집하려는 시도에 대해 소개하였고, [17]에서는 뇌 신호를 spoken sentence로 직접 변환하는 머신러닝 알고리즘의 개념을 소개하고 있다. 문장들을 읽는 동안 활성화되는 뇌 부위의 activity들을 기록하여 활용하는데, decoder는 brain activity를 해석하여 발성을 할 때 움직이는 부위들 (성도: vocal tract – 입술, 혀, 후두, 턱)에 대한 명령으로 변환하고 synthesizer는 해석된 명령을 바탕으로 발음을 생성하는 것이다. 이것은 발성과 관련된 뇌의 부위는 소리가 아니라 성도의 움직임과 관계되어 있다는 연구결과를 바탕으로 한다. [19]는 사고로 시력을 잃은 사람의 visual perception 능력을 회복시키기 위해 brain implant를 활용한 연구를 소개하는데, 선글래스에 장착된 작은 비디오 카메라에서 수집한 이미지들을 전기 펄스로 변환하는 원리이다. 현재까지는 움직임 또는 밝기를 느끼거나 복도와 crosswalk의 위치, sidewalk이 시작되는 위치 등을 구분할 수 있는 수준이라고 소개하고 있다. [20]에서는 brain implant의 각 electrode를 pixel처럼 취급하여 카메라로부터 얻은 정보를 펄스로 변환하여 눈을 거치지 않고 뇌에 부착된 electrode로 전송하는데 성공한 연구를 소개한다. [21]은 visual input을 전달하는 신경세포를 stimulate하는 implant를 통해 시각을 대신할 수 있는 가능성을 설명한다.

Brain implant를 연구개발하는 과정에서 고려해야 할 요소들

2014년에 발표된 기사[26]는 brain implant를 연구개발하는 과정에서 고려해야 할 요소들에 대해 정리하였다. 가장 먼저, brain implant의 활용 목적을 정해야 하는데, 현재까지는 뇌 질환 치료, 신체 마비 극복, 시력이나 청력의 회복 또는 상실된 감각의 우회 방안 개발 등으로 정리할 수 있을 것이다. 또한 뇌 신호를 포착하고 수집하는 것과 신호를 해석하고 학습하는 과정을 구현해야 하는데, 감염이나 신체 조작의 손상이 없어야 하며, 신호 해석 과정에서는 신호 패턴이 어떤 행동이나 의도, 어떤 감각기능과 관련되어 있는지에 대한 치밀한 분석이 중요하다. Implant 장치에 대한 전원 공급도 중요한 요소인데, 열을 발생시키지 않고 전원을 공급할 수 있는 방안을 개발해야 한다. 또한 brain implant가 널리 활용되기 위해서는 실생활에서 활용할 수 있는 외형과 사용성을 갖추어야 한다.

기사 목록

카테고리: Trends of Data, Machine Learning, A.I. | 댓글 한 개

(CLIP) 텍스트 정보를 이용한 Visual Model Pre-training

클릭 >> Hello, world !! (from ShadowEgo)

이번 포스트에서는 OpenAI 에서 최근 발표한 CLIP 모델[1]을 소개한다.

이미지, 오디오 등과 같은 데이터의 차원(dimension)을 줄이면서도 보다 의미있는 형태로 변환하는 representational learning은 딥러닝 및 AI 기술의 대중화를 가능하게 한 중요한 요소들 중 하나이다. 특히 컴퓨터 비전 문제에서는 ImageNet의 대용량 데이터셋으로 미리 학습시킨 네트워크를 가져와 약간의 추가적인 학습만 수행하여도 원하는 task에서 훌륭한 성능을 낼 수 있어, 여러 분야에서 활발히 활용되고 있다.

이러한 representational learning의 성능을 끌어올리는 효과적인 방법은 사용하는 데이터셋과 모델의 크기를 늘려 나가는 것이다. 오늘 소개하고자 하는 CLIP 논문[1]은 기존 ImageNet 보다 방대한 – 무려 4억개 – 용량의 이미지 데이터를 사용하여 representational learning을 수행하였다. 기존의 이미지 사전 학습에서는 영상 분류 문제인 ImageNet 데이터셋을 주로 사용하였다. 주어진 이미지를 보고 그 이미지가 보여주는 물체(object)의 종류를 알아 맞추는 것이다. 이러한 영상 분류 문제에는 두 가지 한계점이 있다. 첫번째 문제는 물체에 대한 labeling이 필요하다는 것이다. 비교적 간단한 label이기는 하지만 이미지 수가 백만, 천만개가 넘는 대용량 데이터셋을 구축할 경우 물체의 분류를 정의하고 labeling 하는 것이 엄청난 부담이 된다. 두 번째 문제는 label이 지니는 정보의 양이 너무 적다는 것이다. 이미지에 포함된 다양한 정보들 중 물체의 ‘종류’라는 단일 정보만을 표현하기 때문에 이미지가 가진 다양한 특징을 활용하는데에는 한계가 있는 것이다.

CLIP 논문[1]에서는 (이미지, 물체 분류) 데이터 대신 (이미지, 텍스트)의 데이터를 사용하는데, 수작업 labeling 없이 웹 크롤링을 통해 자동으로 이미지와 그에 연관된 자연어 텍스트를 추출하여 4억개의 (이미지-텍스트) 쌍을 가진 거대 데이터셋을 구축하였다.

(이미지, 텍스트)로 구성된 데이터셋은 정해진 class label이 없기 때문에 분류(classification) 문제로 학습할 수는 없다. 따라서 CLIP 논문[1]에서는 주어진 N개의 이미지들과 N개의 텍스트들 사이의 올바른 연결 관계를 찾는 문제로 네트워크를 학습하였다.

위의 그림에서와 같이 이미지 인코더, 텍스트 인코더가 있으며, 각 인코더를 통과해서 나온 N개의 이미지, 텍스트 특징 벡터들 사이의 올바른 연결 관계를 학습한다. 이미지, 텍스트 인코더 모두 Transformer 기반의 네트워크를 사용하였다. 데이터셋의 크기가 큰 만큼 학습에 많은 시간이 소요된다. (256개의 V100 GPU 를 이용해서 12일간 학습)

이 논문에서는 매우 다양한 실험을 통해 이렇게 학습된 모델의 유용성을 보여주고 있다. 첫번째로 zero-shot learning 가능성을 테스트하였다. 이 논문에서 정의하는 zero-shot learning은 학습과정에서 한번도 보지 못한 문제 및 데이터셋에 대해서 그 성능을 평가하는 것이다. 예를 들어 학습된 CLIP 모델을 이용해서 ImageNet 데이터의 분류 과정을 수행하는 것이다. 평가 대상이 되는 데이터셋이 다르며, 이미지-텍스트 연결이 아닌 이미지 분류 문제에 적용하는 것이므로 문제의 타입 또한 다른 상황이다.

분류 문제를 위해 위의 그림과 같은 방법으로 CLIP 모델을 적용하였다. 이미지가 주어졌을 때 학습된 이미지 인코더로 이미지 특징을 추출하고, 모든 class label (e.g., 개, 고양이, 바나나 등)을 텍스트 인코더에 통과시켜 텍스트 특징을 추출한다. N개의 텍스트 특징들 중 이미지 특징과 가장 높은 상관관계를 가지는 텍스트를 입력 이미지의 물체 분류 결과로 선택하여 출력한다. 이런 과정을 수행했을 때 ImageNet에 대한 zero-shot learning 결과는 무려 76.2%로 매우 높은 성능을 보였다.

여기에 약간의 트릭으로 인식 성능을 더 높일 수 있었다. Class label 만 사용하는 대신 “a photo of a {object}” 와 같이 이미지에 포함된 물체를 인식하고자 함을 명확히 제시할 경우 인식률이 조금 더 높았다. 예를 들어, 애완동물 인식 문제에서는 “a photo of a {label}, a type of pet.” 으로 애완동물 인식 문제임을 명확히 할 수 있다. 모델 Ensemble 개념도 사용 할 수 있었다. “A photo of a big {label}” 과 “A photo of a small {label}” 처럼 다른 문장 템플릿 80개를 사용할 경우 단일 문장 템플릿을 사용하는 것에 비해 약 3.5%의 성능 향상이 있었다.

이와 같은 방식으로 ImageNet, Food101, SUN397 등의 데이터셋을 포함한 총 27개의 데이터셋에 대해서 zero-shot 인식 과정을 수행하여 ResNet-50을 이용한 fully supervised learning을 수행한 결과와 성능을 비교하였다. 놀랍게도 16개 데이터셋에 대해서 CLIP 모델을 이용한 zero-shot learning이 supervised learning 보다 높은 성능을 보였다 (위의 그림).

또한 사전 학습된 네트워크를 사용하는 통상적인 방법으로, 사전 학습된 이미지 인코더 모델의 마지막 단계에 linear classifier를 추가한 모델로도 평가를 수행하였다.

위의 그림은 27개 데이터셋에 대한 평균적인 인식 성능을 보여주고 있다. CLIP 모델(CLIP-ViT)이 다른 모든 모델들보다 높은 성능을 보여주고 있다. CLIP 모델은 9억개의 인스타그램 이미지로 사전 학습된 모델, ImageNet 에서 가장 좋은 결과를 보여준 EfficientNet 보다 높은 성능을 보여주었다.

더 많은 내용과 코드, 예제 등은 [2]에서 확인할 수 있다.

References

관련글 >> CLIP은 어떻게 활용될 수 있을까?

카테고리: Trends of Data, Machine Learning, A.I. | 댓글 한 개

우리들이 품은 bias, 그리고 새로운 bias의 출현

클릭 >> Hello, world !! (from ShadowEgo)

Bias?

편향, 즉 bias는 무엇이고, 왜 중요할까? Bias는 “tendency of favoring one thing or opinion over another” [1] 라고 정의된다. 간단히 말하면, 특정 무엇인가를 (다른 것들에 비해) 선호하게 되는 경향 또는 현상이라고 할 수 있다. 예를 들어, 특정 과목, 특정 연예인, 특정 미디어 채널을 좋아하는 현상 등이 해당된다. 사실 Bias는 늘 존재해 왔고, 지금도 존재하며, 어쩌면 피할 수 없는 것이기도 하다. 뇌의 구조와 작동방식에 의해, 우리가 받은 교육을 통해, 우리가 만나는 사람들과의 상호작용을 통해, 우리가 보고 즐기는 모든 것을 통해 알지 못하는 사이에 생성되어 있는 것이다. 믿을만 하다고 생각되는 매체나 사람에 의해 만들어진 컨텐츠, 자신의 신념과 일치하는 컨텐츠는 내용의 진위를 제대로 확인하지도 않은 상태에서 소셜 미디어를 통해 공유하기도 하고, 전문가라는 사람이 말한 내용이나 유명 연구자가 발표한 연구 결과는 별 고민없이 진리처럼 받아들이기도 한다.

그렇다면, 왜 우리는 bias에 대해 심각한 고찰을 해봐야 할까? 과거에는 부족한 정보로 인해 bias가 생겼을 테지만, 지금 우리는 과거와 달리 엄청나게 다양한 정보를 접할 수 있는 정보화 사회 속에서 살고 있는데 bias가 그렇게 심각할까? 결론부터 말하자면, bias는 너무 많은 정보를 접하게 되었기 때문에 오히려 더 심각할 수 있다. 그리고 bias를 의도적으로 발생시키려는 움직임도 많으며, 더구나 이제는 인공지능이 bias를 만들어 내어 우리에게 큰 영향을 미칠 수 있는 시대가 오고 있다는 점을 생각해야 한다.

이번 포스트에서는 우리가 컴퓨터나 스마트폰을 통해 웹 정보를 접하는 과정에서 왜 bias가 발생하게 되는지 간략하게 살펴보기로 한다.

컨텐츠를 만들어 내는 사용자가 소수에 불과하다.

웹을 활용하는 사람들은 아주 많지만, 웹 상에 업로드되는 컨텐츠들은 일부 사용자들 또는 매체들에 의해서만 만들어진다. 특히 소셜 미디어의 경우 그런 현상이 두드러진다. [2,3,4] 즉, 소수의 사용자가 만든 컨텐츠에 의해 다수의 사용자가 영향을 받는 현상이 나타나고 있다.

일부 컨텐츠들만 사용자들에게 지속적으로 노출된다.

웹 컨텐츠들은 링크를 통해 서로 연결되는데, 현재의 페이지를 어떤 페이지와 연결할 것인지를 결정하는 것은 컨텐츠 생성자이다. 따라서, 사용자가 클릭하게 될 컨텐츠는 컨텐츠 생성자 및 웹 사이트 설계자의 의도와 성향에 의해 크게 영향을 받게 된다. 물론, 검색엔진을 활용하여 능동적으로 새로운 컨텐츠를 찾아볼 수 있지만, 검색엔진이 웹 공간 내의 모든 컨텐츠를 빠짐없이 다 찾아낼 수는 없으며, 새로운 컨텐츠가 검색엔진에 의해 발견, 인덱싱되는 데에는 시간이 필요하다. 또한 검색엔진 마저도 검색엔진 설계자가 고안한 랭킹 알고리즘을 통해 웹 페이지들을 필터링하며, 사용자들은 검색결과 리스트에서 상위에 랭크된 페이지들을 우선적으로 보게 된다. 결국 컨텐츠 생성자 또는 검색엔진의 선택을 받지 못한 컨텐츠들은 사용자들에게 노출될 가능성이 낮아지며, 이와 반대로 사용자들에게 노출될 기회를 얻은 컨텐츠들은 계속적으로 인기를 얻게 된다. [5, 6]

가짜 정보, 중복된 정보가 생성, 유통된다.

웹 공간에는 누구나 컨텐츠를 만들어 업로드할 수 있으므로, 실제와는 다른, 잘못된 정보를 담은 컨텐츠들이 포함될 수 있다. [7] 또한 이러한 컨텐츠들이 중복 생성되어 유통되면 많은 사용자들에게 퍼질 수 있다. 이러한 컨텐츠에 지속적으로 노출되면 잘못된 정보를 진실이라고 믿거나, 대부분의 사람들이 이 컨텐츠의 내용을 좋아하거나 해당 내용에 동의한다는 잘못된 생각을 하게 될 수 있다.

추천, 개인화 및 랭킹 알고리즘들에 의해 컨텐츠 선택의 폭이 제한된다.

사용자들이 웹을 활용하는 동안, 다양한 수준과 종류의 추천 알고리즘이나 개인화 알고리즘이 동작한다. 이러한 알고리즘들은 사용자의 성향과 기호를 분석하고, 이를 바탕으로 효율적으로 컨텐츠를 선택하도록 고안되었으나, 한편으로는 사용자의 선택의 폭을 제한한다. 또한 이러한 알고리즘들은 사용자로 하여금 특정 컨텐츠나 아이템을 선택하도록 유도하는 역할도 수행할 수 있다. 따라서 사용자들은 보이지 않는 어떤 힘에 의해 드넓은 웹 공간을 충분히 누리지 못하고 자신도 모르는 사이에 특정 컨텐츠 그룹에서 빠져 나오기 힘들어지게 될 수 있다.

UI 구조의 영향을 받는다.

당연한 이야기겠지만, 우리는 위에서 아래로, 왼쪽에서 오른쪽으로 글을 읽는다. (물론, 반대로 읽는 문화권도 있지만.) 따라서, 우리가 웹 컨텐츠를 읽을 때에는 일정한 패턴이 나타나게 되고 [8] 웹 사이트나 페이지를 디자인하는 사람들은 이러한 패턴을 적절히 활용하여 컨텐츠를 배치한다. 오른쪽보다는 왼쪽에, 그리고 스크롤하지 않고도 볼 수 있도록 상부에 배치된 컨텐츠가 사용자에게 노출될 가능성이 높다. 또한 자극적인 제목을 쓰거나 그림 가까이에 배치된 컨텐츠들은 다른 것들에 비해 더 많은 클릭 수를 기록하게 된다. [9] 이런 식으로 교묘하게 디자인된 UI에 의해, 특정 컨텐츠가 다른 컨텐츠들에 비해 더 눈길을 끌게 된다.

Social bias 가 존재한다.

발생원인과 정도의 차이는 천차만별이겠지만, 우리는 성별에 대해, 문화에 대해, 종교에 대해, 인종에 대해 나름대로의 bias를 가지고 있다. 그리고 그러한 bias는 우리도 모르게 웹 컨텐츠에 반영된다. [10] 이러한 bias가 반영된 컨텐츠들은 우리의 내적 bias를 더욱 단단하게 고정시킨다. 또한 많은 수의 사람들이 언급하거나 좋다고 하는 것들에 대해서는 더 호의적인 시각을 가지게 되는 경향도 있다. [11]

인공지능에 의해 생기는 bias?

현재에도 신문기사나 블로그의 내용, 챗봇 대화 등이 인공지능에 의해 생성되고 있으며, 이러한 기술의 적용범위는 더욱 넓어질 것이다. 물론 현재에도, 우리는 이미 다양한 형태의 bias의 영향에서 자유롭지 못하지만, 인공지능에 의해 만들어진 컨텐츠의 비율이 높아지게 된다면, 사람들의 사고방식과 행동양식은 인공지능이 컨텐츠를 생산하는 방식에 의해서도 크게 영향을 받게 될 것이다. 즉, 과거에는 존재하지 않았던, 새로운 타입의 bias가 인공지능 기술에 의해 발생하게 되는 것이다.

문제를 해결하는 첫번째 단계는 문제의 속성과 범위, 정도를 정확하게 파악하는 것이다. 즉, 이미 우리에게 영향을 주고 있는 bias에 대한 치밀한 분석과 연구가 필요하다. 그리고 컨텐츠를 생성해 내는 데 적용되는 인공지능 관련 기술들에 의해 새롭게 생길 지도 모르는 bias에 대해서도 심각하게 고찰해 볼 필요가 있다. 이 과정은 컨텐츠 생성과 관련된 인공지능 기술에 대한 깊은 이해를 요구할 뿐만 아니라, 여러 요소가 복합적으로 얽힌 형태로 발생하게 되는 bias, 그리고 무엇보다 정보 활용의 주체가 되는 사람 및 사람의 집단에 대한 다양한 관점에서의 연구를 필요로 할 것이다.

Further Reading

References

카테고리: Human, Data & A.I. | 댓글 한 개

의료분야에서의 인공지능

클릭 >> Hello, world !! (from ShadowEgo)

들어가며

인공지능 기술은 의료분야에서 가장 뜨겁게 활용될 수 있다. 질병을 찾아내고, 치료하고, 예후를 관찰하고, 새로운 치료방법을 연구, 적용하는 등의 다양하고 광범위한 일들이 의료 분야에서 이루어지고 있고, 이러한 일들을 효율적으로 수행하기 위한 새로운 방법이 늘 필요하기 때문이다. 그러나 한편으로는, 사람의 건강과 생명에 직결되기에, 새로운 기술을 적용하는 데 있어서 많은 고민이 필요하다.

이번 포스트에서는 최근의 의료 분야에서 연구, 활용되고 있는 인공지능 기술들에 대해 아주 간략하게 살펴본다. 그리고 더 나아가서, 인공지능 기술이 의료진의 역할을 대체할 수 있을 것인가에 대한 현 시점에서의 고민도 소개한다.

어떤 인공지능 기술들이 의료 분야에서 활용될까

인공지능 분야도 많은 세부분야를 포함하고 있고, 의료분야 역시 그렇다. 따라서 의료 분야에서 활용되는 인공지능을 분류하려면 크게 2가지 방법을 적용해 볼 수 있을 것이다. 첫번째는 인공지능 기술 분야를 나누어서 각 기술이 적용되는 의료 응용을 살펴보는 것이고 [1], 두번째는 의료 분야를 나누어서 각 분야에 대한 인공지능 기술들을 찾아보는 것이다. [2] 이번 포스트에서는 두 방법을 모두 활용해 보는데, 참고 논문 [1][2]에서 적용한 방법을 따라가 본다.

인공지능 기술에 따른 분류 [1]

(1) Computer vision – medical imaging

그림 1. 의료 이미지를 처리하는 CNN 의 구조 (figure from [1])

인공지능 분야에서 현재 가장 크게 활용되고 있는 기술은 Deep learning이다. 그리고 Deep learning은 이미지나 영상 데이터를 처리하는 분야에서 가장 크게 활용되고 있다. 그림 1은 Deep Learning의 가장 대표적 모델 중의 하나인 Convolutional Neural Network (CNN)에 의료 이미지 데이터를 입력하는 개념을 간략하게 표현하고 있다. 이미지 데이터를 입력하여 타입을 분류하거나, 이미지 내부의 특정 패턴을 찾아내거나, 이미지를 비슷한 특성끼리 묶는 등의 다양한 작업을 Deep Learning 모델을 활용하여 수행할 수 있다. 피부과에서 피부의 상태와 증상의 종류를 파악하는 작업에 활용할 수 있고, 영상의학과에서는 CT나 X-ray 이미지에서 결절이나 종양을 찾아내는 과정에 사용할 수 있다. 치과 X-Ray 이미지에서 치아나 턱 관절의 상태를 파악하게 할 수도 있고, 안과에서는 망막에 생긴 이상을 탐지하는 안저검사에 도움을 줄 수 있으며, 병리학 분야에서는 조직 슬라이드에서 종양이 나타난 위치를 찾아내는 과정에서 활용한다.

(2) NLP(Natural Language Processing)

두번째로 가장 대표적인 인공지능 기술은 Natural Language Processing (NLP)이다. 그리고 NLP는 Electronic Health Record (EHR)을 처리하는 과정에서 가장 크게 활용될 수 있다. EHR에는 엄청난 양의 정보가 포함되어 있다. 데이터 뿐만 아니라, 의사들의 경험과 지혜도 녹아들어 있다. 따라서, EHR로부터 중요 정보를 잘 추출하여 활용하는 것과 EHR에 정보를 적절히 잘 기록하는 것이 모두 중요하다. EHR에서 정보를 추출하기 위한 과정은 데이터마이닝 분야에서 이미 오래 전부터 시도되어 왔으며, 자연어로 작성된 내용에서부터 중요한 정보를 추출하고 이해하는 시스템을 구축하는 연구가 대표적이다. 최근에는 말로 언급한 내용을 텍스트로 변환하여 저장할 수 있게 하여 업무가 과중한 의료진을 문서 작업으로부터 해방시키려는 노력도 이루어지고 있다. 또한 의사와 환자가 나눈 대화에서 정보를 추출하여 저장하는 것과 관련된 연구도 진행되고 있다. 물론 이 과정에는 NLP 뿐만 아니라 음성인식 분야의 기술이 함께 활용된다.

(3) Robotics

로보틱스는 다양한 기술들이 융합되는 분야라는 점에서 앞에서 언급한 분야들과는 다르다. 그러나 의료 기술의 발전에 크게 공헌할 수 있는 분야임에는 틀림없다. 로보틱스 기술은 수술 로봇에 적용되는 것이 대표적이며, 세부적으로는 복강경 수술과정을 크게 발전시킬 수 있다. [3] 핵심이 되는 것은 Reinforcement learning 을 활용한 robotic-assisted surgery (RAS) 이며, 로봇으로 하여금 의사의 실제 수술 과정을 trial & error를 통해 배우도록 하거나 의사가 원격으로 로봇을 제어하기도 한다. 봉합이나 매듭작업(knot-tying)과 같은 반복적인 작업에 로봇을 활용하려는 시도도 이루어지고 있다.

(3) Generalized information processing

그림 2. Machine Learning in Genomics (figure from [1])

Vision이나 NLP와 같이 특정 타입의 데이터에 특화된 인공지능 기술도 있지만, 실제 상황에서는 여러가지 복합 데이터를 처리해야 하는 경우가 많다. 예를 들어, 환자의 특성이나 치료 환경을 기반으로 어떤 치료 프로토콜이 가장 성공할 가능성이 있는지 예측하는 precision medicine, 또는 환자가 의사의 지시를 평소에 얼마나 잘 따르는가를 분석하는 과정 등에서는 다양한 종류의 데이터를 수집하고 분석해야 한다.

그림 2는 Genomics에서의 인공지능 적용 과정을 개념적으로 표현하고 있는데, 유전정보에서 확인된 변이가 어떤 질병을 일으키는가를 분석하는 것이 대표적이다. 유전정보를 기반으로 표현형(예: 신체 사이즈)을 예측하거나 특정 질병에 걸릴 확률을 추정하는 과정에서도 인공지능 기술이 활용된다. 이러한 분석결과들은 환자 상태를 기록한 영상의학 데이터나 wearable sensor 장치를 써서 평소에 수집한 데이터, 환자의 검진(치료) 히스토리 정보 등과 맞물려서 환자 개인에게 가장 적합한 맞춤형 치료 방법을 찾아내는데 활용될 수 있다.

신약 개발 분야에서도 인공지능 기술이 활용되고 있는데, 특정 질병을 치료하는데 활용할 수 있는 물질을 찾아내거나, 화합물의 합성 방법을 탐색하거나 약물의 특성 예측, 특정 약물의 새로운 활용 방안을 탐색하는 등과 같은 작업에 활용된다.

의료 분야에 따른 분류 [2]

(1) AI for living assistance

일상 생활에 도움을 주는 디바이스나 시스템을 만드는 분야의 목표는 사용자 또는 환자가 자신이 사용하는 디바이스나 시스템을 효율적으로 컨트롤하게 하는 것이다. 특히, 손을 자유롭게 활용할 수 없거나 몸의 특정 부위에 마비 증세를 겪는 환자들에게는 이러한 기술이 매우 중요한데, 사용자가 어떤 의도로 어떤 컨트롤을 하고자 하는 지 지능적으로 파악하는 과정에 인공지능이 중요한 역할을 하게 된다. 또한 사람의 상태를 전반적으로 추적하는 ambient intelligent system 관련 기술이나 fall-detection systems 에서는 다양한 센서 데이터로부터 사용자와 환경의 상태를 파악하는 인공지능 모듈이 가장 중요한 역할을 수행한다. 또한 일상생활에서 사용자와 지속적으로 상호작용하면서 인지(기억)재활을 돕는 인공지능 로봇도 연구되고 있다.

(2) AI in biomedical information processing

Clinical information은 대용량인 데다가 텍스트 뿐만 아니라 이미지, 영상정보 형태의 biomedical data가 복합적으로 연결되어 있다. 따라서 이러한 데이터로부터 지식을 추출, 병합하거나 정보간 충돌을 자동으로 찾아내고 해결하는 과정이 개발되면 과거에는 불가능했던 일을 할 수 있다. 환자 또는 보호자에게 적절한 정보를 제공하기 위한 QA시스템, 의료진의 행정업무 부담을 경감시켜주는 지능형 워크플로우 시스템 등도 이 분야에 포함시킬 수 있다.

(3) AI in biomedical research

의료 분야에서 새롭게 발표되는 방대한 양의 학술 연구자료들을 검색, 활용하는 과정은 많은 시간이 소요되는 어려운 작업이다. 따라서, 인공지능 기술을 기반으로 대용량의 학술 연구 자료들에 대한 탐색, 분석과 요약, 정리 작업을 자동적으로 수행하기 위한 시도가 이루어지고 있다. 코로나19 바이러스가 대유행의 단계에 접어들자, 인공지능 연구자들이 지금까지 축적된 연구결과들을 자동적으로 분석하려는 시도를 했던 것이 대표적인 예이다. 또한 실제로 수행하기 어려운 의학 실험과정을 시뮬레이션하는 시스템을 개발하는 과정에서도 인공지능 기술이 중요한 역할을 한다.

(4) Disease diagnostics and prediction

질병을 진단하거나 예측하는 과정에 인공지능을 적용할 수 있다. 유전정보에서 이상을 탐지하거나, ECG 데이터를 기반으로 심혈관 질환을 진단하거나 의료 영상 데이터에서 질병을 찾아내거나 암 환자의 생존율을 예측하는 등의 작업이 대표적이다. 이러한 과정은 의사의 진단과 치료과정을 크게 도울 수 있다.

인공지능은 의사를 대체할 것인가?

발전된 인공지능이 인간 의사를 대체할 것인가에 대해서는 크게 나누어 세가지 입장이 존재한다. 대체될 것이라는 입장, 대체할 수 없다는 입장, 그리고 공존하게 될 것이라는 입장이 그것이다.

인공지능이 인간을 대체할 것이라는 입장은 인공지능이 가진 대용량의 데이터 처리 능력과 지치지 않는 학습 및 모니터링 능력, 그리고 사람을 활용하는 것보다 비용이 적게 들 것이라는 예측을 근거로 한다. 물론, 의사와 환자와의 관계는 신뢰와 공감(empathy)의 영역에 속하는 문제이지만, 이것마저도 인공지능이 흉내낼 수 있을 것이며, 환자들은 공감보다는 정확하고 빠른 진단을 더 원할 것이라는 시각이다. 인공지능이 진료를 할 때에는 의사가 진료할 때와는 달리 환자가 부끄러움을 느끼지 않을 것이라는 점도 제시된다. 최종적으로는 인간 의사가 인공지능을 돕는 역할을 하게 될 것이라는 주장도 있다.

이와 달리, 인공지능이 인간 의사를 대체할 수 없다는 입장에서는 의료 서비스가 단순히 데이터를 통해서만 이루어지지 않는다는 점을 내세운다. 진단과 치료과정에는 임상적 맥락(clinical context)이 큰 역할을 하게 되는데, 인공지능이 인간처럼 맥락과 상황을 파악할 수는 없다고 주장한다. 인간 의사는 환자를 인격체로 대하며, 환자의 삶과 환경에 대한 전반적인 이해와 통찰을 기반으로 신뢰와 책임감, 헌신이 바탕이 되는 의료 서비스를 구현할 수 있으나 인공지능은 그렇지 못할 것이라는 주장도 있다. 또한 기술적인 지식과 정량적인 수치만으로 환자의 상황을 설명할 수 없는 경우도 많으며, 때로는 부작용이나 위험성을 알면서도 치료방법이나 약물을 선택해야 하는 경우도 있는데 인공지능이 이런 상황에서 효율적인 판단을 할 수 있을 지에 대한 의문도 제기한다. 더 나아가, 진료 과정에는 환자의 질문을 들어주고 환자의 심정을 이해했다는 느낌을 주는 것도 포함되는데, 이러한 human factor를 인공지능을 통해 구현하는 것은 불가능하다고 생각한다. 또 다른 관점에서는, clinical workflow 및 EHR 시스템을 인공지능 기술과 완벽하게 연동시키기 어렵다는 주장도 있다. [4]

공존의 입장 [5]에서는 서로의 한계를 인정하고 보완하는 시나리오가 최선이라는 관점을 가진다.

그림 3. 여러 단계의 자동화 개념 (figure from [5])

그림 3은 의료 인공지능의 활용 수준을 ‘자동화’ 수준으로 간주하고, 무인자동차의 자동화 수준과 비교 설명하고 있다. 그림에서는 완전한 자동화는 불가능하다고 판단하고 있다. 인공지능이 인간보다 잘할 수 있는 일들이 분명히 존재하지만 인공지능을 구현하는 과정에서 생길 수 있는 bias와 인공지능에 의해 발생할 수도 있는 오류가 불러일으킬 문제의 치명성을 고려할 때, 의료 인공지능의 최종 목적은 완전한 자동화가 아니며, 조건적(conditional)자동화에 해당한다는 주장을 하고 있다. 높은 수준의 자동화 또는 완전한 자동화는 불가능하며, 항상 사람에 의한 검토와 감시가 필요하다는 관점이다. 인공지능은 항상 수정되고 검증되어야 하기 때문에 인공지능에 의해 의사가 완전히 대체될 것이라는 생각은 인공지능에 대한 지나친 기대와 환상에 의해 생겨난 것이라는 생각이다. 연구개발 과정에서 인공지능이 기록한 99%의 정확도가 임상에서도 그대로 나타날 것이라는 생각도 잘못된 것이며, 대규모 데이터를 기반으로 한 판단이 개별 환자의 치료과정에서도 항상 최상의 결과를 낼 것이라는 생각도 틀린 것이라는 주장이다.

마치며…

인공지능이 실제 의료현장에 투입되는 과정에서는 기술 이외의 조건들 – 법적 환경과 경제, 사회적 조건, 윤리적 고찰, social acceptance 등 – 도 인공지능의 활용을 촉진하거나 더디게 할 것이다. 인공지능은 분명히 의료 현장에 조금씩 나타나고 있으며, 환자를 직접 다루는 일보다는 정보와 데이터를 다루는 일에서 먼저 사람을 대체하게 될 것이다. 그리고 예방적이고 참여적인, 그리고 개인화된 (personalized) 의료 기술을 개발하는 과정에서 공헌할 여지는 충분하다. 따라서 인공지능을 완전히 거부하고 전혀 활용하지 않으려는 태도를 보이는 사람은 의료 분야에서 자신의 직업을 잃게 될 지도 모른다. 그러나 한편으로는, 의료 인공지능 기술은 실제 임상 환경에 차근차근 녹아들어가야 하며, 그 과정에서 반드시 철저한 검증 과정을 거쳐야 한다는 점도 중요하다. 또한 검증 과정이 끝난 기술이라 할 지라도, 이러한 기술이 의료진을 완전히 대체할 것이라는 생각을 하는 것은 기술에 대한 지나친 환상에 의한 오판일 수 있다. 의료 과정이란 의료진과 환자의 상호작용이며, 의료현장에서는 의료진의 지식과 경험, 판단력, 통찰력, 그리고 신속하고 정확한 행동이 반드시 필요하다는 사실에는 변함이 없을 것이기 때문이다.

References & Further Readings

카테고리: Trends of Data, Machine Learning, A.I. | 댓글 한 개

서로 다른 정보를 결합하기 위한 Feature-wise transformations

클릭 >> Hello, world !! (from ShadowEgo)

CLEVR 데이터셋/태스크[1]는 신경망의 멀티모달 인식과 논리적 문제 풀이 능력을 시험하기 위해 제안되었다. 아래 예시 문제와 같이 사진 한 장과 자연어로 쓰여진 질문이 주어지고 주어진 질문에 대한 정답을 찾는 문제이다. 영상에 대한 이해, 자연어에 대한 이해, 그리고 약간의 논리적 사고도 필요한 문제라고 할 수 있다. (그림 1)

그림 1. CLEVR examples and FiLM model answers.

이번 포스트에서는 이러한 문제를 풀기 위해 서로 다른 modality (여기에서는 자연어와 이미지)의 결합 관점의 새로운 모델을 제안한 논문을 소개한다 [2]. 이 논문에서는 Feature-wise Linear Modulation (FiLM) 이라는 새로운 특징 결합 구조를 제안하였으며, CLEVR 데이터셋에서 사람 보다 높은 정답률을 보였다. FiLM은 신경망이나 문제의 종류에 상관없이 적용할 수 있는 아주 일반적인 구조로 그 활용도가 높다.

CLEVR 문제에서는 이미지와 자연어의 서로 다른 modality가 존재한다. 두 modality 각각에 대해서는 이미 활발히 연구가 이루어져왔으므로, 각 modality를 따로 분석하는데에는 큰 어려움이 없다. 그러나 CLEVR 문제에서 중요한 것은 두 modality 정보를 어떻게 결합하는가이다. 가장 먼저 떠올릴 수 있는 것은 문장을 RNN 등을 통해 저차원의 특징 벡터로 변환하고, 이와 유사하게 이미지도 CNN을 통해 저차원의 특징 벡터로 변환한 뒤, 이 두 벡터를 결합해서 답을 찾는 또다른 네트워크를 사용하는 것이다. 이것은 CLEVR 문제를 제안한 저자들이 하나의 베이스라인으로 제시한 방법이었고, 네트워크 구조가 효율적이지 못하고 성능 또한 만족스럽지 않았다.

그림 2. The FiLM generator (left), FiLMed network (middle), and residual block architecture (right).

이 논문[2]에서는 서로 다른 feature들을 결합하기 위해서 과거에 사용했던 element-wise product, concatenation 등과는 다른 새로운 방법 – Feature-wise Linear Modulation (FiLM) – 을 제시하였다. FiLM의 기본적인 아이디어는 그림 2에서와 같이 영상으로부터 정답을 찾는 CNN 네트워크와 질문을 해석하는 RNN 네트워크를 활용하여, RNN으로부터 나온 정보를 바탕으로 CNN 중간 레이어들에 대해 feature transformation을 수행하는 것이다.

그림 3. A single FiLM layer for a CNN.

Feature transformation은 scaling하는 gamma와 bias를 주는 beta로 구성된다. 즉, 중간 feature map에 대해서 일정 값을 곱하고 더해서 feature map에 변화를 주는 것이다. (그림 3) 만약 gamma가 1 이고 beta가 0일 경우 FiLM이 적용되지 않은 네트워크와 완전히 동일하다.

표 1. CLEVR accuracy (overall and per-question-type) by baselines, competing methods, and FiLM.

이것은 간단해 보이지만 매우 효과적으로 쓰일 수 있다. 영상과 질문을 각각 처리한 후 feature concatenation을 취하는 CNN+LSTM 기반의 베이스라인은 52.3%의 정답 정확도를 보였는데, ResNet의 4개 단계에 FiLM을 적용할 경우 무려 97.7%의 정확도를 보여주었다. (표 1)

그림 4. Visualizations of the distribution of locations which the model uses for its globally max-pooled features which its final MLP predicts from.

그림 4는 FiLM이 적용된 네트워크가 이미지에서 focus 하는 부분이 질문에 따라 어떻게 달라지는지를 보여준다. 질문에서 지칭하는 물체에 맞게 CNN이 집중적으로 보는 부분이 달라진다.

그림 5. t-SNE plots of (γ, β) of the first (left) and last (right) FiLM layers of a 6-FiLM layer Network.

그림 5는 ResNet의 6개 위치에 FiLM 을 삽입할 경우, 첫 레벨의 FiLM 파라미터(gamma & beta)와 마지막 레벨의 FiLM 파라미터가 어떻게 달라지는가 보여준다. 첫 단계에서는 color와 같은 저차원의 특징에 대해서 파라미터가 유사하게 나타나고, 마지막 단계에서는 equal과 같이 좀 더 고차원의 개념에 대해서 비슷한 파라미터 분포를 나타낸다.

또한, Word embedding 연구에서 보여준 벡터 연산(예: “King” – “Man” + “Woman” = “Queen”)을 FiLM 파라미터들에 대해서도 적용해보았다. 예를 들어 “How many cyan spheres are there?” + “How many brown cubes are there?” − “How many brown spheres are there?” 과 같이 gamma, beta 파라미터를 조작하였을 때 Cyan cube 가 몇개인지에 대한 정답을 얻을 수 있었다.

이 외에도 논문[2]에서는 gamma와 beta의 분포, gamma와 beta의 기여도, FiLM 삽입 위치 변화 등과 관련한 다양한 실험 결과를 설명하고 있다. 또한 Distill.pub에서는 본 논문 결과를 애니메이션으로 시각화한 자료와 다른 conditioning 기법을 비교한 자료를 볼 수 있다[3].

FiLM은 간단하면서도 강력한 conditioning 방법으로, CLEVR와 같은 QA 문제뿐만 아니라 분류, 생성, Segmentation 등과 같은 다양한 문제에 적용할 수 있는 장치로 그 활용도가 높을 것이다.

References

  • [1] Johnson, J., Hariharan, B., van der Maaten, L., Fei-Fei, L., Lawrence Zitnick, C., & Girshick, R. (2017). Clevr: A diagnostic dataset for compositional language and elementary visual reasoning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2901-2910).
  • [2] Perez, E., Strub, F., de Vries, H., Dumoulin, V., & Courville, A. C. (2018, January). FiLM: Visual Reasoning with a General Conditioning Layer. In AAAI.
  • [3] Dumoulin, V., Perez, E., Schucher, N., Strub, F., Vries, H. D., Courville, A., & Bengio, Y. (2018). Feature-wise transformations. Distill, 3(7), e11.
카테고리: Trends of Data, Machine Learning, A.I. | 댓글 남기기

Social Science와 Machine Learning의 만남 

클릭 >> Hello, world !! (from ShadowEgo)

Inforience 대표가 KAIST 소속 시절에 연구한 내용을 바탕으로 2013년에 발표한 논문 “Mining Social Relationship Types in an Organization using Communication Patterns” (CSCW 2013)은 Social Science 관련 문제를 Machine Learning 으로 풀어낼 수 있다는 사실을 보였습니다. 

특히, 이 논문은 실험 과정에서 실제 환경에서 직접 수집한 데이터를 활용하였는데, 사람들의 Physical Activity를 측정한 데이터를 포함하였으므로, Ambient Intelligence와도 관련되어 있습니다. Ambient Intelligence의 개념은 이 논문을 소개한 글(사회적 관계의 타입을 커뮤니케이션 데이터를 활용해서 측정할 수 있을까?)에서 언급한 아래의 문장이 암시적으로 표현하고 있습니다.

“인공지능을 가진 Big Brother가 있다면, 그리고 그것이 사람들의 행동을 항상 관찰, 분석한다면 무엇이 가능해질까? 행동에 의해 기록되는 데이터가 충분히 수집될 수 있고 데이터가 나타내는 패턴을 제대로 찾아내어 이해할 수 있다면 관찰하고 분석하는 것은 어렵지 않을 듯 하며, 최근의 인공지능, 머신러닝 분야의 발전 속도를 고려하면 다양한 응용들이 가능해지는 것도 그리 먼 이야기처럼 느껴지지 않는다. 물론, 무엇인가가 나를 계속 주시하고 있다면 꽤나 꺼림칙할 것 같지만.”

2020년에도 유명 저널의 논문들이 이 논문을 인용하였는데, 대표적인 것들은 다음과 같습니다.

  • “An Ambient-Physical System to Infer Concentration in Open-plan Workplace”, IEEE Internet of Things Journal, May 2020
  • “An optimal service selection approach for service-oriented business collaboration using crowd-based cooperative computing”, Applied Soft Computing, Volume 92, July 2020
  • “Data-Driven Computational Social Science: A Survey”, Big Data Research, Volume 21, September 2020
  • “Crowd-Based Cooperative Task Allocation via Multicriteria Optimization and Decision-Making”, IEEE Systems Journal, September 2020

추후에는 Social Science 분야의 연구에서 Machine Learning을 적극적으로 활용한 케이스들도 차차 소개할 예정입니다.

카테고리: Inforience NEWS, Tech. of Inforience, Trends of Data, Machine Learning, A.I. | 댓글 남기기