‘새로운 세계를 여는 열쇠, 실리콘밸리 AI를 만나다’ 웨비나 현장 리포트 (2)
- 헬스케어, 교육, 금융 등 전방위 산업에 접목되고 있는 AI 기술 -
- 실리콘밸리 AI전문가가 전하는 최신 AI 기술 트렌드와 앞으로의 전망 –
- 해당 영상 다시보기(https://www.youtube.com/channel/UC_2mC7G4_8J2ifNositnktw) -
1부에서는 프리세션 – AI가 가져올 새로운 미래, 미국 AI 동향과 전망 발표 내용을 소개했다. 이어 2부에서는 메인세션 강연 내용을 소개하고 시사점을 고찰해봤다. 메인세션 강연 중 신상민 팀장의 발표 내용은 Pinterest사 내부 규정에 의해 공개할 수 없음을 미리 밝힌다.
웨비나 개요
자료: KOTRA실리콘밸리 무역관
메인세션 강연 1: Impacting New Segments with Machine Learning Startups!
자료: KOTRA실리콘밸리 무역관
메인세션의 첫 번째 강연은 헬스케어 분야 AI 스타트업인 Alpha Health에서 AI Technical Laed로 AI기술 연구 개발을 이끌고 있는 김병학 박사의 “Impacting New Segments with Machine Learning Startups!” 발표로 진행됐다. 김병학 박사는 Alpha Health에 합류하기 전 근무했던 온라인 교육 플랫폼 Udacity에서 진행한 LumiereNet프로젝트를 소개하는 것으로 발표를 시작했다.
Udacity와 같은 온라인 교육 기업의 경우 강의 영상을 제작할 때 녹음, 편집, 수정 등에 많은 비용과 시간, 노력이 들어가는데, 특히 품질 높은 영상을 제작하기 위해서는 강사를 현장에 초청하거나 카메라 혹은 녹화 장비를 보내주어야 함은 물론 이를 다시 편집하고 내재화까지 고려해야 한다. 이에 따라 Udacity에서는 머신러닝 시스템으로 비싼 비디오 생산 파이프라인을 자동화하려는 움직임이 시작되었고, 그 결과 강사의 목소리를 녹음한 오디오 내레이션만으로 강사가 강의를 하는 영상을 만들어내는 ‘LumiereNet 프로젝트’가 탄생하게 되었다. LumiereNet 프로젝트의 결과를 담은 논문은 미국 스타트업 미디어 벤처비트를 시작으로, 나이지리아, 중국, 독일, 스페인, 러시아 그리고 한국의 여러 미디어에서 주목을 받았다.
김병학 박사는 Alpha Health에는 2019년 5월에 합류했는데, 불안정하고 예측할 수 없는 초기 스타트업에 합류하는 것은 고민되는 일이었지만 미국의 헬스케어 시스템의 문제점들 중 몇 가지를AI로 해결하는Alpha Health의 비전을 보고 합류하기로 결정했다고 전했다.
미국에서 개인 재정파산 원인 1위는 병원비로, 병원비를 갚지 못 하는 많은 사람들이 경제적 위기를 경험하고 있다. 미국 병원비가 비싼 데에는 지난 20년 동안 모든 진료비의 보험 청구작업을 사람이 해왔을 뿐만 아니라, 특히 미국의 의료 시스템이 하나의 의료보험 체계를 가진 한국과 달리 다양한 보험회사가 수 많은 상품, 조건과 함께 얽혀 있어 그 절차가 매우 복잡하고 비효율적으로 설계되어 있기 때문이다. 그는 Alpha Health에 합류하자마자 병원의 청구시스템을 머신러닝으로 자동화하여 병원의 생산성을 높이는 동시에 병원 재정 흐름에 도움을 줌으로써 환자의 병원비를 낮추기 위한 프로젝트에 돌입했고, 그 첫 결과를 ‘딥 클레임(Deep Claims)’이라는 이름의 논문으로 발표했다.
이어 김병학 박사는 CB Insight가 가장 최근(올해 8월) 발표한 ‘Digital Health Startup 150’ 리스트를 토대로 헬스케어 분야에서 눈에 띄는 4가지 트렌드를 소개했다. 첫 번째는 ‘Telehealth’로 150개 회사 중 약 41%가 원격진료 서비스를 제공하고 있고, 두 번째는 ‘Drug R&D’로 신약 개발을 다루는 회사이다. 세 번째는Alpha Health가 포함된 ‘Healthcare Costs Optimization’ 분야이다. 환자와 병원 및 의사, 보험사 등 의료 시스템 이해관계자들을 우선순위로 두고 성장하고 있는 회사들이다. 마지막 트렌드는 ‘Mental & Women’s Health’ 회사들로 COVID-19 상황 속에서 Teletherapy나 여성의 불임 진단 및 치료를 도와주는 회사이다.
통합 자동화 솔루션 강연 화면
자료: KOTRA실리콘밸리 무역관 직접 촬영
Healthcare Costs Optimization분야에서 병원을 중점에 둔 Alpha Health가 현재 제공하는 병원 행정 자동화 시스템은 자율주행 기술처럼 1) 병원 행정 오피스 직원들의 업무 흐름을 보고, 2) AI 시스템이 이를 빠르게 학습한 후, 3) 훈련된 AI 성능을 사람이 관리하는 통합 자동화 솔루션(Unified Automation Solution)으로, 각 병원 필요에 따라 자율주행 1단계부터 5단계 같이 각기 다른 솔루션을 제공하고 있다고 설명했다. Alpha Health는 올해 6월 실리콘밸리 정상급 VC인 안데레센 호로위츠(Andreessen Horowitz)가 참여한 시리즈A 투자 유치를 했다.
그는 스타트업에서 일하는 것에 대해 “사실 스타트업은 힘들다. 90% 이상의 스타트업은 망한다고 보는게 맞다. 또 초기 스타트업에서 일과 삶의 균형은 정말 어렵고 금전적 보상도 옆으로 밀어둬야 할 때가 많다”고 전하며, 머신러닝 기반 스타트업이 기존의 소프트웨어 스타트업과 다르게 특별히 더 힘든 점에 대해 설명했다.
머신러닝 스타트업을 설명하는 강연 화면
자료: KOTRA실리콘밸리 무역관 직접 촬영
첫째, 스타트업에서 머신러닝을 한다는 것은 수학 또는 머신러닝 솔루션에 앞서 흥미롭고 새로운 질문을 하거나, 아니면 새로운 방식으로 오래된 문제를 바라보는 Problem-Creator로서의 역량이 필요하다. 대부분의 사람들이 이미 알려진 문제를 기술적으로 해결하는 Problem-Solver로서의 교육을 많이 받아왔는데, 머신러닝 스타트업에서는 어떤 새로운 문제를 풀지, input과 output을 결정하고, 어디서 어떻게 이 문제에 필요한 데이터를 모을 것인지부터 생각해야 한다. 둘째, 산업 분야와 범위에 따라서 Proof of Concept (PoC)에서 Production까지의 격차가 큰 경우도 많이 보게 된다. Healthcare Clinical 분야가 대표적인 예이다. 그래서 머신러닝 시스템은 첫 번째 버전이 가장 쉽고, 그 이후로부터는 Edge Case와 Scaling Challenge때문에 점점 더 복잡해진다고들 한다. 머신러닝 시스템이 높은 수준의 정확도로 동작하기 위해서는 사람을 필요로 하는 ‘Human in the loop’이 필수적인데, 이와 함께 모델 트레이닝, Inference, 클라우드 운영 비용도 상당하기 때문에 전통적인 SaaS회사보다 수익 마진이 10% 이상 줄어들 수 밖에 없는 구조다.
김병학 박사는 “그러나 스타트업이 망한다는 건 비지니스가 실패하는 것이지 스타트업에 몸 담았던 개인은 두 가지 면에서 성공을 경험할 수 있다”고 강조했다. 우선 스타트업에선 좋은 동료와 사람을 만날 수 있다. 실리콘밸리에서 크고, 중요한 기회는 사람을 통해서 나오는 경우가 많다. 특히 스타트업에서 함께 일했던 사람들을 통해 계속해서 다음 기회가 연결 되는 경우가 다반사다. 두 번째 성공은 개인의 성장이다. 스타트업은 회사가 빠르게 성장하는 만큼 개인의 성장에 필요한 시간을 압축시킨다. 스타트업에서 일했던 사람들은 중요한 문제에 새로운 도전을 해보았기 때문에 누구나 함께 일하고 싶어하는A급 플레이어로 성장하게 된다.
마지막으로 그는 이직을 생각하고 있는 사람들을 위해 “산업 군, 레벨, 직급, 스타트업 단계를 각각 변수라고 한다면, 이직할 때는 한 번에 하나의 변수만 바꾸는 등 변화의 숫자를 최소화 하는 게 좋다”고 조언했다. 또한 직장과 커리어 등으로 고민하는 사람들을 위해 스탠포드 교수이자 온라인 교육회사 Coursera 창업자인 앤드류 응(Andrew Ng)의 말을 소개했다. “스스로에게 물어보십시오. 현재 여러분이 하고 있는 일이 정말 성공한다면, 당신은 다른 사람들을 돕게 될까요? 그렇지 않다면 다른 일을 계속 찾아보세요. 그렇지 않으면 당신은 잠재력을 최대한 발휘하지 못한 삶을 살게 됩니다.” 김병학 박사는 “미래를 직접적으로 바꿀 수 있는 머신러닝 스타트업에 함께 도전하는 분들이 더 많았으면 좋겠다”고 전하며 강연을 마쳤다.
메인세션 강연 2: AI & Data – XL8’s Story
자료: KOTRA실리콘밸리 무역관
메인 세션의 마지막 강연은 구글에서 다수의 AI 프로젝트를 이끈 경험으로 기계 번역(Machine Translation) 스타트업인 XL8 Inc.를 창업, 성공적으로 이끌고 있는 정영훈 대표의 ‘AI & Data – XL8’s Story’ 발표로 진행됐다. 자연어처리, 즉 NLP 분야의 전문가인 정영훈 대표는 AI의 개념부터 AI의 세 가지 핵심 요소인 데이터, 컴퓨팅 파워, 모델과 아키텍쳐에 대해 설명하고, 나아가 기계 번역에 대한 창업 스토리를 공유했다.
정영훈 대표는 일상 속에서 흔히 접할 수 있는 다양한 분야의 AI 사례를 들며 발표를 시작했다. 최근 가정에서 많이 사용되고 있는 어시스턴트 제품들, 특히 구글 홈이나 아마존의 알렉사 같은 스피커와 자율주행차 웨이모(Waymo), 구글의 검색 엔진 등을 AI가 적용된 대표적인 사례로 꼽았다. 그의 전문 분야인 NLP와 관련된 사례로는 이메일 자동완성기능과 챗봇을 꼽았다.
이어 정영훈 대표는 AI와 머신러닝의 정의에 대해 설명했다. 사람이 아닌 대상이 사람과 비슷한 지능적인 행위를 하게 되면 모두 AI로 볼 수 있는데, 프로그래밍으로 짰던 시스템도 넓은 의미에서는 AI라고 할 수 있다고 전했다. 그 중에서도 통계적인 모델을 만들고 특징을 따내어 결과를 내는 것을 머신러닝이라 하며, 그보다 더 작은 분야에 딥러닝이 있는데 최근 AI에서 머신러닝 과 딥러닝이 크게 성장할 수 있게 된 배경에 대해서도 언급했다. 그는 “2000년 대에 들어서 분산 시스템에 대한 연구가 많이 일어나면서 데이터 저장 공간(Storage)을 연결해서 사용하는 것이 가능해졌고, 이로 인해 빅데이터라는 개념이 생겨나게 되었다”고 설명하며, 빅데이터가 AI 발전에 터닝포인트가 되었다고 밝혔다. 또 다른 배경으로는 클라우드 서비스가 많아지면서 컴퓨터를 보유할 필요 없이 데이터 처리가 가능해진 점을 들었다. 특히 GPU, CPU 등 데이터 프로세싱에 적합한 모듈이 나오게 되면서 AI가 점점 더 발전할 수 있게 되었고, 이렇게 빅데이터와 컴퓨팅 파워가 뒷받침되면서 어떻게 아키텍쳐를 설계하고 어떻게 트레이닝을 할 것인지, 또는 어떤 옵티마이저를 쓸 것인가와 같은 딥러닝에 대한 연구가 활발히 이루어질 수 있게 되어 최근 10년 사이에 많은 사람들이 딥러닝 분야에 뛰어들게 되었다고 전했다.
머신러닝의 핵심 요소 강연 화면
자료: KOTRA실리콘밸리 무역관 직접 촬영
그 다음으로는 머신러닝에서 가장 중요한 세 가지 핵심 요소인 빅데이터, 컴퓨팅 파워, 딥러닝 아키텍쳐 각각에 대해 살펴봤다. 먼저 빅데이터는 머신러닝에서 굉장히 중요한 요소로, 데이터가 없으면 머신러닝을 할 수 없다. 그는 “데이터가 충분치 않은 상황에서 연구를 해야 하는 경우에는 오픈 데이터셋을 사용할 수 있다”고 하며, “오픈 데이터셋을 사용하면 동일한 데이터셋을 사용하기 때문에 다른 사람들이 만든 아키텍쳐와 성능 비교가 용이하다는 장점이 있다”고 밝혔다. 하지만 단점도 존재한다. 바로 데이터의 질이 좋지 않다는 점이다. 정영훈 대표는 이에 대해 “시간과 노력, 비용을 들여서 큐레이션(Curation)한 데이터가 아니기 때문에 이 데이터를 가지고 남들과 차별화 된 서비스를 하겠다고 생각한다면 크게 도움이 되지 않을 수 있다”고 전했다. 그럼에도 불구하고, 오픈 데이터셋은 ‘스탠다드’로서의 역할을 하기 때문에 성능 평가에 사용할 수 있다고 덧붙였다. 그는 각 분야별로 사용할 수 있는 오픈 데이터셋이 많은데, 특히 NLP 분야의 경우 유럽 정부, UN 회의록은 동시에 여러 가지 언어로 쓰게 되어 있어 같은 의미를 가진 문장과 단락들이 여러 언어로 저장되어 있기 때문에 번역 데이터로 사용하기 좋다고 귀띔했다.
그렇다면 데이터의 경우 양이 많은 것이 중요할까 질이 좋은 것이 중요할까? 이에 대해서 정영훈 대표는 “데이터 양이 많은 것이 중요한 분야가 있고, 데이터 퀄리티가 중요한 분야가 있다”고 언급했다. 그는 “구글 번역기는 각 언어 당 문장 7억 개를 사용하는데, 10개 중 3개 정도만 맞게 번역이 되는 수준이고, XL8의 경우 구글의 100분의 1에 해당하는 데이터를 사용하고도 10개 중 7개가 맞게 번역이 된다”면서 이 예시에서는 데이터 양보다는 퀄리티가 중요하다고 볼 수 있다고 했다.
데이터에 대해 설명하는 강연 화면
자료: KOTRA실리콘밸리 무역관 직접 촬영
한편, 데이터 퀄리티도 중요하지만 데이터가 본인이 사용하고자 하는 도메인에 적합한지도 중요하다고 강조했다. 번역의 경우 UN회의록 자료나 영화 자막 자료 등 실제로 도메인에 따라 성능이 굉장히 다르게 나타난다고 한다. 영화나 미디어의 경우도 스포츠, 드라마, 예능 등의 여러 가지 장르에 따라 성능이 다르게 나와 문서 번역시에는 문서 데이터를 주로 사용하는 것이 더 적합하다고 전했다. 데이터의 대표성도 중요하다. 일반적인 케이스를 얼마나 잘 커버하느냐, 가끔씩 코너 케이스도 커버할 수 있느냐가 중요한데, 번역의 경우 일반적으로 날 것으로 후보정을 많이 거쳐 크게 문제가 되지 않으나, 검색 엔진의 경우 원 데이터가 사용되는 경우가 많기 때문에 바이어스(Bias) 문제가 꾸준히 제기되어왔다고 설명했다. 데이터 바이어스가 존재하는 경우에는 편향된 결과가 나올 수 밖에 없으므로 데이터 퀄리티에 있어 매우 중요한 포인트다.
컴퓨팅 파워에 대해서는 중요하지만 가장 중요한 요소는 아니라고 강조했다. 클라우드 서비스가 워낙 좋아져 비용만 지불할 수 있으면 컴퓨터를 보유하고 있지 않아도 되기 때문이다. 클라우드 서비스를 제공하는 기업들로는 아마존, 구글, Microsoft, IBM 등 여러 가지가 있는데, 가격과 기능을 비교해보고 자신에게 잘 맞는 서비스를 선택하면 된다고 조언했다. 일부 기업의 경우 서버를 직접 사서 쓰는 경우도 있는데, 클라우드 서비스보다는 가격이 낮기 때문에 그렇게 하는 것이지만 직접 유지 보수에 신경 써야 한다는 단점이 있다고 설명했다. 모델과 아키텍쳐에 대해서는 대학교나 테크 기업과 같이 큰 기관에서 굵직한 플랫폼들이 많이 개발되고 있다고 전했다. 특히 NLP분야에서는 구글이 발표한 ‘트랜스포머(Transformer)’라는 플랫폼을 아직도 사용하고 있다고 했다.
컴퓨팅 파워가 중요하지 않다면, 데이터와 모델 중에 무엇이 더 중요할까? 정영훈 대표는 “사실 둘 다 중요하다”고 답하며, 데이터를 재료로 모델은 레시피로 비유했다. ‘맛집’이 되기 위해서는 좋은 ‘재료’와 좋은 ‘레시피’ 모두 필요한데, 재료만 좋아서는 맛집이 되기 어렵다. “새로운 재료를 공급하지 않거나, 재료가 시대에 맞지 않거나 신선도가 점점 떨어지면 손님이 점점 줄어들게 되는 것처럼, 좋은 데이터로 시작해서 자신만의 모델을 만들어 나가는 것이 좋은 비즈니스 모델이 될 것”이라고 밝혔다.
XL8의 특징에 대해 설명하는 강연 화면
자료: KOTRA실리콘밸리 무역관 직접 촬영
아울러 그는 XL8 Inc. 창업 스토리도 공유했다. 애플, 퀄컴, 구글 출신 엔지니어들로 구성된 XL8은 두 가지 특징이 있다. 하나는 특정 도메인에 맞는 데이터를 사용하여 정확도를 높였다는 점이다. 데이터를 얻기 쉽지 않은 부분에 대해 정영훈 대표는 “클라이언트 회사에 서비스를 제공하고 그로부터 데이터를 제공 받아 서로 양방향으로 도움이 되는 비즈니스 모델을 만들어서 운영하고 있다”며, “실제로 양질의 데이터를 제공받아서 굉장히 좋은 성능을 보이고 있다”고 전했다. 다른 하나는 사람이 개입하여 기계 번역의 질을 계속해서 향상시키고 있다는 점이다. 말이라는 것은 중의적인 경우가 많고, 번역 자체는 맞을 수 있지만 전체 문맥 상에서는 맞지 않는 경우가 많다. 존댓말과 반말에 대한 번역도 마찬가지다. 그는 “기계 번역의 오역에 대해 사람이 고쳐주는 것을 모델에 지속적으로 반영해 제대로 번역될 수 있도록 개발 중에 있다”고 밝혔다.
마지막으로 그는 왜 번역을 택했냐는 질문에 “번역은 굉장히 재밌는 분야이고, 답이 확실히 나와있지 않은 분야이기 때문에 연구를 많이 하고 있는 부분”이라고 답했다. 아울러 “AI 회사로서 성공하기 위해서는 모델도 중요하지만 데이터도 중요하다. 데이터가 어느 정도 준비되면 좋은 모델을 개발해야 한다”며, 다시 한 번 데이터와 모델에 대한 중요성을 강조하며 발표를 마쳤다.
시사점
국내에서는 올해 들어 인공지능학과가 신설되는 등 비교적 최근에서야 AI기술이 주목 받기 시작하였다. 스타트업의 메카로 불리는 실리콘밸리는 AI 관련 스타트업 역시 많이 배출하고 있어, AI 신기술 동향을 파악하는데 필수적인 지역으로 손꼽힌다.
“AI 관련 최신 기술 동향을 어떻게 따라잡을 수 있느냐”는 청중의 질문에 정영훈 대표는 최근 논문들 참고할 것을 추천했다. 특히 컨퍼런스에서 발표되는 논문을 주로 살펴보는 것도 도움이 된다고 조언했고, 본인의 경우 비록 코로나19로 인해 온라인으로 전환되긴 하였으나 NLP와 관련된 학회에 계속해서 참석 중이라고 밝혔다.
“코로나19로 인한 실리콘밸리 업계 변화나 VC 관련 변화가 있었는가”에 대한 질문에 김병학 박사는 “코로나19 전과 후는 모든 것이 확실히 바뀌었다. 특히 VC의 경우 코로나19 이전에는 시장 규모나 회사 성장 가능성을 30, 팀 구성원에 70 정도로 평가했으나, 현재는 50 대 50으로 정도로 평가한다고 전해 들었다. 아무래도 팀 구성원을 직접 만나보기 어렵기 때문인 것으로 보인다”고 전했다.
코로나19로 인해 AI는 한층 더 성장하여 포스트 코로나 시대를 이끌 혁신의 동력이 될 것으로 전망된다. 국내 AI 기업과 스타트업에서는 지속적으로 고객의 니즈를 파악하고 새로운 서비스와 제품을 개발하여 글로벌 시장에서의 기업 경쟁력을 제고해야 할 것이다. 또한, 정부와 기업, 학계 간의 긴밀한 협력을 통해 인재 양성과 함께 AI 강국으로 발돋움 해야한다.
자료 KOTRA실리콘밸리 무역관 자료 종합