인터뷰

사람 닮은 ‘AI 아나운서’, 직접 만들었죠

딥브레인AI 딥러닝팀 박성우 연구원

2020. 08. 21 (금) 17:13 | 최종 업데이트 2022. 02. 18 (금) 11:21
인공지능(AI) 아나운서라고 들어보셨나요? 영상에서 아나운서의 얼굴 표정, 입 모양 등을 추출해 딥러닝 기술로 합성한 것인데요. 머니브레인은 AI 합성을 통해 아나운서 뿐만 아니라 문재인 대통령도 구현해내면서 화제를 모은 바 있습니다. (영상 링크) AI 영상 합성 기술은 중국, 미국과 함께 전 세계에서 3곳만 성공한, 기술적 난이도가 높은 딥러닝 기술입니다. 특히 머니브레인의 인공지능 영상 합성 기술은 중국에 비해 자연스러운 얼굴 움직임을 구현하고 별도의 영상 보정 없이 순수 딥러닝 기술만으로 구현한 최초의 기술이라고 하는데요.

성우님은 머니브레인 딥러닝팀에서 인공지능 영상 합성 솔루션을 직접 연구하고 계십니다. 세계적인 기술을 자랑하고 있는 머니브레인 딥러닝팀이 어떻게 일하고 있는지, 인터뷰를 통해 그 현장을 엿보았습니다.
이미지
안녕하세요, 자기소개 부탁드립니다.
안녕하세요, 딥러닝 영상 학습 및 딥러닝 인프라 영역에서 일하고 있는 머니브레인 딥러닝팀 박성우 연구원입니다.
머니브레인 딥러닝팀은 어떤 일을 하나요?
머니브레인이 제공하고 있는 서비스와 관련한 딥러닝 모델들을 연구하고 있는 팀이라고 생각하시면 되는데요. 음성, 영상 합성을 위한 딥러닝 모델과 이미지 또는 영상이 합성된 것인지를 감지하는 딥러닝 모델을 개발 및 학습하고 있어요.
머니브레인은 인공지능 영상 합성 솔루션으로 특히 언론의 주목을 많이 받았는데요. 머니브레인의 인공지능 음성∙영상 합성 솔루션을 소개해주신다면요?
원하는 인물이 내가 원하는 문장을 실제로 말하는 것처럼 자연스럽게 영상으로 만들 수 있어요. 웹 UI 또는 API를 통해서 누구나 쉽게 합성할 수 있죠.
이미지
사진=머니브레인 기계실
어떤 과정을 통해 솔루션이 제작되나요? 간단하게 설명해주시면 구직자들의 이해를 도울 수 있을 것 같습니다.
머니브레인의 솔루션은 딥러닝 과정을 통한 학습을 필요로 해요. 당연히 딥러닝을 학습하기 위한 데이터를 확보하는 것이 우선입니다.

데이터는 주로 선정된 모델 분을 직접 촬영해서 확보합니다. 준비된 스크립트를 실제로 말하듯이 읽으면서 대략 5시간에서 10시간 정도의 분량을 촬영해 영상 및 음성의 원본 데이터를 획득합니다. 그 뒤로는 음성의 품질을 조정하고, 스크립트에 맞게 음성을 편집하는 과정을 거쳐 음성 학습 데이터를 준비하고요. 영상의 경우 스크립트에 맞게 영상을 편집 한 뒤, 음성 신호와 영상 이미지를 매칭하는 과정을 거쳐 영상 학습 데이터를 준비합니다.

데이터셋이 준비되면 저희가 개발한 딥러닝 아키텍처에 주입해 학습을 시작합니다. 이 과정은 짧게는 이틀 길게는 1주일까지도 소요됩니다. 고해상도의 영상을 얻기 위해서는 그만큼 오랜 학습 기간이 필요합니다. 이 과정이 끝나면 학습된 모델이 원하는 만큼 고품질의 결과를 추론할 수 있는지 테스트를 해본 뒤에 준비된 서버 등에 올려 사용자가 이용할 수 있도록 전달하죠.
머니브레인 인공지능 연구자의 관점에서, 머니브레인의 서비스가 가진 강점과 비전이 있다면 무엇일까요?
원하는 인물에 대해서 준비 과정(데이터 수집, 전처리, 학습)이 완료되어 있는 상태라면, 언제든지 해당 인물이 말하는 영상을 만들어낼 수 있다는 장점이 있어요. 심지어 아주 자연스럽죠.
이미지
머니브레인 입사 전 커리어패스도 궁금합니다. 딥러닝 방면에 원래 관심이 있으셨나요?
원래 조선해양공학과 출신으로 머니브레인 입사 전에는 거제도에 있는 조선소에서 배관설계를 담당했었습니다. 그러던 중에 공부를 조금 더 하고 싶다는 생각이 들어서 회사를 그만두고, 석사 과정을 밟은 뒤에 머니브레인으로 입사하게 됐죠. 원래 컴퓨터나 소프트웨어 방면을 아주 좋아했습니다. 그래서 석사 과정도 머신러닝과 빅데이터 분야를 수료했고요.
딥러닝은 최신 기술이다보니 계속해서 자기 계발 및 공부가 필요할 것 같은데요.
실제로 그런 면이 있습니다. 물론 딥러닝의 기반이 되는 이론은 크게 변함이 없지만 국내 뿐만 아니라 해외에서도 개선된 아키텍처나 새로운 모델들을 계속 제시하고 있고, 개선된 부분을 저희 모델에 반영해야 하니까요. 해외에 발표된 최신 논문을 찾아보고 저희 아키텍처에 반영한 뒤에 실험을 하는 등 지속적으로 노력하고 있습니다.
많은 기업 중 머니브레인이라는 기업을 선택한 특별한 이유가 있으신가요?
사실은 제가 운이 좋았던 편이라고 할 수 있습니다. 처음부터 머니브레인에 입사할 생각은 아니었거든요. (웃음)
어떤 면에서 ‘운이 좋았다’고 생각하세요?
석사를 마칠 즈음에 원래 있던 필드의 특정 기업에서 ‘곧 공고가 날테니 지원해봐’라는 얘기를 듣고 기다리고 있었는데, 해당 기업의 공고가 계속 늦어지고 있었습니다. 마침 머니브레인에서 딥러닝 엔지니어를 뽑는다는 소식을 듣고는 ‘애라 모르겠다!’하고 지원한 것이 머니브레인에서 새로운 도전을 하게 된 계기였죠.
그렇다면 ‘운 좋게’ 입사한 머니브레인에서는 어떤 동료들과, 어떤 분위기에서 일하고 계신가요.
다들 개성이 강하기도 하고, 의외로 음악적 소양들이 깊습니다. 근래에는 악기를 다들 하나씩 시작해서 점심 먹고 옥상에 올라가서 바이올린이나 트럼펫을 연습하는 일이 자주 있어요. 저녁에는 모여서 실내 풋살장에 모여서 축구 한게임 차고, 치맥까지 하고 들어가는 일도 있고요.
딥러닝팀 채용을 진행한다면, 지원자의 어떤 점을 주목해서 보고 싶으신가요?
딥러닝을 하는데 있어서 데이터는 결과에 큰 영향을 미칩니다. 딥러닝 모델 아키텍쳐가 완성되어 있는 상태임에도 불구하고, 데이터의 완성도가 모자라 결과가 좋지 않은 경우도 있죠. 그렇기 때문에, 데이터를 처리하는데 굉장히 많은 시간을 들이는 편입니다. 노가다라고도 표현할 수 있을 정도예요. 이 부분을 진행하면서 처리하다 보면 생기는 문제점과 해결과정에서 통찰력을 보일 수 있는지, 그리고 이 과정을 즐길 수 있는가를 봅니다. 그 전에 딥러닝의 구조와 이론에 대해서 기본적인 지식은 당연히 있어야겠죠.
입사하시고 나서 가장 뿌듯했던 기억이 있다면 무엇인가요?
처음에 영상 합성을 위한 기반 연구를 하면서 다양하게 시도했던것들이 있었습니다만, 결과가 썩 좋지는 않았습니다. 그러다 어느날 갑자기 저희가 처음 공개했던 문재인 대통령 영상 합성(영상 링크) 결과 처럼 영상 합성의 결과가 나오기 시작했죠. 딥러닝의 요정이 간밤에 왔다갔다고 좋아했던 기억이 있습니다. (웃음) 이를 토대로 머니브레인의 영상합성 솔루션이 자리를 잡기 시작했죠.
마지막으로, 머니브레인에서 박성우님이 이루고 싶은 앞으로의 목표는 무엇인가요?
저는 이 분야에 늦게 뛰어든 편입니다. 머니브레인에서 열심히 해서, 어디서든 이 분야에서 1인분은 할 수 있는 실력을 기르고 싶습니다.