인터뷰

창의성의 한계 확장, ‘음성 기술과 콘텐츠’를 개발하다

[인터뷰] 수퍼톤 사업개발실을 소개합니다

2025. 04. 30 (수)

예술과 기술의
새롭고 아름다운 만남을 들려드립니다.

 

 

가수 故 김광석, 유재하, 거북이 터틀맨의 목소리 복원
글로벌 스트리밍 플랫폼 오리지널 시리즈 ‘마스크걸’ 주인공의 '부캐'(부 캐릭터)인 
'BJ 마스크걸'의 목소리 제작

위버스매거진의 기사를 음성으로 들을 수 있는 AI기술적용

 

 

이 모든 일을 실현한 곳이 있습니다. 바로, 엔터테인먼트 콘텐츠 산업과 기술을 융합한 다양한 시도를 통해 AI 오디오 분야를 선도하고 있는 수퍼톤(Supertone)입니다. 

수퍼톤의 ‘사업개발실’을 소개합니다.

 

 

Q. 이제는 ‘수퍼톤’이라는 이름이 익숙하긴 하지만 여전히 궁금한 점이 있습니다. 사업개발실을 소개하기 전에 수퍼톤은 어떤 곳인가요?

 

수퍼톤은 “누구나 희망하는 목소리로 말하고 들을 수 있는 창의성이 넘치는 세계를 구축한다”라는 비전과 “창의성의 한계를 확장하는 혁신적인 음성 기술과 콘텐츠를 개발한다”라는 미션 아래, 세계 최고 수준의 AI 음성 분리 및 합성 기술을 보유한 곳이라고 자부합니다.

2020년, 지금은 우리 곁을 떠난 여러 가수의 목소리를 방송으로 공개하며 유명세를 치렀는데요. 하이브와의 인연은 2021년 투자를 받으면서 시작됐고, 현재는 한 식구로 함께하고 있습니다.

 

 

Q. 수퍼톤에서 진행하신 프로젝트 자랑도 해주신다면요?

 

하이브와 함께 진행한 ‘미드낫(MIDNATT) 프로젝트’부터 소개하고 싶습니다.빅히트 뮤직의 아티스트 이현 씨를 하이브의 신인 아티스트 ‘미드낫’으로 재탄생 시킨 프로젝트로 잘 알고 계실 텐데요! 이 프로젝트에서 수퍼톤은 이현 씨의 목소리와 가창력을 유지하면서, 다국어와 여성의 목소리로 변환하는 기술을 적용했습니다.

그 결과 미드낫의 디지털 싱글 ‘마스커레이드’(Masquerade)는 세계 최초로 6개 언어의 음원으로 발매됐고, 2023 위버스콘 페스티벌과 M Countdown 무대에서는 실시간으로 여성의 목소리로 부르는 미드낫의 음악이 공개돼 주목을 받았습니다.
 


시간은 돌릴 수 없을지라도 AI 디에이징 보이스를 통해 목소리를 과거로 돌릴 수 있다

 

다른 사례로는, 글로벌 스트리밍 서비스에서 감상할 수 있는 드라마 ‘카지노’에서도 세계 최초로 AI 보이스 디에이징 기술을 적용한 사례가 있습니다. 배우 최민식 씨의 젊은 시절 회상 에피소드를 위해 60대인 최민식 씨의 목소리를 30대의 목소리로 변환했는데, 극의 흐름을 자연스럽게 만들어 시청자들이 몰입하는 데 도움을 드리고자 했습니다.

 

최근 글로벌 스트리밍 플랫폼의 오리지널 시리즈 ‘마스크걸’에서도 마스크를 쓰면 다른 인물로 돌변하는 ‘BJ 마스크걸’을 연출하고자 새로운 목소리를 생성했는데요. 이때 ‘다화자 음성 합성 기술’을 활용해 배우 나나 씨와 이한별 씨의 연기 톤과 음색을 재조합해 새로운 목소리를 만들었습니다.

 

 

이처럼 수퍼톤의 AI 오디오 기술은 목소리를 구성하는 다양한 요소들을 분리 및 합성하는 방식으로 무한에 가까운 극사실적인 목소리를 생성할 수 있습니다. AI 기술을 기반으로 생성한 목소리는 노래와 연기를 할 수 있으며, 실시간으로 목소리 변환도 가능합니다. 이를 기반으로 음악뿐 아니라 영화, 드라마, 게임, 메타버스 등 목소리가 들어가는 모든 영역의 콘텐츠를 제작하고 있습니다. 수퍼톤은 이들 기술의 기반에 해당하는 지적재산권(IP)은 물론, 연구개발(R&D)을 위한 연구소와 자체 스튜디오까지 보유하고 있어 다양한 콘텐츠를 제작할 수 있는 역량까지 보유하고 있습니다.

 

 

Q. 사업개발실의 역할도 구체적으로 소개 부탁드립니다.

 

사업개발실은 문화 예술 분야를 비롯해 다양한 영역에 수퍼톤의 AI 오디오 기술을 적용할 수 있는 사례를 발굴하고, 이를 실제 사업으로 실행하는 역할을 맡고 있습니다. 앞서 언급한 프로젝트들이 저희가 주도적으로 진행한 결과물이라고 보시면 이해가 조금 쉬울 것 같은데요.

팀별로 역할은 다르지만, 모든 과정에 있어 AI의 윤리적 사용과 함께 창작자, 아티스트 분들과 같은 기존 업계분들을 최대한 존중하는 것을 가장 중요한 가치로 생각하고 있습니다.

 


수퍼톤이 단독으로 사용하는 사옥의 모습

 

Q. AI가 놀라운 속도로 발전하면서 다양하고 신기한 사례는 많이 접할 수 있지만, 윤리적인 사용의 예시는 쉽게 떠오르지 않는 것이 사실입니다. AI를 윤리적으로 사용한다는 것은 구체적으로 어떤 것인가요?

 

계약에 명시된 사용 목적에 맞도록 AI를 활용하고, 목적이 달성되면 수퍼톤에서 결과물을 보관하지 않고 즉각 폐기합니다. 즉, 합의에서 벗어난 2차, 3차 결과물 및 재가공물을 만들지 않는 것을 윤리적 사용으로 볼 수 있습니다. 또한 데이터 학습을 할 때 필요한 자료를 적법하게 구매하고, 퍼블리시티권을 체결하는 모든 행위가 AI의 윤리적 사용에 포함됩니다.


저희가 문화 예술 분야에 기술을 접목하다 보니, 배우와 같은 문화 예술 콘텐츠 창작자분들과 밀접하게 작업하는 경우가 많은데요. 얼마나 많은 노력을 통해 작품이 탄생하는지를 이해하고 있기에 항상 존중하는 마음으로 프로젝트를 진행하고 있습니다. 특히, AI가 배우나 뮤지션을 대체한다는 개념이 아니라, 미드낫이 6개 언어로 음반을 발매한 사례와 같이 더 많은 팬들을 만나고 싶은 분들, 예술성을 더 잘 표현하고, 전달력을 높이고자 하는 분들에게 도움을 드린다는 취지로 접근하고 있습니다.

 

 

Q. 이야기를 나누다 보니, 수퍼톤은 AI의 윤리적 사용에 진심이라는 것이 크게 느껴집니다.

 

네, 맞습니다. 수퍼톤이 AI의 윤리적 사용을 강조하는 이유는 이 분야의 선두주자로서 AI의 사용의 올바른 방향성을 제시해야 한다고 생각하기 때문입니다. 수퍼톤과 같이 빠른 기간 내에 수준 높은 표현력을 구현해 낼 수 있는 경쟁사는 세계적으로도 찾기 어렵습니다. 특히 극사실주의 표현이 가능하기 때문에 문화 예술 콘텐츠에서는 독보적인 경쟁력을 가지고 있고요. 그만큼 큰 책임감을 가지고 있기 때문에 더더욱 윤리적 사용이라는 소명을 가지고 이 분야를 리딩하고 있다고 강조하고 싶어요.

 

 

Q. AI 기반 기술이 하루가 다르게 발전하고 있어, 이 시장을 주도해야 하는 수퍼톤의 구성원들의 입장에서는 윤리적 이슈뿐만 아니라 기술 자체의 고속 성장이 부담스럽게 느껴질 것 같습니다. 해당 분야의 성장과 발전을 주도하기 위해 어떤 노력을 기울이고 계신가요?

 

변화가 예상했던 것보다 빠르게 진행되고 있고, 경쟁사의 수가 늘어나는 만큼 기술 격차도 빠르게 좁혀지고 있는 것도 사실입니다. 다만, 앞서 말씀드렸듯이 수퍼톤은 퀄리티 측면에서 타사와 비교할 수 없는 경쟁력을 갖추고 있고, 원천기술을 상용화함으로써 시장 변화에도 주도적으로 대응해오고 있습니다. 즉, 눈과 귀는 시장과 상황에 초점을 맞추도록 하면서 ‘기본’에 충실하고 있다고 할 수 있습니다.

 

‘기본’이라는 것은 ‘꾸준한 연구 개발을 통해 지속적인 글로벌 탑 레벨의 음성 합성 기술을 갖추는 것’을 의미합니다. 물론 ‘업계에 잘 스며들도록 좋은 사례를 지속적으로 만들어 시장을 개척하는 것’이라고도 할 수 있겠습니다. 아울러 기존 업계에 계신 플레이어 분들에 대한 존중과 조화도 가장 기본이자 꼭 필요한 마음가짐이라고 말할 수 있습니다.

 

 

Q. 음악 레이블, OTT, 게임사, 방송국 등과 같이 B2B 위주의 협업에서 이제는 개인에게도 수퍼톤의 기술이 공급되고 있습니다. 어떤 서비스들이 있나요?

 

지난 2월, 콘텐츠 제작에 포커싱된 TTS(Text To Speech) 서비스인 ‘Play’를 출시했습니다. 현재. 보편적으로 접할 수 있는 TTS는 목소리와 표현력이 평이하고 딱딱한 느낌이라 매력을 느끼지 못하는 분들도 계실 텐데요, 저희의 TTS는 훨씬 더 자연스럽고 다채로운 말투와 목소리를 경험할 수 있다는 장점이 있습니다. ‘실시간 음성 변환 서비스(RTVC)’인 ‘Shift’도 있습니다. 쉽게 말해 ‘목소리 포토샵’이라고 설명할 수 있습니다. 자신의 목소리를 캐릭터화한 목소리와 다양하게 섞어낼 수 있는 기술이죠.


꼭 목소리와 관련된 서비스가 아니어도 B2C는 가능합니다. 실시간으로 잡음과 공간 음향을 컨트롤할 수 있는 ‘Clear’가 바로 그것입니다. 예를 들면, 야외 촬영 시 매미의 울음소리라든가, 클래식 공연 시 관객의 기침소리 등을 실시간으로 제거할 수 있게 되는 것이죠. 이 기술은 특히 영상 업계와 유튜브 등 개인 크리에이터들이 가장 필요로 하고 있는 기술입니다.

 

 
(위부터) 사옥 지하 1층에 위치한 STUDIO A, STUDIO B, VOICE LAB 2

 

Q. AI와 관련해 여러 우려와 논란이 공존하는 와중에도 기술과 음악의 결합으로 시도된 ‘미드낫(MIDNATT) 프로젝트’, 그리고 수퍼톤의 기술적 역량과 방향성에 대한 관심이 높아지고 있습니다. 이런 관심을 실감하시나요?

 

이전에도 여러 케이스를 통해 기술과 문화예술 콘텐츠의 결합을 시도했고, 이때에도 항상 ‘기술과 인간의 올바른 공존’이라는 키워드로 다양한 케이스를 만들어왔습니다. ‘미드낫(MIDNATT) 프로젝트’를 진행하면서는 수퍼톤과 하이브의 시너지를 체감했는데요, “글로벌 팬들에게 좀 더 효과적으로 다가가는 계기를 만들었다”는 긍정적인 피드백을 정말 많은 분들에게 받았습니다. “새로운 표현의 영역을 넓혔다”는 아티스트의 피드백도 저희에게는 매우 고무적이었습니다.

 

 

Q. 그리고 또 특별히 기억에 남는 사례가 있을까요?

 

이미 고인이 된 분들과 관련된 작업을 할 때는 늘 ‘감동’이 존재합니다. 단순히 ‘부활’의 의미보다는 목소리 작업을 통해 고인의 팬과 가족이 고인을 다시 만나는 데서 감동을 느낄 수 있죠. 사고로 인해 예전처럼 노래를 부를 수 없는 가수의 음악 활동 재개에 도움을 준 경험, 장애로 인해 오래 말할 수 없는 분의 목소리를 틈틈이 녹음해 목소리 데이터를 쌓았던 경험도 기억에 남습니다.

 

‘마스크걸’을 작업할 때에는 감독님께서 극중 주인공인 김모미가 마스크를 썼을 때 원하던 연기톤이 있는데, 그것을 목소리로 구현하는 것이 어렵다고 하셨어요. 상담 후 저희 기술을 활용한 대안을 제시했고 결과물에 만족을 표현해 주셨는데, 문제를 정확히 해결한 데서 뿌듯함을 느꼈습니다.

 

 

Q. 반면에 어려움이나 오해가 있다면 어떤 것들이 있나요?

 

목소리가 들어간 파일 또는 텍스트만 수퍼톤에 전달하면, 보이스를 원하는 형태로 즉시 변환해 원하는 결과물을 받아볼 수 있다고 생각하는 분들이 많아요. 예를 들면 미드낫의 목소리를 다국어로 변환했듯이요. 하지만 기술적으로도 사업적으로도 불가능합니다. 생각보다 많은 작업을 수반하거든요. 법적, 윤리적 리스크 검증과 같은 프로세스를 전제해야 하고요. 다국어 더빙을 할 때는 원문의 느낌과 어감을 효과적으로 표현하기 위한 의역 과정도 거쳐야 하고, 해당 언어와 오디오가 어우러질 수 있도록 감성적이고 세밀한 조정 작업도 필요합니다. 이렇게 즉시 변환을 해서 제공할 수 있는 환경이 아니다 보니 AI를 활용하는 것이 아니라 사람이 직접 작업하는 것이 더 빠른 경우도 발생합니다.


또 저희 서비스가 굉장히 비쌀 것 같다고 생각하시는 분들도 많은 것 같아요. 아무래도 ‘AI’라고 하니까 막연하게 생각하시는 것이 아닐까 싶기도 합니다.


간혹 너무 현실적인 결과물을 만들어 내다보니 “퀄리티가 너무 좋아서 무섭다”라는 얘기를 듣기도 합니다. AI로 만든 목소리는 아무래도 기계 느낌이 조금은 있지 않을까 생각했다가, 실제로 들어보면 너무 리얼해서 무섭다는 반응인데요. 일상생활에서 자주 접하는 TTS의 목소리나 톤은 다들 비슷하고 기계 목소리라는 게 티가 나니까 이런 반응이 이해가 돼요. 그러다 보니 윤리적 사용에 더 신경 써야겠다는 생각이 들기도 하고요.

 


음악과 관련된 인물로 회의실 이름을 지은 수퍼톤 사옥 내 회의실 

 

Q. 이야기를 나누다 보니 사업개발실의 업무뿐 아니라 이곳의 구성원 여러분들이 궁금해지는데요. 사업개발실 구성원들의 특징이 있을까요?

 

저희는 모두가 각종 콘텐츠의 헤비 유저이자 취향 및 취미 부자들입니다.

사업개발실 내 모든 구성원이 음악, 영화, 애니메이션 분야에서 오랜 기간 근무한 경험이 있는데요. 실제 아티스트로 활동했거나 지금도 전업 아티스트로 봐도 무방할 정도의 전문성을 갖춘 분들도 많이 계십니다. 그리고 어떠한 취향을 가지고 있든, 어떤 생각을 가지고 있든 격의 없이 대화하고 공감할 수 있는 준비가 돼있습니다.

그래서일까요? 영화 업계에 데뷔를 했던 부산국제영화제 프로젝트라든지, 오리지널 콘텐츠 제작 및 인디씬과의 교류를 위해 떠났던 지방 인디씬 투어 등을 저희 구성원 모두가 함께하는 게 가능하지 않았나 싶습니다.

 

 

Q. 인터뷰 때도 그렇고, 단체 사진 촬영 중에도 웃음이 끊이질 않습니다.
이렇게 즐겁게 업무 시너지를 낼 수 있는 특별한 팁도 알려주세요.

 

격의 없고 즐거운 형태의 커뮤니케이션이 포인트라고 생각합니다. 무겁고 딱딱한 분위기에서 어떻게 마음 놓고 자신의 아이디어와 의견을 공유할 수 있을까요? 즐거운 환경 그리고 편안한 분위기가 갖춰진다면, 우리의 마음은 한결 편안해지고 이야기를 해봐야겠다는 자신감도 생기겠죠. 이렇게 의사소통이 원활해지면 정보의 교류도 활발해지고, 서로의 신뢰는 강화되고 정보 격차는 줄어듭니다. 저희가 수퍼톤 사옥에서 진행했던 합주, 미니 탁구 대회, 다트 대회와 같은 크고 작은 이벤트들도 모두 그 일환이었습니다.

 

가벼운 스몰 토크, 식사, 다양한 취향을 공유하는 자리 등 함께하는 순간을 최대한 즐겁게 만들어 가고자 하는 노력은 저희 팀 그리고 수퍼톤이 가지고 있는 고유한 문화이자 여러분과 공유하고 싶은 팁입니다.

 


‘제1회 수퍼톤 탁구 대회’의 결승전에서 사용한 탁구공을 넣은 트로피는 3D 프린터로 만들었다.
이 대회는 탁구에 진심인 수퍼톤 구성원들이 사옥 지하 1층에서 개최했다.

 

Q. 사업개발실이 그리는 수퍼톤의 미래는 어떤 모습인가요?

 

현재 생성형 인공지능 영역의 경쟁이 치열한데요, 올해 저희 실의 미션은 기존에 전해왔던 음악과 영화 등의 영역뿐만 아니라 게임, 광고, 마케팅, 교육 그리고 목소리가 필요한 다양한 분야에 진출하는 것입니다. 이를 위해 하이브의 플랫폼, 솔루션 부문과 더 많은 시너지를 창출해 내는 것이 중요하다고 보고 있고요. 그리고 그 결과로, 좀 더 먼 미래의 이야기가 될 수도 있겠지만 ‘AI 음성 기술’이라고 하면 ‘수퍼톤’이 전 세계에서 가장 먼저 거론되는 No.1 회사가 되었으면 하는 바람이 있습니다.

 

수퍼톤 구성원 개인의 측면에서 말씀드리면, 개인의 성장과 행복이 회사를 포함한 우리 모두의 성장과 행복이 되기를 바랍니다. 내가 하는 일을 통해 내 자신과 회사가 성장하고, 또 이를 통해 서로에게 감사와 행복함을 느끼는 것만큼 중요한 것은 없다고 생각하거든요. 이 모토만 있다면 누가 강요하지 않아도 스스로 즐겁게, 적극적으로 일하지 않을까요?

 

 

Q. 어바웃팀 인터뷰에서 공통적으로 드리는 질문입니다. 하이브의 <열.자.신> 핵심가치에 비추어 사업개발실이 가장 중요하게 여기는 한 가지를 꼽는다면 무엇일까요? 

 

저희는 ‘신뢰’가 중요하다고 생각합니다. 핵심가치에서는 동일선상에 있지만, 저희의 업무에 있어서는 ‘신뢰’가 바탕이 되어야 저희가 가진 열정과 자율이 더 큰 의미를 가지게 된다고 생각하기 때문입니다. 앞서 저희가 AI의 윤리적 사용, 아티스트와 원작자에 대한 존중을 강조한 것도 같은 맥락에서 비롯되었다고 말씀드릴 수 있어요.

 

 


하이브의 <열.자.신> 핵심가치

 

 

Q. <열.자.신> 핵심가치에 이어서, 하이브에서 ‘윈 투게더’ 마인드로 즐거운 협업을 한 경험이나 그로 인해 고마움을 표현하고 싶은 조직이 있으신가요? 

 

저희와 함께 업무를 했던 하이브의 많은 분들이 떠오르네요. 모든 분들께 감사드리지만, 투자 초기부터 적극적으로 협력해 주신 하이브 IM 구성원 여러분들이 기억에 남습니다. 저희 기술이 다소 어렵고, 생소한 부분도 많은 게 사실이거든요. 게다가 하이브IM과 수퍼톤이 지금까지 경험해온 업종도 다르고 접점도 적었던 지라 장벽이 있을 수밖에 없었습니다. 그럼에도 항상 열정적이고 긍정적인 태도로 저희와의 대화에 참여해 주셨고, 다양한 아이디어와 함께 좋은 사례도 발굴해 알려주시는 등 큰 도움을 주셨습니다. 앞으로도 꾸준히 함께하겠지만, 이번 자리를 빌려 다시 감사드린다는 말씀을 전하고 싶습니다. 하이브 IM 최고!

 

 

Q. 아쉽지만 어느덧 어바웃팀의 마지막 공식 질문입니다. 수퍼톤 사업개발실을 잘 표현해 줄 수 있는 음악을 선곡하고, 그 이유를 들려주세요.

 

음악을 좋아하는 것은 기본이고, 직접 음악을 만들고 음악 활동을 하는 분들이 많아서 저희끼리 치열한 논의를 했는데요. 저희 사업개발실의 대표곡은 HYBE IM과 협업하여 론칭한 ‘미드낫(MIDNATT) - Masquerade’로 선곡했습니다. 하이브의 많은 분들과 즐겁게, 그리고 치열하게 협업하며 시너지를 냈던 첫 사례라 저희에게는 의미 있는 프로젝트거든요. 곡 안에 저희의 기술력과 열정 모두가 담겨있습니다.

 


 

목소리의 무한 확장이 가능함을 보여준 MIDNATT 

 


저작권은 하이브에 있으며, 무단 배포를 금지합니다.

실시간 인기 콘텐츠