유명인 목소리 복제...AI 응용범위 넓어지지만 오남용 우려도

인공지능(AI) 스피커와 스마트폰용 애플리케이션(앱)이 사용자에게 대응하는 목소리는 기존에 입력된 음성 데이터가 사용자 명령에 맞춰 자연스럽게 흘러나오도록 만들어졌다. 따라서 특정 명령 영역을 넘어가면 대응을 못하거나 대응하게 하도록 하기 위해서는 더 많은 음성 데이터를 입력해야 했다.

하지만 최근에는 딥러닝 기술 수준이 높아지면서 음성을 학습하고 자연스럽게 목소리를 생성하는 기술이 생겨났다. 사람의 입모양이나 발화 상황에 따른 톤 등을 학습시켜서 조건별로 음성을 만들어 내고 나아가서는 음조가 이어지는 방식, 어떤 파형이 더 사실적이고 자연스러운지(또는 그렇지 않은지)를 학습하도록 했다.

구글과 아마존은 물론 국내에서는 네이버, SK텔레콤, 카카오 등도 이런 기술을 연구하고 있다. 또 음성생성 기술을 활용해 자연스러운 음성을 생성하도록 하는 서비스나 제품을 선보일 계획이다. 국내 벤처기업인 네오사피엔스는 10초간의 짧은 발화만으로 화자의 목소리를 생성하는 기술을 연구하고 있기도 하다.

음성 생성 기술은 AI와 소통을 편하게 해줘 거부감을 줄이는 것을 넘어 동영상 더빙, 부모 목소리를 재현한 책읽어주기 등 다양한 서비스와도 연계될 수 있다. 하지만 음성을 복제한다는 측면에서 무분별한 도용으로 부작용이 있어 이에 대한 대책 마련도 동시에 진행돼야 하는 과제도 있다.

수십초에서 수시간 발화 데이터로 음성 생성

일본 소프트뱅크의 인간형 로봇 페퍼(사진 아래). 원 안 사진은 사람 대신 가사와 육아를 해주는 로봇 앤드루의 이야기를 다룬 할리우드 영화 ‘바이센테니얼 맨’ 속 장면들. AI 음성생성이 자연스러워지면 영화처럼 로봇과 감성을 교류하는 일도 멀지 않은 일이 된다. /조선DB

딥러닝 기술 수준이 올라가면서 많은 정보기술(IT) 업체가 ‘자연스러운 음성’을 생성하는 기술을 연구하고 이를 응용하고 있다. 가장 빠른 것은 구글이다. 구글은 이미 딥마인드의 웨이브넷을 통해 기술을 선보였다. 기존에는 새로운 감정과 억양에 대한 표현이 필요하면 데이터베이스를 수정해야 했지만 웨이브넷을 통해 이를 개선했다.

구글은 실제로 이 웨이브넷 기술을 영어와 일본어 버전의 구글 어시스턴트에 탑재해 응용을 시작했다. 이런 비슷한 기술은 국내 IT 업체도 연구하고 있는데 네이버가 대표적이다. 네이버는 지난 4일 열린 테크 포럼을 통해 사용자 음성 발화 4시간 분량의 데이터로 똑같은 목소리를 생성할 수 있다고 발표하면서 하반기 중에 관련 서비스를 보여줄 것이라고 했다.

SK텔레콤 역시 지난 11일 AI 조명 ‘누구 캔들’과 T맵의 누구 호출기 ‘누구 버튼’을 출시하면서 딥러닝을 이용해 음성 생성을 하는 기술이나 음성을 복제하는 기술은 보유하고 있다고 짚었다. 이와 관련해 해당 기술이 적용된 제품도 출시할 가능성이 있다고 시사했다.

이런 기술을 연구하는 것은 카카오도 마찬가지다. 하지만 실제로 제품에 어떻게 적용할지는 고민 중이다. 카카오 관계자는 “음성을 자연스럽게 생성하거나 복제하는 것을 서비스에 어떻게 적용할지, 사용자 거부감은 어떻게 줄일지 고민하는 상황이엇 실제 제품이나 서비스를 내놓을지는 지켜봐야한다”고 말했다.

벤처 기업인 네오사피엔스는 알고리즘과 음성생성 기술을 정교하게 만들어 10초 발화만으로도 화자의 목소리를 똑같이 생성할 수 있는 기술을 연구 중이다. 이를 넘어서서 어떤 언어로도 비슷한 목소리로 말할 수 있게 만드는 것이 최종 목표다. 최근 트럼프, 김정은의 목소리를 각각 40분, 1시간 가량의 발화 데이터 만으로도 재생하고 트럼프는 한국어로, 김정은은 영어로 말하는 것처럼 보이는 영상을 만들어 공개하기도 했다.

김정은의 목소리를 1시간 정도 학습한 AI가 한국어, 영어를 하는 김정은 목소리를 생성했다. /네오사피엔스 제공

응용 분야 다양해질 듯…무분별한 사용 대응책도 중요

네이버는 사용자 음성을 그대로 생성할 수 있게 되면 아이에게 부모의 목소리로 책을 읽어주거나 특정 행동을 했을 때의 칭찬이 자동으로 흘러나오는 등 서비스 응용이 가능하다고 전망했다. 유명인의 목소리도 더빙 시간을 줄여서 응용 범위를 넓힐 수 있다.

네오사피엔스 같은 경우는 유명 배우나 인플루언서(소셜미디어 등을 통해 특정 분야에서 영향력을 주는 사람)의 목소리를 학습하고 세계 어떤 언어로든 쓰일 수 있게 만들어 동영상 더빙에 사용할 수 있게끔 하는게 목표다. 영상 제작자는 물론 유명인과 인플루언서의 시간을 아낄 수 있게 된다.

김재민 네이버 음성합성 리더는 “윤리적 문제에 대한 지적이 있을 수 있는데 아직까지 사람 목소리와 완전히 구분이 어려울 정도는 아니고 향후 개선되더라도 합성한 음성에 별도 소리나 신호를 담거나 정보를 입력해 구분할 수 있게 만들 수 있다”고 말했다.

문제는 음성 데이터에서 이런 정보를 삭제할 수 있다는 점이다. 김태수 네오사피엔스 대표는 “오히려 본래 음성 주인이 자신의 목소리가 무단으로 사용됐는지를 쉽게 확인할 수 있도록 음성 데이터 검색을 도입해 직접 대응 할 수 있도록 할 수 있다”며 “또 제도적으로 무단 음성 사용시에 처벌 규정 등을 마련해 미연에 방지하는 것도 방법이 될 수 있다”고 말했다.

김범수 기자(kbs@chosunbiz.com)