스마트 스피커, 스마트폰 이후의 최대 격전지?
스마트폰 이후의 패권을 노리기 위한 격전지는 수시로 뒤바뀐다. 아니 어디가 고지인지 모두 헷갈려 매년 “이 산이 아닌가벼···”의 반복이기도 하다. 소위 ‘포스트 스마트폰’에 대한 도전은 그칠 줄 모르는데 구글 글래스·스마트 워치 등 웨어러블에서, 근래의 VR·AR에 이르기까지 다양한 시도가 이뤄지고는 있지만 이렇다 할 절대적 트렌드는 만들어내고 있지 못하고 있다.
그럼에도 불구하고 꾸준히 그 세력권을 넓혀가고 있는 분야가 있으니 바로 음성인식 인공지능, 즉 스마트 스피커 시장이다. 미국에서는 아마존 에코라는 압도적 히트작 뒤를 구글홈이 따라잡고 있는 모양새다. 이들 플랫폼 맹주들은 이미 상당히 진지한데 아마존 알렉사, 구글 어시스턴트는 자신들의 스피커 이외에도 제휴를 통해 다양한 곳에 스며들어 가고 있다. 이 뒤를 애플 시리, 마이크로소프트 코타나, IBM 왓슨 등이 뒤따르며 스마트폰 이후의 거대 생태계를 만들 꿈을 꾸고 있다. 시장 점유율은 아마존이 70%, 구글이 20% 언저리라 하는데, 아직은 시장 초창기이기에 향후는 아무도 모른다. 특히 올 1분기 스피커 출하량만으로 보면 아마존은 44%, 구글은 27%로 좁혀졌다.
특히 다국어에 능한 구글이 미국 이외의 시장부터 점령해 들어갈지 모른다. 최근 구글 스피커들이 전파인증을 받은 것으로 보아 한국 출시도 코앞인 듯하다.
반면 한국어에 젬병인 알렉사나 코타나 등은 당분간은 북미나 유럽, 일본 이외는 큰 관심이 없어 보인다. 아마존이야 국내에서 소매업을 하지 않으니 우선순위 밖인 것이 이해가 가지만, 한글 윈도우 10에서 3년째 코타나의 한글이 전혀 되지 않고 될 기별도 보이지 않는다는 것은 아무리 한국이 시장으로서의 매력이 떨어졌다고는 하나 이해하기가 힘든 일이다.
이렇게 호랑이도 사자도 없는 무주공산에는 국내 기업들이 활발히 활약하고 있는데, 크게 통신사와 포털들의 참전이 두드러진다. 물량 밀어내기의 기초 체력이 있는 통신사와 일본 등 이미 진출한 해외시장으로 규모의 경제를 만들어낼 수 있는 포털 들 중 누가 먼저 한국 시장을 선점할지 흥미진진하다.
사실 음성을 인식하는 부분도 딥러닝 덕에 학습만 충분하다면 평준화될 수 있는 부분이고, 그 뒤는 챗봇과 사실상 흡사한 기술이기에 진입장벽이 높은 듯 아닌 듯한 것이 이 음성인식 인공지능 시장. 그러나 결정적으로 높은 문턱이 되는 부분은 바로 생태계의 형성 여부. 아마존 알렉사에는 음성 앱이라 할 수 있는 ‘스킬’이 4만여 개. 불과 2개월 전에는 3만여 개였음을 보면 파죽지세의 성장세다. 구글도 2천여 개 수준으로 2개월에 144%씩 성장 중이다. 그러나 국내의 경우 이러한 오픈 생태계는 보이지 않고, 대부분 B2B 제휴 서비스들이다.
한국의 전자책 시장 등에서 볼 수 있듯이 지배적인 생태계가 형성되지 않을 때는 시장 전체가 성숙하지 못하곤 하는데, 거꾸로 매력적인 제품이 없어서 생태계를 향한 관심과 수요가 생기지 않았던 것일 수도 있으니 닭과 달걀의 문제 같은 것이기도 하다.
아무래도 영어 등에 비하면 한국어의 인식률은 낮을 수밖에 없다. 따라서 기계가 알아들을 수 있도록, 천천히 또박또박 목소리를 바꿔 말하는 경험을 사용자들은 겪게 되고 이 단계에서 흥미를 잃거나 지치곤 한다.
또한 영어권과 비교하면 가정 내 사적 공간도 부족하고 회사에서도 자기 사무실이 없는 경우가 대다수라서, 개인적 단말인 스마트폰처럼 수요가 크지 않다. 자가용으로 출근한다면 심심하니 대화라도 해볼 만하지만, 만원 버스 안에서는 언감생심이다. 자기표현에 과하게 익숙한 문화탓인지, 미국 도시에는 아무 데서나 블루투스 이어셋을 꼽고 떠들고 다니는 이들 또한 많아서 이들을 흉보는 BTDB(bluetooth douchebag)라는 슬랭이 유행했던 적도 있다.
그러나 한국 문화에서는 발화 그 자체만으로도 아무래도 눈치를 보기 마련이니, 얼마나 혼잣말을 편하게 할 수 있는 환경이 조성되는지에 따라 시장 안착 여부가 달라질 것 같다.
물론 음성 인터페이스는 써보면 요긴하다. 하던 일에 집중하면서 비서에게 일을 시키듯이 멀티태스크가 가능하다. 요리를 하면서 타이머를 맞춘다거나, 집필을 하면서 자료를 검색해 본다거나 하는 식이다. 아예 음성 이외에는 여유가 없는 운전 중 조작 등도 킬러앱이 될 수 있다.
외국에는 음성으로 아예 글을 쓰는 이들도 있는데, 시간의 흐름에 따라 의식을 시계열로 메모하는 일이 효율적이라는 것. 일단 시간은 무조건 흐르기 마련이다. 어쨌거나 간격이 뜨지 않도록 뭐라도 말하고 나면 시간은 흘러가게 된다. 그것이 텍스트가 된다면 나름 편리할 수도 있다는 생각이 들기도 한다. 더욱이 나중에 열어보니 내가 무슨 이야기를 하려 했는지 도무지 모르겠다면 내 문장력 대신 오인식 탓을 호쾌하게 해버릴 수도 있다.