하둡 10년, 빅데이터의 역사를 이끌다
하둡이 세상에 나온 지 정확히 10년이 됐다. 하둡은 지난 2006년 1월 28일에 공식적으로 세상에 나왔다. 하둡의 지난 10년의 역사는 찬란하다. 하둡의 등장으로 ‘빅데이터’라는 새로운 IT트렌드가 등장했다고 해도 과언이 아니며, 이제 머신러닝, 딥러닝, 인공지능을 위한 기반 기술이 됐다.
하둡은 기본적으로 조직이 데이터를 저장하고 처리해서 분석하는 방식을 변화시켰다. 하둡이 세상에 등장하기 전에는 도저히 엄두를 내지 못했던 데이터도 이제는 관리 및 분석 대상이 됐다.
하둡의 창시자 ‘더그 커팅’ |
하둡은 더그 커팅이라는 소프트웨어 개발자로부터 시작된 프로젝트다. 더그 커팅은 루씬이라는 검색엔진을 처음 개발한 사람이다. 그는 구글에 대항하기 위한 검색엔진으로 너치(nutch)라는 것을 만들고 있었는데 이는 루씬 검색엔진과 하둡파일시스템이 결합된 것이었다.
흥미로운 점은 하둡의 기원이 구글이라는 점이다. 구글은 자사의 검색엔진이 사용하는 분산파일시스템과 맵리듀스 기법을 논문으로 발표했는데, 더그 커팅은 이를 기반으로 하둡을 만들었다.
하둡은 소프트웨어 업계에 큰 변화를 야기했다. 우선 많은 스타트업을 만들어냈다. 2008년 클라우데라가 하둡 전문기업을 표방하며 세상에 나온 이후 수십 개의 하둡 스타트업이 나왔다. 벤처 캐피탈들은 2008년 이후 하둡 스타트업에 수억 달러를 투자했다. 그 결과 클라우데라를 비롯해 맵알, 호튼웍스 등은 글로벌 소프트웨어 기업으로 성장했다.
국내에서도 그루터 등 하둡 전문기업이 등장했다. 2006년 야후의 아시아 파트너였던 그루터는 블로그 전문정보 게시판 데이터를 수집해서 필터링 하기 위해 하둡을 처음 사용했다. 윈도 서버 4대로 연결해 하둡을 돌린 경험으로, 그루터는 하둡 기반 빅데이터 전문기업으로 자리잡았다.
글로벌 공룡 소프트웨어 기업도 하둡 비즈니스에 열을 올리고 있다. 오라클은 하둡을 내장한 빅데이터 어플라이언스라는 것을 만들었고, 인텔, IBM, EMC 등은 자체 배포판을 만들었다.
IDC는 2016년 하둡 소프트웨어 시장이 8억1300만 달러에 달할 것으로 예상했다. 하지만 이는 하둡으로 인한 가치의 아주 일부분에 불과하다. IDC는 하둡으로 인한 빅데이터 시장은 230억 달러에 달할 것으로 내다봤다.
하둡의 최고 가치는 빅데이터 시대를 이끌었다는 점이다. 아래는 구글 트렌드를 통해 hadoop과 big data의 상관계를 살펴본 그림이다. hadoop과 big data의 검색 빈도는 비례한다.
한국어 키워드 ‘하둡’과 ‘빅데이터’를 보자. ‘하둡’이 나오기 전에 ‘빅데이터’라는 단어는 검색되지 않았다. 하둡이 등장하고 이어 빅데이터의 검색 빈도가 올라가기 시작했다. 하둡이 곧 빅데이터는 아니지만, 하둡으로 인해 빅데이터라는 트렌드가 열린 것이다.
하둡은 이제 더 이상 하둡파일스템과 맵리듀스만을 의미하지는 않는다. 이를 기반으로 거대한 하둡 생태계가 구성됐다. 써드파티 관리 소프트웨어나 HBASE같은 운영 DB, 임팔라 타조 등의 SQL 온 하둡, 피그 테즈 하마 등의 프레임워크, 분석 애플리케이션 등이 하둡과 함께 하고 있다. 현재 25개 이상의 컴포넌트들이 하둡 생태계 안에 들어와 있다. 이생태계는 앞으로 더욱 확장될 것이다.
하둡의 지난 10년은 빅데이터 시대를 이끌었다. 앞으로 하둡은 실시간 분석 등 더 다양한 기능으로 확대될 것으로 전망된다.
앞으로 10년 동안 하둡이 어떤 변화를 이끌어 낼지 궁금해진다.
<심재석 기자>shimsky@byline.network