빅 데이터.

최근들어 매스컴이나 신문지상에서 많이 들어본 단어다. 대략 어떤 것이라는 의미만 알고 있다가, 좀 자세히 알고 싶어 관련 책을 읽어보기로 했다.

책을 읽고 난 느낌을 한 문장으로 말하자면, 이렇다.

스마트 워크, 위키노믹스 같은 책이다.

전에 없던 새로운 패러다임에 대해 설명하고, 특징과 장점을 피력한다. 그리고 이를 사용한 사례를 통해 증명한다. 그리고 이것이 나아가야할 방향과 미래를 예측한다.

빅 데이터라는 단어는 생소하지만, 의미는 알고보면 낯설지 않다. 기존의 몇몇 기업들이 이미 해오던 것들이기 때문이다.

방대한 인터넷에 돌아다니는 데이터를 수집해서, 필요한 정보를 조합하고 뽑아내서 새로운 서비스를 제공하는 것이 가장 큰 목적이라고 하겠다.

옛날에는 개인의 정보라고 해봐야 구청에 등록된 주민등록번호와 집주소, 전화번호가 전부였다. 하지만, 오늘날에는 누구나 하나씩 메일 주소가 있고, 핸드폰이 있다. 또한 1개 이상에 계정(ID, Password)이 있다. 그만큼 개개인의 정보는 더 많이 노출되어졌다. 이 정보들을 이용해서 기업들은 마케팅에 사용하고 있으며, 점차 노출되는 범위는 더 커지고 있다. 하지만 이와는 반대로 개인정보 보안에 대한 대책마련은 그에 따라가지 못하고 있다.

동전에 양면처럼, 빅 데이터를 이용한 여러가지 서비스들이 발전할 수록 개인정보 노출의 위험은 커진다. 약간 더디더라도 양적인 성장과 질적인 성장이 함께 이루어져야 할 것이다.

내용 요약

빅데이터란 좁은 의미에선 '기존의 일반적인 기술로 관리하기 곤란한 대량의 데이터군' 으로 정의하며, 관리가 힘들어진 요인은 3V(데이터양/다양성/속도) 때문이다. 넓은 의미에선 '3V 측면에서 관리가 곤란한 데이터 및 데이터를 축적,처리,분석하기 위한 기술, 나아가 데이터를 분석해 유용한 의미와 통찰을 끌어낼 수 있는 인재와 조직을 포함하는 포괄적인 개념'으로 정의한다.

예전부터 연구기관이나 일부 대기업에선 대량의 데이터를 분석해서 지식을 얻으려는 시도를 했다. 빅 데이터가 이전과의 다른 점은 크게 3가지다. 첫째, 소셜 미디어와 센서 네트워크 발달로 대량의 다양한 데이터가 가까운 곳에서 생성되고 있다. 둘째, 하드웨어와 소프트웨어 기술의 발달로 데이터의 축적과 처리 비용이 크게 낮아졌다. 셋째, 클라우드 컴퓨팅이 등장하면서 반드시 직접 데이터를 축적하거나 처리하는 환경을 준비할 필요가 없어졌다.

고객과 기업사이의 인터랙션 데이터를 분석하면 트랜잭션이 발생한 이유를 알 수 있다. 지금까지는 인터넷(온라인)의 인터랙션 데이터 수집,분석을 중요시했지만, 앞으로는 오프라인 및 O2O(Online to Offline)의 인터랙션 데이터가 중요해질 것이다.

현재의 빅데이터 붐을 기술 면에서 지탱하는 것은 오픈소스 분산처리 프레임워크인 하둡이다. 대형 벤더의 데이터 웨어하우스 제품도 하둡과의 연계를 강화하고 있다.
하둡이 많은 양을 가진 비구조화 데이터의 일괄처리에 큰 효과를 발휘하지만 아직 발전하는 기술이라는 점을 잊어서는 안 된다. 오픈소스 버전 하둡의 약점을 보완하고자 클라우데라를 중심으로 MaPR 이나 호튼윅스 등 여러 종류의 배포판 하둡이 제공되기 시작하고 있다.

하둡이나 NoSQL 데이터베이스는 기존의 관계형 데이터베이스나 SQL 등의 데이터 처리 기술로는 효율적으로 처리하기 어려운 비구조화 데이터를 처리하고자 구글이나 아마존, 페이스북 등이 개발한 기술이다. 그러므로 기존의 기술을 무리하게 바꿀 필요는 없으며 매출 데이터나 고객 데이터와 같은 구조화 데이터의 처리와 축적에는 예전부터 사용하던 관계형 데이터베이스나 데이터 웨어하우스를 사용하면 된다.

하둡이나 NoSQL 데이터베이스는 오픈소스이므로 상용 소프트웨어보다 라이선스 비용이 싸다. 하지만 기술을 보유한 인력을 구하는 비용이 점점 커질 가능성이 크다.
계속해서 유입되는 많은 데이터(스트림 데이터)를 실시간으로 처리하는 스트림 데이터 처리 기술은 지금가지 금융업계를 중심으로 활용되었다. 최근에는 NoSQL 데이터베이스처럼 인터넷 기업이 스스로 필요해서 직접 개발하는 사례가 늘어나고 있다.

빅데이터로부터 유용한 의미와 패턴을 효율적으로 발견하려면 기계학습이나 데이터 마이닝, 시맨틱 검색, 통계 분석 등의 기술이 중요하다.

이베이와 징가 등 온라인 서비스 기업에는 자사의 서비스를 얼마나 오랜 시간 계속 사용하게 하느냐가 사업의 승패를 가른다. 따라서 자사의 웹 사이트와 서비스의 사용자 경험 향상에 심혈을 기울인다. 웹 페이지 안 링크 배치나 배색 하나하나에 신경을 쓰고 사용하기 불편하다고 생각되는 점을 철저히 배제하는 데 노력을 기울인다. 몇 퍼센트라도 이탈하는 사용자가 줄어들면, 사용자 수가 많은 만큼 매출에 큰 영향을 준다. 따라서 사이트 안에서 사용자의 모든 행동 이력을 추적해 데이터로서 수집한다. 특히 징가는 최초의 몇 클릭이 서비스 성공에 영향을 준다고 생각해, '3클릭 룰'로 서비스를 운영하는 점이 매우 흥미롭다. 또한 사용자의 접근 로그를 100% 축적함으로써 사이트에서의 테스트 효율이 비약적으로 향상했다는 이베이의 설명도 크게 참고가 될 것이다. 샘플데이터가 아닌 전체 데이터를 데이터베이스에 저장하므로 필연적으로 데이터양은 많아지지만, 하둡이나 분석적 데이터베이스 등에 적극적으로 투자해 이 점을 해결하고 있다.

센트리카 사례에서는 각 가정에 설치한 스마트 계량기의 데이터에서 우선 고객의 에너지 소비 패턴을 파악하고 거기서 장래 소비 동향을 예측한다는 점이 지진 후 전력 부족에 고민하는 일본에 큰 참고가 될 것이다. 또한 같은 지역의 비슷한 건물에 사는 다른 세대와 사용량을 비교해 자신의 에너지 소비량이 효율적인지 검사할 수 있는 시스템등을 제공해 전력 사업자뿐만 아니라 고객에게 이득을 주는 점도 중요하다. 스마튼 계량기 설치에는 각 가정의 전력 사용 패턴에서 생활 습관이 노출되어 버리는 개인정보보호 문제도 일부 지적되고 있다. 하지만 개인정보보호 문제는 고객이 그 이상의 이점을 누릴 수 있다면 용인되는 예도 많다. 그러므로 이런 장점을 얼마나 많이 호소할 수 있는지가 핵심이 될 것이다.

카탈리나 마케팅의 사례는 아마존이 인터넷에서 구현한 구매 이력에 따른 상품추천을 실제 점포에서 구현한다는 개념에 가깝다. 하지만 아마존은 상품 자체는 전혀 고려하지 않고 다른 사용자와 취향이 유사하다는 점에서 추천상품을 도출하지만, 카탈리나 마케팅은 상품의 내용과 고객의 기호까지 고려해 쿠폰을 발행한다는 점에서 큰 차이가 있다. 또 한가지 배울 점은 카탈리나 마케팅이 제조 업체와 슈퍼마켓 체인과 고객 사이를 중개하는 중간 사업자라는 것이다.
슈퍼마켓 체인이 직접 고객에게 쿠폰을 발행할 수도 있지만 그래서는 수집할 수 있는 데이터에 한계가 있다. 카탈리나 마케팅은 중간 사업자의 이점을 살려 여러 슈퍼마켓 체인으로부터 고객의 데이터를 수집, 분석해 더 많은 고객의 구매 이력을 측정할 수 있다. 카탈리나 마케팅을 이용하면 미국 전체 슈퍼마켓 고객 75% 의 구매 이력을 확인할 수 있다는 점은 이 회사의 고객이 될 소비재 업체나 식품업체에 큰 매력이다.

인터넷 기업을 제외한다면 빅데이터 활용의 모범 사례로 대표적인 것은 코마츠의 '콤트랙스'다. 특히 '데이터로부터 어떠한 통찰을 얻는가?' 하는 관점에서 봤을 때 발상의 풍부함은 주목할만하다. 간단히 흉내낼 수 있는 것은 아니지만, 고정관념에 얽매이지 않고 데이터 활용을 검토하는 기업이라면 좋은 참고가 될 것이다.

리크루트의 사례에서는 각 서비스에 구축한 하둡 활용과, 인프라 기반팀과 마케팅/분석팀이 같은 부서 소속이라는 조직 체제에 주목하고 싶다.
일괄처리 시간 단축이라는 하둡의 장점뿐만 아니라 '고속 처리를 바탕으로 몇 번이든 요건을 변경하고 시행착오를 반복해 분석 정밀도 높이기', '샘플 데이터에 의존하지 않는 롱 테이블 부분 해석하기', '개발 주기 단축' 과 같은 리크루트가 생각하는 '하둡의 진가'는 앞으로 하둡활용을 고려하는 모든 기업이 염두에 두어도 될 것이다.

개인의 감성보다 수천만 명의 데이터를 믿는다는 GREE 에서는 모든 업무에 데이터를 바탕으로 설명해야 하는 책임을 요구하므로, 서비스 설계, 개발 단계에서부터 필요한 로그 데이터를 수집할 수 있게 한다. 언뜻 보면 단순해 보이는 작업이지만 중요한 점이다.
하루에 수 테라바이트에 달하는 데이터가 다음 날에는 분석이 끝나고 가시화된 상태에 있는 비즈니스의 속도감과 이를 지탱하는 GREE 의 팀 체제는 리크루트와 마찬가지로 좋은 참고가 될 것이다.

일본 맥도널드처럼 일대일 마케팅을 하려는 기업은 우선 고객의 행동 이력과 구매 이력 데이터 수집이 필요하다. 데이터 수집 누락을 막고 고객의 모든 구매 행동을 파악하려면 휴대전화나 스마트폰 활용이 효과적이다.

빅데이터 활용 유형은 '개별 최적화, 일괄처리형', '개별 최적화, 실시간처리형', '전체 최적화, 일괄처리형', '전체 최적화, 실시간 처리형'의 네가지로 분류할 수 있다.
빅데이터의 활용에는 '과거/현재의 상황파악 → 패턴발견 → 예측 → 최적화' 의 네 단계가 있다. 단 서비스에 따라서는 최종목표가 반드시 '최적화' 일 필요는 없다.
빅데이터 활용의 진가는 '데이터양', '다양성', '발생 빈도' 라는 특성이 있는 데이터를 비즈니스에 적절히 도입해 가는 것이다. 특히 예전에 활용하지 않았던 데이터나 얻을 수 조차 없었던 새로운 데이터를 활용함에서 커다란 비즈니스 기회가 생긴다.

사용자의 허가 없이 인터넷의 사용자 개인정보, 행동이력등을 수집해 광고사업자 등 3자에게 되파는 회사가 끊임없이 생기고 있다. 이 때문에 미국과 EU 에서는 인터넷의 행동 이력 수집을 둘러싼 논의가 활발히 진행되고 있다.
빅데이터를 비즈니스에 활용하려면 개인정보보호 문제는 피해갈 수 없다. 한 번이라도 대응을 잘못하면 기업의 신용이 크게 실추되면, 때에 따라서는 서비스를 중단해야 하는 상황도 있을 것이다. 과도하게 신경 쓸 필요는 없지만, 사용자 배려가 부족한 서비스는 사용자 지지를 얻기 어렵다는 사실을 명심할 필요가 있다.

개인 정보나 개인정보와 유사한 정보를 다루는 회사는 앞으로 사전에 개인정보 이용목적을 정해 사용자의 동의를 구하는 동시에 이용 목적을 변경할 때 알기 쉽게 통지하는 투명성 확보가 중요해질 것이다. 투명성 확보의 핵심은 얼마나 사용자에게도 이득이 되는지 호소할 수 있는가다. 사업자에게만 이득이 된다면 사용자 이해를 구하기는 어렵다. 반대로 사용자에게도 많은 이득이 있다면 사용자 동의를 구하기 위한 장벽은 낮아질 것이다.

WWW 의 아버지 팀 버너스 리가 제창한 '데이터를 공개하고 모두 연결해 사회 전체적으로 큰 가치를 낳고자 공유하려는 움직임' 을 LOD(Linked Open Data)라고 부른다. LOD 활동은 정부 정보를 적극적으로 공개하고 시민 행정 참여를 촉진하는 '열린 정부'로 이어진다. 미국 연방 정부와 영국 정부를 시작으로 세계 각국의 정부로 확대되고 있다.
미국에서는 정부가 LOD 형식으로 무료 공개한 데이터를 활용해 새로운 비즈니스를 시작하는 벤처가 지속해서 생겨나고 있다. 민간 기업도 건전한 데이터 유통을 촉진하고 데이터 원스톱 쇼핑을 할 수 있도록 데이터 마켓플레이스를 개설하고 있다. 데이터 마켓플레이스 사이에 상호운용성이란 문제가 있지만, 앞으로는 LOD 와의 융합이 도모될 가능이 있다.

빅데이터 활용을 위한 전략 프레임워크를 바탕으로 사내 데이터뿐만 아니라 사외 데이터에도 눈을 돌리는 일이 중요하다. 외부 데이터를 사고 팔고, 그리고 사내 데이터를 파는 것을 포함한 넓은 시야가 필요하다.
고유 데이터가 있는 기업은 빅데이터 시대의 승자가 될 가능성이 크다. 우선은 자사의 고유 데이터를 찾아내고, 다시 외부 데이터와 조합해 '프리미엄 데이터'로 승화시키는 것을 검토할 필요가 있다.
벤더의 새로운 비즈니스 기회는 '데이터 어그리게이터'다. 데이터를 생성하는 모든 업계에서 '데이터 어그리게이터'가 될 기회가 생길 것으로 보인다.
빅데이터 시대에 유망한 직종은 통계분석과 기계학습, 분산처리 기술 등을 이용해 많은 데이터로부터 비즈니스에서 의미 있는 통찰을 이끌어내 의사 결정자에게 알기쉽게 전달하거나 데이터를 이용한 새로운 서비스를 만들어 낼 수 있는 '데이터 과학자'다.

일본에서도 데이터 과학자 구인 경쟁이 시작되려 하고 있다. 일반 기업에 서비스를 제공하고자 대형 IT 벤더가 사내 육성이나 M&A로 인력확보를 시작했지만, 한발 앞선 빅데이터 활용 기업은 고급 기술을 가진 외국인을 채용하기 시작했다.

마지막 남은 과제는 데이터 분석 결과로 얻어진 통찰을 정확한 의사 결정이나 신속한 행동으로 연결할 수 있는 조직 체제 및 기업 분위기 조성이다.

  • book/빅_데이터의_충격.txt
  • Last modified: 3 years ago
  • (external edit)