이번 포스팅에서는 빅데이터의 수집에 대해서 검색데이터의 활용, 텍스트데이터의 활용, 웹페이지 데이터의 수집과 활용, API를 이용한 데이터의 수집과 활용으로 나누어서 살펴본다.
빅데이터는 정부 및 기업의 업무 과정에서 생성되어 내부 데이터베이스에 저장된 후 특별한 사유가 없는 한 공개되지 않는 내부 데이터와 정부 및 공공기관의 공개 데이터, 포털 데이터, 소셜 네트워크 데이터 등 반정형 또는 비정형 데이터로 구성되어 외부로 공개되는 외부 데이터가 있다. 빅데이터 분석을 위해서는 내부 데이터와 외부 데이터의 결합이 필수적이다. 이러한 데이터는 아래에서 살펴볼 크롤링이라는 기법으로 수집되고 있다.
데이터의 수집이란 내부 데이터와 다양한 데이터를 수집, 변환, 통합하는 것이다. 데이터의 수집은 검색, 수집, 변환의 연속과정으로 구성되어 있고 수집된 데이터는 저장되어 분석된다. 외부 데이터는 검색이나 공개된 웹페이지를 통해 수집된다. 현재 데이터를 수집할 수 있는 외부 데이터베이스로는 통계청, 세계은행 등이 있고 포털 사이트로는 구글, 네이버 등이 있다.
구글 및 네이버와 같은 포털 사이트들은 사용자가 검색한 결과를 정리해서 정보를 제공하고 있는데, 그 대표적인 예가 구글의 구글 트렌드와 네이버의 네이버 데이터랩이다. 먼저 국내 서비스인 네이버 데이터랩을 살펴본다. 네이버가 제공하는 네이버 데이터랩의 검색어 트렌드에서 검색어들의 시간적 추이를 그래프로 볼 수 있는데, 두 가지 데이터를 비교할 수도 있어서 꽤 유용한 서비스이다. 그다음으로는 전 세계인들이 활용하는 포털 사이트인 구글에 대해 살펴본다. 구글 트렌드는 검색어가 국가, 도시, 언어에 따라 무엇이 달라지고 있는지를 볼 수 있도록 시각화해 주는 서비스이다. 구글 트렌드가 주목받게 된 사례는 구글 독감 트렌드이다. 구글에서 독감 관련 키워드의 트렌드를 집계하여 국가별 독감 유행 수준을 사전에 예측한 것이다. 해당 서비스는 활발하게 사용되다가, 2013년 초 구글 독감 트렌드의 예상값이 미국질병통제센터의 실제 독감 감염자와 큰 차이를 보인 이후 중단되었다.
다음으로는 텍스트 데이터의 활용에 대해서 살펴본다. 텍스트 데이터의 대표적인 예는 역시 뉴스, 신문 그리고 책이다. 구글은 전 세계에 출판된 모든 책을 스캔해서 디지털화하는 작업을 진행해 구글 북스로 서비스하기 시작했다. 구글 북스는 스캔 된 책들을 광학 문자인식 기술을 이용해 문자열로 변환하여 데이터베이스에 저장하고, 관심 있는 키워드를 검색해서 책의 내용을 검색할 수 있도록 하고 있다. 구글 Ngram Viewer는 구글 북스를 사용할 수 있는 서비스로, 어떤 단어나 사람 이름이 1800~2019년 사이에 발표된 책 중에서 매년 몇 번이나 나타났는지 데이터로 추출해서 시계열 그래프로 보여주는 서비스이다. 한국의 예를 들면 한국언론진흥재단의 빅카인즈가 잇다. 빅카인즈는 한국언론진흥재단이 다양한 언론사로부터 수집한 뉴스로 구성된 데이터베이스에 분석을 접목하여 개발한 뉴스 분석 서비스이다.
웹페이지 데이터의 수집도 중요한 테마 중 하나이다. 웹 크롤링은 웹페이지 상의 텍스트, 이미지, 동영상 등을 필요한 부분만 추출할 수 있도록 하는 기술이다. 웹페이지의 데이터들은 다양한 방법으로 활용된다. 온라인 물가지수 작성, 감정 데이터 분석 등이 있는데 그 중 온라인 물가지수가 인기 있는 이유를 보면, 온라인 쇼핑몰의 상품가격이 시시각각 변하고 품목이 많기 때문이다. 일부 품목에 한정하여 물가지수를 측정하는 소비자물가지수보다 훨씬 민감하고 정확하다.
다음으로는 API를 이용한 데이터의 수집과 활용을 살펴본다. 다양한 플랫폼 회사에서는 공개 API를 통해 공공데이터 등을 제공하고 있고, 개발자들은 그 데이터를 활용하여 각종 응용서비스를 만들고 있다. 이제는 X라는 이름으로 변화된 예전 트위터의 데이터 수집이 그 대표적인 예이므로 한 번 분석해 본다. 트위터는 2006년 시작된 소셜네트워크서비스로 기존의 인터넷 뉴스 등 소식을 전파하는 수단보다 훨씬 빠르게 소식을 전파한다. 긴급 재난 뉴스나 정전과 같은 정보를 가장 빠르게 접할 수 있다. 트위터는 외부에서 트위터의 기능을 이용해 제삼자 애플리케이션을 개발하거나 데이터를 수집할 수 있도록 공개 API를 제공하고 있다. 필자도 기본 트위터 사이트가 아닌 공개 API를 이용해 만들어진 트위티라는 애플리케이션으로 트위터를 이용한 기억이 있다. 참고로 트위터는 2012년 미국 대선 홈페이지를 개설하고 대선 관련 트윗을 분석해 트위터 정치지수를 작성한 적도 있다. 많은 사용자가 실시간으로 엄청난 텍스트를 업로드 한다는 장점을 활용한 것이다. API를 이용한 데이터의 수집 및 활용은 개인이 생산하는 데이터 분야뿐만 아니라 공공데이터 분야에서도 사용되고 있다. 공공데이터 활용 사례로는 버스의 도착시간을 알려주는 애플리케이션이 있다. 해당 서비스는 사람들이 버스를 기다리는 시간을 획기적으로 단축해 주었다. 하지만 무엇보다 대표적인 예는 COVID-19 시절 마스크 관련 데이터 공개이다. 건강보험심사평가원에서 마스크 판매처와 판매 현황을 한국지능정보사회진흥원에 제공하고, 한국 지능정보사회진흥원은 해당 데이터에 판매처를 결합하여 오픈 API 방식으로 데이터를 공개하였고, 그 후 이를 이용한 애플리케이션이 다수 개발되어 이용자들이 마스크를 효율적으로 구매할 수 있었다. 이처럼 빅데이터는 데이터를 효율적으로 수집하고, 사용하는 데 그 의미가 있다.
'컴퓨터과학' 카테고리의 다른 글
빅데이터 시각화 (0) | 2024.01.15 |
---|---|
텍스트 빅데이터 (1) | 2024.01.15 |
빅데이터의 개요 (0) | 2024.01.15 |
파일 처리 시스템과 데이터베이스 시스템 (1) | 2024.01.14 |
4차 산업혁명과 미래 (1) | 2024.01.14 |