본문 바로가기
컴퓨터과학

빅데이터의 개요

by 라임_Lime 2024. 1. 15.

출처: 픽사베이

 

 

빅데이터란 각종 센서 등을 이용해 측정되어 빠른 속도로 축적되고 있는, 크고 다양한 형태를 가지고 빠르게 생산, 유통, 소비되는 데이터를 의미한다. 빅데이터의 예로는 다양한 사회관계망서비스 데이터, 검색 데이터, 건강 데이터, 사진, 동영상 등이 있는데, 빅데이터의 핵심은 이로부터 의미 있는 지식과 지혜를 만드는 데 있다. 이에 따라 데이터로부터 지식과 지혜를 만들어 가는 과정인 지식 피라미드를 설명하기로 한다.

지식 피라미드란 DIKW피라미드라고도 불린다. D는 데이터, I는 정보, K는 지식, W는 지혜를 의미한다. 이 지식 피라미드를 통해 우리는 데이터가 어떻게 축적되어서 우리에게 새로운 통찰을 주는지 배울 수 있다. 피라미드의 가장 아래에 있는 데이터는 가장 객관적인 사실이다. 데이터만으로는 의미를 찾기가 어렵기 때문에 이를 모아서 가공하고 정리하는 단계가 필요하다. 이 단계를 거치면 바로 데이터가 정보가 된다. 즉, 관측자에게 의미 있는 자료가 된다는 뜻이다. 정보들을 분석해 보면 일반적인 특성이나 패턴이 있는 것을 볼 수 있게 되는데, 이렇게 일반화하여 받아들이면 지식이 된다. 마지막으로 서로 다른 지식을 결합하고 학습한 후 개인의 통찰을 추가해 미래를 위한 최선의 결정을 하게 하는 것이 지식 피라미드의 최상층인 지혜이다. 

그다음으로는 데이터의 역사를 통해 빅데이터의 등장에 대해 살펴본다. 인류 역사를 보면 정보는 오랜 기간 인쇄물을 통해 축적되고 전파되어 왔다. 하지만 20세기 중반 이후 컴퓨터가 대중화되면서 데이터의 축적도 가속화되었다. 개인용 PC가 발명됨에 따라서 비즈니스 기본 데이터들도 축적되었고, 이런 데이터들은 데이터베이스에 보관되었으며, 데이터 웨어하우스까지 도입되었다. 그 후 스마트폰이 확산하면서 스마트폰에 내장된 센서들이 서비스 제공 업체들에 축적되었다. 단순히 숫자나, 텍스트 문서뿐만 아니라 위치 정보, 사진, 동영상, 위치 데이터 등으로 데이터의 종류가 변화하게 되었다. 또한 기존에 데이터를 축적하는 주체가 기업이나 국가였다면, 이제는 개인들이 데이터를 생산하게 되었다.

빅데이터의 확산 배경으로는 3가지가 있다. 먼저 센서를 포함한 스마트기기의 확산이다. 그 예로는 스마트폰과 각종 웨어러블 기계가 있다. 두 번째로는 빅데이터 기반 하드웨어 및 네트워크의 고도화이다. 빅데이터를 저장하고 처리할 수 있는 컴퓨터의 성능이 발전했을 뿐만 아니라, 데이터를 전송하는 유무선 네트워크 환경도 발전했다는 의미이다. 기존에는 회사 내부 서버에서 빅데이터를 처리하고 저장했지만, 이제는 클라우드 컴퓨팅을 통해 빅데이터를 저장, 처리, 분석할 때 발생하는 문제점들이 해결되고 있다. 마지막으로는 빅데이터 기반 소프트웨어의 발전이다. 아무리 빅데이터를 저장하고 처리할 수 있는 성능의 컴퓨터가 갖춰진다 해도 이를 처리할 프로그램이 없으면 소용이 없다. 지금은 정형 데이터뿐만 아니라 비정형 데이터까지 분석할 수 있는 여러 가지 분석기법들이 등장했다. 이와 같은 세 가지 배경을 통해 빅데이터가 지금과 같이 우리의 삶에 녹아들게 되었다.

빅데이터의 정의는 학자마다 다르지만, 그 특성에 대해서는 큰 이견이 없다. 즉, 빅데이터의 속성은 규모, 다양성, 속도의 3V이다. 최근에는 여기에 정확성과 가치를 추가해 5V로 정의하기도 한다. 먼저 규모를 살펴보면, 데이터의 규모가 크다는 의미이다. 2025년에는 181제타바이트까지로 데이터 생성 및 복제의 규모가 증가할 것으로 볼 정도이다. 데이터의 규모가 크다는 것은 분석을 통해 보다 정확하고 의미 있는 가치를 얻을 수 있다는 의미이다. 두 번째로는 다양성이다. 엑셀 데이터와 같이 대표적인 정형 데이터뿐만 아니라, 비정형 및 반정형 데이터들이 증가하고 있다는 뜻이다. 세 번째로는 속도이다. 빅데이터 발전의 확산 배경에서 설명한 것처럼 유무선 네트워크 환경도 고도화 덕택에 각종 데이터가 빠르게 쌓였다.  추가적으로 등장하는 개념인 정확성은 데이터의 품질이 좋아야 좋은 데이터가 나올 수 있다는 의미이며, 가치란 의미 있는 의사결정에 힘이 될 수 있도록 빅데이터로부터 통찰을 얻어야 한다는 것이다. 이런 특성을 종합해 빅데이터를 광의로 정의해 보면, 협의의 빅데이터 정의에 빅데이터로부터 의미 있는 가치를 도출할 수 있는 빅데이터 관련 기술, 관련 인력 및 조직과 인프라를 포함한다고 보아야 할 것이다. 

빅데이터로부터 의미 있는 통찰을 도출하려면 이를 이해하고 기술적으로 처리하며 의미를 부여할 수 있는 데이터 과학자가 필요하다. 참고로 하버드 비즈니스 리뷰에서는 2012년 데이터 과학자를 '21세기 가장 매력적인 직업'이라고 지칭한 바 있다. 데이터 과학은 통계학과는 달리 모집단과 관련성이 크지 않더라도 수집되고 있는 다양한 형태의 데이터를 통계학이나 인공지능 방법을 적용하여 통찰을 얻는 분야이다. 데이터 과학자란 해당 분야의 전문지식을 바탕으로 데이터를 수집, 저장, 가공하고 다양한 데이터를 결합, 분석하며 이로부터 새로운 가치를 만드는 일을 하는 직업이다. 사실 데이터와 관련된 직무는 데이터 공학자, 데이터 분석자, 데이터 과학자 등이 있지만, 데이터 과학자는 데이터 분석자보다 심화한 통계학, 수학, 기계학습 능력과 이를 구현할 수 있는 코딩 능력을 갖춰야 한다. 가트너는 데이터 과학자를 '빅데이터 프로젝트를 위해 정보 자산으로부터 인사이트를 추출하며 다양한 분야의 기술을 겸비해 하나의 팀으로 높은 성과를 내는 사람'으로 정의하고 있다.