본문 바로가기

전체 글21

인공지능과 기계학습 기계학습을 설명하기 위해서는 인공지능에 대해 먼저 공부해야 한다. 인공지능은 인간의 학습 능력, 추론 능력, 지각 능력을 인공적으로 구현하려는 컴퓨터 과학의 세부 분야이다. 즉, 인간의 지능을 모방한 기능을 갖춘 컴퓨터 시스템이다. 반면 기계학습은 컴퓨터가 빅데이터로부터 자동으로 지능에 대한 정보를 얻어내는 방법이라고 보면 된다. 인공지능의 역사는 개척기, 황금기, 암흑기, 개화기로 나누어진다. 먼저 개척기에 대해 살펴본다. 1950년대부터 미국의 주요 대학과 연구소에서 수학, 공학자들이 인공지능 연구 분야를 개척하기 시작했는데, 그 대표적인 예로는 1950년도의 앨런 튜링의 튜링 테스트가 있다. 튜링 테스트의 본래 목적은 심리학에 대한 실험적인 접근이었다고 한다. 기계가 인간의 사고를 얼마나 이해하고 .. 2024. 1. 15.
빅데이터 시각화 빅데이터 분석의 핵심은 유용한 정보 전달이다. 정보를 보다 정확하고 알기 쉽게 전달하기 위해서는 데이터를 시각화하는 게 중요하다. 시각화된 이미지를 통해 의미를 직관적으로 이해하고 판단할 수 있기 때문이다. 데이터 시각화란 컴퓨터를 사용하여 인지를 넓힐 수 있도록 데이터를 상호작용이 가능한 시각적 형태로 만드는 것이라고 통상 정의되고 있다. 사실 필자는 처음 시각화라는 단어를 봤을 때, 시각화란 그래픽이나 이미지를 만드는 과정이라고 생각했다. 하지만 시각화란 단순히 이미지를 만드는 과정이 아니라, 이미지를 통해 독자가 쉽게 이해할 수 있도록 만들어주는 과정 자체를 의미한다. 즉, 데이터 시각화는 데이터의 숨은 의미를 밝혀주고, 설명하고, 의사결정을 내리는 데 도움을 주는 통찰력을 가지게 하는 데 그 목적.. 2024. 1. 15.
텍스트 빅데이터 텍스트는 가장 대표적인 정보의 저장 단위이다. 텍스트 빅데이터 기반의 서비스로는 텍스트 요약, 텍스트의 분류, 감성 분석, 의미연결망 분석, 기계번역, 질의응답, 챗봇, 음성인식 등이 있다. 텍스트 빅데이터의 핵심은 이에 내포하고 있는 의미를 얼마나 뚜렷하게 분석해 낼 수 있는지이다. 텍스트는 기본적으로 명목 데이터이다. 하지만 의미나 관계에 따라서 요일, 반어의 빈도, 동의어, 반대어 등은 비명목 데이터로 볼 수도 있다. 텍스트 데이터를 사용하기 위해서는 텍스트 내에서 주요한 단어를 찾아내는 과정을 거쳐야 하는데 이를 텍스트 프로세싱이라고 한다. 텍스트 분석의 일환인 텍스트 프로세싱은 간단히 말하면 텍스트에서 의미 있는 정보를 찾아내는 것이다. 사실 언뜻 보면 자연어 처리와 비슷해 보인다. 자연어 처리.. 2024. 1. 15.
빅데이터의 수집과 활용 이번 포스팅에서는 빅데이터의 수집에 대해서 검색데이터의 활용, 텍스트데이터의 활용, 웹페이지 데이터의 수집과 활용, API를 이용한 데이터의 수집과 활용으로 나누어서 살펴본다. 빅데이터는 정부 및 기업의 업무 과정에서 생성되어 내부 데이터베이스에 저장된 후 특별한 사유가 없는 한 공개되지 않는 내부 데이터와 정부 및 공공기관의 공개 데이터, 포털 데이터, 소셜 네트워크 데이터 등 반정형 또는 비정형 데이터로 구성되어 외부로 공개되는 외부 데이터가 있다. 빅데이터 분석을 위해서는 내부 데이터와 외부 데이터의 결합이 필수적이다. 이러한 데이터는 아래에서 살펴볼 크롤링이라는 기법으로 수집되고 있다. 데이터의 수집이란 내부 데이터와 다양한 데이터를 수집, 변환, 통합하는 것이다. 데이터의 수집은 검색, 수집, .. 2024. 1. 15.