Bigdata

빅데이터는 과거 아날로그 환경의 데이터에 비해 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짤고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 또한 기존의 기술로는 처리할 수 없는 데이터여서 그 내용을 분석해 보지 못했는데, 기술의 발달로 그 내용을 분석해 보니 가치가 인정되는 데이터를 말합니다. 대용량의 다양한 데이터가 반복적으로 누적된느 환경에서 실시간으로 예측 및 최적화를 수행하는 것을 목적으로 하는 대규모 데이터입니다. 가트너(미국의 리서치 전문업체): 데이터 양이(Volume)이 많고 데이터 형태가 다양(Variety)하며, 데이터 속도(Velocity)가 빠른 데이터로 정의하였습니다.

빅데이터와 스몰데이터의 차이점

데이터가 사전에 정의되지 않고, 다양한 형태를 가지며, 반복됩니다. 예를 들어 비디오, 소셜미디처, 텍스트, 웹로그 같이 정형화되지 않는 데이터를 포함합니다. 데이터의 처리가 실시간 중심이고 과거 분석보다 예측 및 최적화가 목표입니다.

3V + Value(가치)

Volume(크기): 물리적 크기, 기업 데이터, 웹 로그 데이터, 센서 데이터 등 수백 테라바이트(Terabyte)에서 페타바이트(Petabyte)이상의 대용량을 의미합니다. 전수 데이터를 조사할 수 있게 되었습니다. 데이터가 누적될 수록 정확해집니다. 데이터를 지우지 않게 됩니다.
Velocity(속도): 빅데이터의 생성 후 유통되고 활용되고 활용되기까지의 소요되는 시간이 기존의 수시간, 수 주 단위에서 분, 초 단위로 단축되고 있습니다.
Variety(다양성): 주어진 분석틀을 벗어난 탐색형 발굴이 가능합니다. 수급 분석이 가능합니다.
Value(가치): 대부분이 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 매우 빠르게 전파, 유통되고 변화하여 데이터 전체를 파악하고 일정한 패턴을 발견하기 어렵게 되면서 가치 창출의 중요성을 강조됩니다.

데이터의 종류

정형 데이터(Structured Data): 고정된 필드에 저장된 데이터입니다. 관계형 데이터베이스 및 스프레드시트 등이 있습니다.
반정형 데이터(Semi-Structured data): 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터입니다. XML, HTML 텍스트 등이 있습니다.
비정형 데이터(Unstructured data): 고정된 필드에 저장되어 있지 않는 데이터입니다. 텍스트 분석이 가능한 텍스트 문서 및 이미지, 동영상, 음성 데이터 등이 있습니다.

빅데이터의 활용을 위한 3가지 요소

기술(platform, 환경)
자원(bigdata)
인력(data scientist)

빅데이터 환경

분산 컴퓨팅: 클러스터 기반의 분산 컴퓨팅은 같은 공간 내의 서버들을 네트워크 장비로 연결하여 활요할 수 있도록 구성한 컴퓨터 시스템입니다. 용량 확장이 필요할 때마다 쉽게 노드를 추가하여 대규모 데이터를 분산해서 빠르게 처리합니다. 시스템 가용성으로 특정 노드에 자애가 발생하면 다른 노드를 이요해 계속 서비스가 가능합니다. 장애 복구도 장애 노드만을 대상으로 처리 상대적으로 빠릅니다. 빅데이터 활용을 지원하는데 있어서 가장 중요한 기반 기술로 구글, 네이버 등 웹 포털 서비스 업체에서도 분산 컴퓨팅 기술을 활용합니다. 빅데이터를 처리하기 위해서는 여러 대의 컴퓨터에 작업을 나누어 처리하는 분산 처리(distributed processing)가 필수적입니다. 분산 시스템은 다수의 컴퓨터로 구성되어 있는 시스템을 마치 한대의 컴퓨터 시스템인 것처럼 작동시켜 규모가 큰 작업도 빠르게 처리합니다.
클라우드 컴퓨팅: 클라우드(Clould)는 인터넷, 인터넷 기반 컴퓨터기술(computing)을 의미합니다. 사용자가 필요한 소프트웨어를 자신이 컴퓨터에 설치하지 않고도 인터넷 접속을 통해 언제든 사용할 수 있고 동시에 각종 정보통신 기기에 데이터를 손쉽게 공유할 수 있는 사용환경입니다. 문서나 사진, 동영상 콘텐츠를 웹 서버에 저장하면 언제 어디서든 자료를 열람하거나 수정할 수 있을 뿐만 아니라 천재지변에 대한 서비스 중단 시간을 최소화하거나 중단 자체를 방지합니다. 대규모의 데이터를 저장하고 처리하기 위해 다수의 서버(하드디스크)를 통해 분산 처리하는 기술이 클라우드 핵심 기술입니다. 빅데이터와 클라우드는 같은 분산 처리 기술을 사용하는 상호보완적인 관계입니다.
R: 데이터 분석을 위한 통계 및 그래픽스를 지원하는 오픈 소스 프로그램입니다. 공개용(general public license, GPL) 통계 분석도구로 다양한 분야의 패키지들을 다운로드하여 사용할 수 있습니다. 일종의 언어로 기본적인 통계 기법부터 모델링, 최신 데이터마이닝 기법까지 구현이 가능합니다. 구현한 결과는 그래프 등으로 시각화 할 수 있습니다. Java, C, Python 등의 다른 프로그래밍 언어와 연결도 사용할 수 있습니다. 하둡 환경에서 분산처리를 지원하는 라이브러리를 통해 구글, 아마존, 페이스북 등의 빅데이터 분석이 필요한 기업에서 대용량 데이터 통계 분석을 위해 많이 사용합니다.

기존 데이터 분석

데이터 마이닝(data mining): 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용하여 데이터 저장소에 저장된 대용량의 정형화 된 데이터를 조사함으로써 의미 있는 관계, 패턴, 추세 등을 발견하는 과정입니다.
기계 학습(mechine learning): 인공지능의 한 분야로 컴퓨터가 데이터로부터 학습할 수 있도록 알고리즘 개발하는 것이다. 컴퓨터가 입력 데이터로부터 모형을 만들고 모형을 이용하여 새로운 데이터에 대해 예측과 의사결정을 하는 분야입니다. 예를 들어 기계 학습을 통해 수신한 이메일의 스팸을 학습 모형을 이용하여 구별할 수 있습니다.

빅데이터 분석

텍스트 마이닝(text mining): 자연어(natural language)로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾아내는 마이닝 기법으로 자연어 처리(natural language processing) 기술에 기반한 방법입니다. 소셜 미디어에서 생산되는 데이터는 비정형 데이터이기 때문에 텍스트 마이닝을 이용하여 분석합니다. SNS 등을 물론, 온라인 뉴스 등 웹 상에 존재하는 방대한 비정형 데이터를 실시간으로 수집, 분석하여 고객의 감성 및 의도 등을 분석해 내는 과정입니다. 텍스트 형태의 비정형 데이터에 마이닝 기법을 적용합니다. 텍스트에 나타나는 단어를 분해, 정제하고, 특정 단어의 출현빈도 등을 파악하여 단어들 간의 관계를 조사하는 기법입니다. 따라서, 텍스트 마이닝과 데이터 마이닝은 둘다 패턴을 추출한다는 점에서 공통점이 있으나 어디에서 패턴을 추출하는가에 대해서는 차이점이 있습니다. 텍스트 마이닝은 정형화된 데이터보다는 비정형화된 텍스트로부터 패턴을 추출한다는 점에서 차이가 있습니다.
워드 클라우드(word clould): 텍스트에서 빈번히 사용된 키워드를 시각적으로 표시하는 텍스트 마이닝 방법으로, 단어의 사용 빈도가 높을수록 그 단어를 강조하기 위해 크게 표시하는 방법입니다. 사용빈도가 높은 단어일수록 큰 글씨로 표시하므로써 문서에서 강조하고자 하는 말을 한눈에 볼 수 있는 유용한 비줄얼 기법입니다.
감성분석(sentiment analysis): 텍스트를 작성한 사람들의 태도, 의견, 성향과 같은 주관적인 데이터를 가지고 특정 주제에 대해 긍정, 부정, 중립의 선호도를 판별합니다. 오피니언 마이닝(opinion mining)이라고 합니다.
소셜 네트워크 분석(Social Network Analysis, SNA): 소셜 개체(개인 또는 집단)들 간의 사회적 관계를 구조적으로 분석하여 내재된 관계를 파악하는 방법/기술을 말합니다. 구성원들 간의 연결 구조와 연결 강도 등을 정량적인 방법으로 분석으로 내재된 현상을 찾아내는 일입니다.
텍스트 클러스터링(text clustering): 텍스트 문서에 다변량 통계분석의 하나인 군집분석(cluster analysis)을 적용하는 것. 문서 클러스터링(document clustering)이라고 합니다. 텍스트에 나오는 여러 개체들이 대해 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화한 다음 각 집단의 성격을 파악함으로써 텍스트 전체의 구조에 대해 이해하고자 하는 탐색적 분석 기법입니다. 관심사나 취미에 따른 사용자 그룹을 군집 분석을 통해 분류할 수 있습니다.

codeomni

어려운 빅데이터의 용어, 개념, 정리