빅데이터
1. 정의
가트너의 3V: 데이터 양(Volume)이 많고, 형태가 다양(Variety)하며, 속도(Velocity)가 빠른 데이터.
가치(Value)를 더하면 4V
2. 환경
*분산 컴퓨팅
-빅데이터의 규모를 감당하기 위해 컴퓨터 용량을 늘이는 방법. 여러 대의 컴퓨터에 작업을 나누어 처리한다. 다수의 컴퓨터로 구성되어 있는 시스템을 마치 한 대의 시스템인 것처럼 작동.
* 클라우드 컴퓨팅
- 클라우드(cloud)는 인터넷을 의미, 클라우드 컴퓨팅은 인터넷 기반 컴퓨터 기술을 의미한다.
- 사용자가 필요한 SW를 자신이 컴퓨터에 설치하지 않고도 인터넷으로 사용 가능하며 데이터를 각종 기기에 공유하는 사용환경.
* 하둡(Hadoop)
- 대용량 데이터 처리를 위한 오픈소스 플랫폼.
- HDFS(분산파일 시스템)과 맵리듀스(분산처리시스템)으로 구성됨
*NoSQL
- 비관계형 데이터베이스(non realtional db)
* R
-데이터 분석을 위한 통계 및 그래픽스를 지원하는 오픈 소스 프로그램.
- 공개용 통계 분석도구로, 다양한 분야의 패키지들을 다운할 수 있다.
- 자바,C,파이썬 등의 프로그래밍 언어와 연결도 용이하다.
3. 분석 방법
기존 데이터 분석
|
빅데이터 분석
|
- 데이터 마이닝
- 기계학습(머신러닝)
|
- 텍스트마이닝
- 감성분석
- 소셜 네트워크 분석
- 텍스트 클러스터링
|
텍스트마이닝
1. 정의
- 텍스트 마이닝은 텍스트 형태의 비정형 데이터에 마이닝 기법을 적용한 것
- 컴퓨터가 사람들이 말하는 언어를 이해할 수 있는 '자연어 처리'에 기반을 둔 기술이다
2. 워드 클라우드
- 사용빈도가 높은 단어일수록 큰 글씨로 표시함으로써 문서에서 강조하고자 하는 말을 한눈에 알아볼 수 있는 기법
감성분석(sentimint analysis)
1. 정의
- 텍스트를 작성한 사람들의 태도,의견,성향과같은 주관적인 데이터를 가지고 특정 주제에 대해 긍정인지 또는 부정인지를 분류하는 기술. '오피니언 마이닝'이라고 한다.
- 주로 적용되는 분야: 영화평,도서평,상품평 등에 대한 분석과 선거 예측 주식시장 예측등의 분야
예1) 상품평 분석 통한 효과적인 마케팅 전략을 수립할 수 있다
예2) 트위터 분석을 통한 뉴욕시의 감성 맵
2. 감성분석 방법
- 문서에 대해 긍정과 부정을 나타내는 감성점수(sentiment score)를 계산
<감성점수 = 긍정적 단어의 수 - 부정적 단어의 수>
- 긍정과 부정을 판단하기 위해 감정어휘사전이 필요하다
http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
- 단점 : 다의어,예를들면 역설과 풍자를 다루지 못함
2020/7/21 복원
'R' 카테고리의 다른 글
[프로그래밍 언어] R이란? (0) | 2021.11.21 |
---|