본문 바로가기
R

'R을 이용한 빅데이터 분석' 중 일부 요약

by 코딩초 2021. 12. 7.

빅데이터

1. 정의

가트너의 3V: 데이터 양(Volume)이 많고, 형태가 다양(Variety)하며, 속도(Velocity)가 빠른 데이터.

가치(Value)를 더하면 4V

2. 환경

*분산 컴퓨팅

-빅데이터의 규모를 감당하기 위해 컴퓨터 용량을 늘이는 방법. 여러 대의 컴퓨터에 작업을 나누어 처리한다. 다수의 컴퓨터로 구성되어 있는 시스템을 마치 한 대의 시스템인 것처럼 작동.

* 클라우드 컴퓨팅

- 클라우드(cloud)는 인터넷을 의미, 클라우드 컴퓨팅은 인터넷 기반 컴퓨터 기술을 의미한다.

- 사용자가 필요한 SW를 자신이 컴퓨터에 설치하지 않고도 인터넷으로 사용 가능하며 데이터를 각종 기기에 공유하는 사용환경.

* 하둡(Hadoop)

- 대용량 데이터 처리를 위한 오픈소스 플랫폼.

- HDFS(분산파일 시스템)과 맵리듀스(분산처리시스템)으로 구성됨

*NoSQL

- 비관계형 데이터베이스(non realtional db)

* R

-데이터 분석을 위한 통계 및 그래픽스를 지원하는 오픈 소스 프로그램.

- 공개용 통계 분석도구로, 다양한 분야의 패키지들을 다운할 수 있다.

- 자바,C,파이썬 등의 프로그래밍 언어와 연결도 용이하다.

3. 분석 방법

기존 데이터 분석
빅데이터 분석
- 데이터 마이닝
- 기계학습(머신러닝)
- 텍스트마이닝
- 감성분석
- 소셜 네트워크 분석
- 텍스트 클러스터링

텍스트마이닝

1. 정의

- 텍스트 마이닝은 텍스트 형태의 비정형 데이터에 마이닝 기법을 적용한 것

- 컴퓨터가 사람들이 말하는 언어를 이해할 수 있는 '자연어 처리'에 기반을 둔 기술이다

2. 워드 클라우드

- 사용빈도가 높은 단어일수록 큰 글씨로 표시함으로써 문서에서 강조하고자 하는 말을 한눈에 알아볼 수 있는 기법

감성분석(sentimint analysis)

1. 정의

- 텍스트를 작성한 사람들의 태도,의견,성향과같은 주관적인 데이터를 가지고 특정 주제에 대해 긍정인지 또는 부정인지를 분류하는 기술. '오피니언 마이닝'이라고 한다.

- 주로 적용되는 분야: 영화평,도서평,상품평 등에 대한 분석과 선거 예측 주식시장 예측등의 분야

예1) 상품평 분석 통한 효과적인 마케팅 전략을 수립할 수 있다

예2) 트위터 분석을 통한 뉴욕시의 감성 맵

2. 감성분석 방법

- 문서에 대해 긍정과 부정을 나타내는 감성점수(sentiment score)를 계산

<감성점수 = 긍정적 단어의 수 - 부정적 단어의 수>

- 긍정과 부정을 판단하기 위해 감정어휘사전이 필요하다

http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

- 단점 : 다의어,예를들면 역설과 풍자를 다루지 못함

 


2020/7/21 복원

'R' 카테고리의 다른 글

[프로그래밍 언어] R이란?  (0) 2021.11.21