본문 바로가기
Work/AI

데이터 분석기법 7가지

비즈니스 가치를 만드는 7가지 빅데이터 기법

빅데이터란 무엇인가?

‘빅데이터’란 거대한 데이터를 처리하기 위해 특화된 기법과 기술을 적용하는 것입니다.
이러한 데이터는 너무나 방대하고 복잡해서 수작업으로 처리가 불가능합니다.
웹로그, 전화 기록, 진료 기록, 군사 기록, 사진 기록, 영상 기록, 그리고 대규모 전자상거래 기록 등이 빅데이터의 예에 속합니다.

‘거대함’에 대하여, 우리는 적어도 1 terabyte를 필요로 하는 데이터세트라고 말할 수 있으며, 더 나아가 수백의 petabytes까지 말할 수 있습니다. (1 petabyte = 1024 terabytes). 페이스북은 적어도 100 petabytes가 넘는 사진 및 영상 데이터를 저장하고 있다고 추정됩니다.

1.  Association rule learning (연관성 분석)

Q. 차(tea)를 구매하는 사람은 탄산음료를 구매할까 , 구매하지 않을까?

Association rule learning (연관성 분석)은 방대한 데이터 속에서 변수들 간의 흥미로운 연관성을 찾아내는 기법입니다. 이 기법은 제품간의 흥미로운 관계를 찾아내기 위하여, 처음으로 대형 슈퍼마켓 체인점에서 슈퍼마켓의 point-of-sale (POS)의 데이터를 활용하여 쓰였습니다.

Association rule learning (연관성 분석)의 활용

  • 매출을 올리기 위한 각 제품 간의 더 나은 근접 배치 선정
  • 웹사이트 방문자의 정보 추출
  • 새로운 생물학적 관계를 밝혀내기 위한 생물학 데이터 분석
  • 불법 침입자 또는 악의적인 활동을 감지하기 위한 시스템 로그 모니터링
  • 맥주를 구매하는 사람이 기저귀를 구매할 가능성이 높은가 등에 대한 연관성 분석

 

 

2. Classification tree analysis (분류 트리 분석)

Q. 이 문서는 어떤 카테고리에 속할까?

Classification tree analysis (분류 트리 분석)은 통계학적 개념을 포함하며, 통계학적 분류는 새로운 관측 값이 속하는 카테고리를 파악하는 기법입니다. 이 기법은 정확히 파악된 관측 값의 데이터 세트(과거 데이터)가 필요합니다.

Classification tree analysis (분류 트리 분석)의 활용

  • 문서의 자동 카테고리 분류
  • 유기체의 그룹 분류
  • 온라인 코스를 수강하는 학생의 프로필 구축

 

3. Genetic algorithms (유전연산법)

Q. 시청률 순위를 최대화 시키기 위하여 어떤 TV 프로그램이, 어느 시간대에 방영 되야 할까?

Genetic algorithms (유전연산법)은, 돌연변이 그리고 자연도태(natural selection)와 같은 메커니즘을 통하여, 진화가 이루어지는 방법에 영감을 받은 기법입니다. 이러한 메커니즘은 최적화를 필요로 하는 문제에 대한 유용한 해결방법을 “진화”시키는 것에 사용될 수 있습니다.

Genetic algorithms (유전연산법)의 활용

  • 응급실 의사들의 최적화 된 스케줄 조정
  • 최적의 물질 조합 반환작업과 연료 효율이 최적화된 차를 개발하기 위한 공학적 수련

 

4. Machine learning (기계 학습)

Q. 우리의 영화 카탈로그 중에서, 고객이 이전에 관람한 영화 기록을 통해, 어떤 영화가 다음에 볼 가능성이 높을지 알 수 있을까?

Machine learning (기계 학습)은 데이터를 통해서 학습을 할 수 있는 소프트웨어를 포함합니다. 이러한 소프트웨어는 컴퓨터에게 학습할 수 있는 능력을 부여하고, 이전에 알고 있는 속성을 기반으로 미래를 ‘예측’을 하는 것에 초점을 맞추고 있습니다.

Machine learning (기계 학습)의 활용

  • 스팸 메시지와 비스팸 메시지의 분류
  • 사용자의 선호를 학습을 통한 추천 시스템 구축
  • 미래의 고객을 사로잡기 위한 최고의 컨텐츠 결정
  • 승률 예측 (게임 또는 스포츠 등)

 

4-1. Deep learning

Q. 컴퓨터도 인간처럼 ‘지능’을 지닐 수 있을까?

Deep learning(딥러닝)은 기계학습의 한 영역입니다.
이 기법은 인간의 신경망(Neural Network)이론을 토대로 구축한 인공신경망(Artificial Neural Network)입니다.

인간의 뇌는 250억 개 이상의 신경세포들이 연결되어 ‘지능’을 갖추게 됩니다. 이를 모방하여, 딥러닝은 다수의 노드(Node)로 구성 된 신경망을 통해, 정보를 전달하고 처리하며 데이터의 패턴을 찾아냅니다. 인간의 뇌가 문제를 해결하는 방식과 유사하게 구현해 내는 것이 딥러닝입니다.

 

5. Regression analysis (회귀 분석)

Q. 당신의 나이가 당신이 산 차의 종류에 어떤 영향을 줬을까?

기본적으로, Regression analysis (회귀 분석)은 몇 개의 독립변수(예: 배경음악)를 처리하는 과정이 반드시 필요하며, 그 이유는 독립변수가 종속변수(예: 가게에 머무는 시간)에 어떤 영향을 끼치는 지 알아보고자 하기 때문입니다.
이는 독립변수가 변화함에 따라서, 종속변수 값이 어떻게 변화하는지를 묘사합니다. 회귀분석은 몸무게, 속도, 또는 나이와 같은 연속 수치 값으로  분석했을 때 최상의 결과를 도출해낼 수 있습니다.

Regression analysis (회귀 분석)의 활용

  • 고객만족도와 고객 충성도와의 관계 도출
  • 이웃 주민과 그 규모는 집 가격에 영향을 주는가

 

6. Sentiment Analysis (감성 분석)

Q. 새로운 반품 정책은 얼마나 잘 수용되고 있을까?

Sentiment Analysis (감성 분석)은 연구자가 화자 또는 작가의 감정을 판단하는데 도움을 줍니다.

Sentiment Analysis (감성 분석)의 활용

  • 고객의 의견 분석을 통한 호텔체인점 서비스의 개선
  • 고객이 진정으로 원하는 것을 처리하기 위한 고객 맞춤 우대 조치 및 서비스 제공
  • 소셜미디어 상의 의견을 기반으로 고객들이 정말로 무엇을 생각을 하는가에 대한 결정

 

7. Social Network Analysis (사회 연결망 분석)

Q. 당신은 Kevin Bacon과 얼마나 가까울까요? (케빈 베이컨의 여섯 다리)

Social Network Analysis (사회 연결망 분석)은 통신산업에서 처음으로 사용되었습니다.
그 후, 대인관계를 연구하기 위하여 사회학자들에 의해 빠르게 수용되었습니다.

지금은 다양한 분야에서 상업 활동을 하고 있는 사람들 사이의 관계를 분석하는 것에 응용되고 있으며, 노드(nodes)은 연결망에서 각 개인을 묘사하며, 연결선(ties)은 각 개인의 관계를 의미합니다.

Social Network Analysis (사회 연결망 분석)의 활용

  • 다른 집단의 사람들은 외부인과 어떤 연결관계를 형성하는가
  • 특정 집단 내에서 중요하거나 영향력이 있는 개인은 누구인가
  • 두 명의 개인이 연결되기 위한 최소한의 거쳐야 하는 연결수
  • 고객의 사회 구조 이해하기