데이터 분석 준비 과정

1. EDA

EDA(Exploratory Data Analysis)는 데이터를 시각화하고 분석하여 주요 특징을 파악하는 과정입니다. 이를 통해 데이터의 분포, 이상치, 결측치 등 중요한 정보를 확인하고, 데이터의 패턴과 변수 간 관계를 탐색할 수 있습니다.

1.1. 결측치 확인하기

결측치(Missing Value)는 데이터에서 비어있는 값을 의미하며, 이를 파악하고 처리하는 것은 데이터 분석의 첫 단계 중 하나입니다.

•

삭제: 결측치가 많지 않은 경우, 해당 데이터를 제거

•

대체: 평균, 중위값 또는 다른 방식으로 결측치를 대체

1.2. 데이터 분포

데이터 분포는 데이터가 어떤 범위와 패턴으로 구성되어 있는지를 보여줍니다. 데이터의 분포는 히스토그램, 박스플롯 등의 데이터 시각화를 통해 직관적으로 파악할 수 있으며, 평균, 분산, 왜도, 첨도 등의 요약 통계량을 통해 수치적으로 특성을 분석할 수 있습니다.

•

이상치: 분포에서 벗어난 값이 있는지 확인

•

값의 집중 구간: 데이터가 특정 구간에 몰려 있는지 확인

•

분포 형태: 데이터가 정규분포를 따르는지, 특정 패턴이 있는지 분석

히스토그램 해석

•

막대가 높은 구간: 데이터가 많이 분포된 범위

•

막대가 없는 구간: 해당 구간에 데이터가 없음

•

막대가 매우 낮은 구간: 해당 구간의 데이터는 드물게 관측되며, 이질적인 값(이상치)일 수 있음

1.3. 상관관계

상관관계(Correlation)는 두 변수 간의 관계의 강도와 방향을 나타냅니다.

상관관계 분석은 데이터 간의 연관성을 파악하고, 의미 있는 변수 조합을 발견하는 데 도움을 줄 수 있습니다.

상관관계는 상관계수(Correlation Coefficient)를 통해 측정되며, -1에서 1사이의 값을 가집니다.

•

1에 가까울수록: 한 변수가 증가하면 다른 변수도 일정하게 증가하는 강한 양의 관계를 나타냅니다.

•

-1에 가까울수록: 한 변수가 증가하면 다른 변수가 일정하게 감소하는 강한 음의 관계를 나타냅니다.

•

0에 가까울수록: 두 변수 간 관계가 거의 없을을 의미합니다.

2. 프로젝트 데이터 이해

2.1. EDA

•

value_counts(): Pandas에서 Series 객체의 고유 값 각각의 개수를 세어주는 매우 유용한 메서드입니다.

2.2. reviews 데이터 살펴보기

reviews 데이터에서 Review_id가 고유 식별자 역할을 할 수 있는지 확인해 보겠습니다.

고유 식별자로 사용하기 위해서는 모든 행에서 중복 없이 고유해야 합니다.

•

duplicated()

3. 데이터 그룹화 및 요약

3.1. 지역별 판매 요약

지역별로 데이터를 그룹화하여 각 지역의 고객 분포를 분석해 보겠습니다.

•

어느 지역에 우선적으로 투자할 것인가?

•

고객 유입이 많은 지역의 성공 요인은 무엇인가?

3.2. 할부 횟수 별 평균 거래 가치

거래 차이에 따른 할부 횟수 분포 확인

3.3. 리뷰 점수 별 개수 요약

리뷰 점수가 특정 구간에 몰려 있는지 확인을 통해 고객 만족도의 전반적인 경향을 확인할 수 있는지 파악

4. 데이터 전처리

4.1. 데이터 필터링

데이터프레임에서 특정 행을 제외하거나 필터링하려면 Boolean Indexing을 사용합니다.

4.2. 데이터(컬럼) 추가

고유 식별자 역할을 하는 컬럼이 없다면 데이터 집계나 분석에서 문제가 발생할 수 있습니다. 이를 해결하기 위해 고유 식별자(Primary Key) 역할을 할 수 있는 새로운 컬럼을 생성해 보겠습니다.

5. 데이터 시각화의 확장

5.1. 단일 변수 시각화

단일 변수의 분포를 분석하면 데이터의 범위, 중심 경향(평균, 중앙값 등) 분산 등을 파악할 수 있습니다.

•

히스토그램: 데이터의 분포를 막대 그래프로 나타냅니다.

•

박스플롯: 데이터의 사분위수와 이상치를 한눈에 확인할 수 있습니다.

◦

박스: 1사분위수(Q1)와 3사분위수(Q3) 사이의 범위를 나타냅니다.

◦

중앙값: 중간선이 위치한 값으로, 리뷰 점수의 중앙값을 나타냅니다.

◦

사분위수(Q1, Q3): 하단과 상단 박스 경계로 리뷰 점수의 중간 50% 분포를 보여줍니다.

◦

수염: 수염의 끝은 리뷰 점수의 최소 및 최대 정상 범위를 나타냅니다.

◦

이상치: 수염 외부의 점으로, 데이터에서 벗어난 리뷰 점수를 의미합니다.

5.2 이변수 시각화

두 변수 간의 관계를 분석할 때 사용됩니다.

산점도(Scatter Plot)

•

두 변수 간의 관계를 점으로 표현합니다.

5.3. 범주형 데이터 시각화

범주형 데이터의 분포를 분석할 때 유용합니다.범주에 따라 차지하는 비율을 한 눈에 확인할 수 있습니다.

각 범주가 전체에서 차지하는 비율을 시작적으로 표현.