(2) 머신러닝(Machine learning)이란? - Basic Data Exploration [Hellfer]

머신러닝(Machine leanring)

(2) 머신러닝(Machine learning)이란? - Basic Data Exploration [Hellfer]

Hellfer 2024. 7. 17. 10:58

728x90

https://www.kaggle.com/code/dansbecker/basic-data-exploration

Basic Data Exploration

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

위의 글을 보고 참고하여 작성하였습니다.

Pandas는 데이터 과학과 머신러닝 프로젝트에 매우 유용한 라이브러리입니다.

데이터를 탐색하고 조작하는 데 있어 Pandas는 강력한 도구를 제공합니다.

Pandas를 사용하면 데이터프레임(DataFrame)과 시리즈(Series)라는 구조를 통해 데이터를 쉽게 다룰 수 있습니다.

import pandas as pd

pandas 라이브러리의 가장 중요한 부분은 DataFrame입니다.

DataFrame은 테이블로 생각할 수 있는 데이터 유형을 보유합니다.

이는 Excel의 시트나 SQL 데이터베이스의 테이블과 유사합니다.

예제 데이터로 멜버른의 주택 가격 데이터를 사용하여 데이터 로드 및 탐색 과정을 살펴보겠습니다.

https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot

Melbourne Housing Snapshot

Snapshot of Tony Pino's Melbourne Housing Dataset

www.kaggle.com

위의 링크를 통해 오른쪽 상단의 New Notebook과 Notebook의 오른쪽 상단 Add Input에 Melbourne Housing Snapshot을 검색하여 업로드할 수 있습니다.

예제 파일명 :../input/melbourne-housing-snapshot/melb_data.csv.

describe() 함수는 데이터프레임의 수치형 열에 대해 데이터 개수, 평균값, 표준편차, 최솟값, 최댓값, 사분위수를 제공합니다.

이 요약 정보는 데이터의 분포와 특성을 빠르게 파악하는 데 유용합니다.

# 파일 경로 저장
melborune_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# 데이터 로드
melborune_data = pd.read_csv(melborune_file_path)
# 데이터 요약 정보 출력
melbourne_data.describe()

melborune_data의 표준편차, 평균값, 사분위수 등을 나타낸 표

1. count(개수)

- 각 열에서 결측값이 아닌 값의 개수를 나타냅니다.

결측값은 여러 가지 이유로 발생하는 데 침실 1 개가 있는 집을 조사할 때 침실 2개의 집은 개수에 포함되지 않습니다.

2. mean(평균)

- 각 열의 평균값을 나타냅니다.

3. std (표준편차)

- 데이터 값들이 평균값을 중심으로 얼마나 퍼져 있는지를 측정합니다.

값이 클수록 더 넓게 분포되어 있다는 의미입니다.

4. min (최솟값)

- 각 열에서 가장 작은 값을 나타냅니다.

5. 25% (1 사분위수)

- 데이터 값의 하위 25%에 해당하는 값을 의미합니다.

6. 50% (중앙값 또는 2 사분위수)

- 데이터의 절반은 이 값보다 작고, 나머지 절반은 이 값보다 큽니다.

7. 75% (3 사분위수)

- 데이터 값의 하위 75% 지점에 해당하는 값을 의미합니다.

8. max (최댓값)

- 각 열에서 가장 큰 값을 나타냅니다.

info() 함수는 각 열의 데이터 타입, 결측값 개수, 메모리 사용량 등을 요약하여 보여줍니다.

이를 통해 데이터 전반적인 구조와 결측값 여부를 빠르게 파악할 수 있습니다.

# 데이터 프레임의 기본 정보 확인
melbourne_data.info()

각 열에 대한 정보

- columns : 열 이름

- Non-Null Count : 결측값이 아닌 개수

- Dtype : 데이터 타입(object, int, float)

데이터 전처리 및 분석 방향을 결정하는 데 참고할 수 있습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)