(2) 머신러닝(Machine learning)이란? - Basic Data Exploration [Hellfer]
https://www.kaggle.com/code/dansbecker/basic-data-exploration
Basic Data Exploration
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
위의 글을 보고 참고하여 작성하였습니다.
Pandas는 데이터 과학과 머신러닝 프로젝트에 매우 유용한 라이브러리입니다.
데이터를 탐색하고 조작하는 데 있어 Pandas는 강력한 도구를 제공합니다.
Pandas를 사용하면 데이터프레임(DataFrame)과 시리즈(Series)라는 구조를 통해 데이터를 쉽게 다룰 수 있습니다.
import pandas as pd
pandas 라이브러리의 가장 중요한 부분은 DataFrame입니다.
DataFrame은 테이블로 생각할 수 있는 데이터 유형을 보유합니다.
이는 Excel의 시트나 SQL 데이터베이스의 테이블과 유사합니다.
예제 데이터로 멜버른의 주택 가격 데이터를 사용하여 데이터 로드 및 탐색 과정을 살펴보겠습니다.
https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot
Melbourne Housing Snapshot
Snapshot of Tony Pino's Melbourne Housing Dataset
www.kaggle.com
위의 링크를 통해 오른쪽 상단의 New Notebook과 Notebook의 오른쪽 상단 Add Input에 Melbourne Housing Snapshot을 검색하여 업로드할 수 있습니다.
예제 파일명 :../input/melbourne-housing-snapshot/melb_data.csv.
describe() 함수는 데이터프레임의 수치형 열에 대해 데이터 개수, 평균값, 표준편차, 최솟값, 최댓값, 사분위수를 제공합니다.
이 요약 정보는 데이터의 분포와 특성을 빠르게 파악하는 데 유용합니다.
# 파일 경로 저장
melborune_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# 데이터 로드
melborune_data = pd.read_csv(melborune_file_path)
# 데이터 요약 정보 출력
melbourne_data.describe()
1. count(개수)
- 각 열에서 결측값이 아닌 값의 개수를 나타냅니다.
결측값은 여러 가지 이유로 발생하는 데 침실 1 개가 있는 집을 조사할 때 침실 2개의 집은 개수에 포함되지 않습니다.
2. mean(평균)
- 각 열의 평균값을 나타냅니다.
3. std (표준편차)
- 데이터 값들이 평균값을 중심으로 얼마나 퍼져 있는지를 측정합니다.
값이 클수록 더 넓게 분포되어 있다는 의미입니다.
4. min (최솟값)
- 각 열에서 가장 작은 값을 나타냅니다.
5. 25% (1 사분위수)
- 데이터 값의 하위 25%에 해당하는 값을 의미합니다.
6. 50% (중앙값 또는 2 사분위수)
- 데이터의 절반은 이 값보다 작고, 나머지 절반은 이 값보다 큽니다.
7. 75% (3 사분위수)
- 데이터 값의 하위 75% 지점에 해당하는 값을 의미합니다.
8. max (최댓값)
- 각 열에서 가장 큰 값을 나타냅니다.
info() 함수는 각 열의 데이터 타입, 결측값 개수, 메모리 사용량 등을 요약하여 보여줍니다.
이를 통해 데이터 전반적인 구조와 결측값 여부를 빠르게 파악할 수 있습니다.
# 데이터 프레임의 기본 정보 확인
melbourne_data.info()
각 열에 대한 정보
- columns : 열 이름
- Non-Null Count : 결측값이 아닌 개수
- Dtype : 데이터 타입(object, int, float)
데이터 전처리 및 분석 방향을 결정하는 데 참고할 수 있습니다.