본문 바로가기

분류 전체보기118

(6) 판다스(Pandas)란? - Renaming and Combining [Hellfer] https://www.kaggle.com/code/residentmario/renaming-and-combining Renaming and CombiningExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 보고 참고하여 작성하였습니다.  rename() 함수는 인덱스 이름과 열 이름을 변경할 수 있습니다. reviews 데이터프레임의 'points' 열의 이름을 'score'로 변경해 보겠습니다. reviews.rename(columns={'points': 'score'})   인덱스(index) 또는 열의 키워드 매개변수를 각각 지정하여 인.. 2024. 7. 27.
(5) 판다스(Pandas)란? - Data Types and Missing Values [Hellfer] https://www.kaggle.com/code/residentmario/data-types-and-missing-values Data Types and Missing ValuesExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 참고하여 작성하였습니다. 데이터프레임(DataFrame) 또는 Series의 열에 대한 데이터 유형을 dtype이라고 합니다. dtype 속성을 사용하여 특정 열의 유형을 가져올 수 있습니다.  reviews 데이터프레임(DataFrame)의 유형을 알아보겠습니다. reviews.dtypes    float64는 6.. 2024. 7. 26.
(4) 판다스(Pandas)란? - Grouping and Sorting [Hellfer] https://www.kaggle.com/code/residentmario/grouping-and-sorting  Grouping and SortingExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 참고하여 작성하였습니다. 맵(Map)은 데이터프레임 또는 시리즈의 데이터를 한 번에 하나의 값씩 변환할 수 있게 해 줍니다. 데이터를 그룹화한 후, 그룹 내에서 특정 작업을 수행하고자 할 때 groupby() 연산입니다.  reviews.groupby('points').price.count() points 열을 기준으로 그룹화한 후, 각 그룹의 .. 2024. 7. 25.
(3) 판다스(Pandas)란? - Summary Functions and Maps [Hellfer] https://www.kaggle.com/code/residentmario/summary-functions-and-maps Summary Functions and MapsExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 참고하여 작성하였습니다. 지난 튜토리얼에서 DataFrame이나 Series에서 관련 데이터를 선택하는 방법을 배웠습니다. 데이터 표현에서 올바른 데이터를 추출하는 것은 작업을 완료하는 데 매우 중요합니다.  앞서 사용했었던 데이터프레임입니다.  reviews   판다스(Pandas)는 데이터를 유용한 방식으로 재구조화하는 여.. 2024. 7. 24.
(2) 판다스(Pandas)란? - Indexing, Selecting & Assinging [Hellfer] https://www.kaggle.com/code/residentmario/indexing-selecting-assigning Indexing, Selecting & AssigningExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 보고 참고하여 작성하였습니다. 파이썬 객체 속성에 접근하는 방법과 마찬가지로, 판다스(Pandas) 열에도 비슷한 방식으로 접근할 수 있습니다. 예를 들어 book 객체에 title 속성이 있다면 book.title로 접근할 수 있는 것처럼, 판다스(Pandas) DataFrame의 열에도 속성 접근자를 사용할 수.. 2024. 7. 23.
(1) 판다스(Pandas)란? - Creating, Reading and Writing [Hellfer] https://www.kaggle.com/code/residentmario/creating-reading-and-writing Creating, Reading and WritingExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 보고 참고하여 작성하였습니다. 판다스(Pandas)는 파이썬에서 데이터 분석과 조작을 위한 유용한 라이브러리입니다. 특히 테이블 형식의 데이터를 다루는 데 최적화되어 있으며, 대규모 데이터 세트를 효율적으로 처리할 수 있는 다양한 기능을 제공합니다.  판다스(Pandas)를 사용하기 위해서 해당 모듈을 삽입합니다. i.. 2024. 7. 22.
(6) 머신러닝(Machine learning)이란? - Random Forests [Hellfer] https://www.kaggle.com/code/dansbecker/random-forests Random ForestsExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 보고 참고하여 작성했습니다. 랜덤 포레스트 (Random Forest)는 앙상블 학습 방법 중 하나로, 여러 개의 결정 트리를 결합하여 예측 성능을 향상하는 방법입니다. 분류 (Classification)와 회귀(Regression) 모두에 사용할 수 있으며, 데이터의 과적합을 줄이는 데 효과적입니다.  주요 개념은 다음과 같습니다. 1. 앙상블 기법 (Ensemble Me.. 2024. 7. 21.
(5) 머신러닝(Machine learning)이란? - Underfitting and Overfitting [Hellfer] https://www.kaggle.com/code/dansbecker/underfitting-and-overfitting Underfitting and OverfittingExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 보고 참고하여 작성하였습니다. 앞서 평균 절대 오차(MAE) 값으로 모델의 성능을 평가했습니다. 대체 모델을 실험하고 어떤 모델이 가장 좋은 예측을 제공하는지 확인할 수 있었습니다. scikit-learn의 의사결정 트리 모델에 많은 옵션 중 가장 중요한 옵션은 나무의 깊이입니다.  의사결정 트리 모델의 주요 하이퍼파라미터 .. 2024. 7. 20.
(4) 머신러닝(Machine learning)이란? - Model Validation [Hellfer] https://www.kaggle.com/code/dansbecker/model-validation Model ValidationExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 보고 참고하여 작성하였습니다. 모델 검증은 머신러닝 모델이 새로운 데이터에 대해 얼마나 잘 일반화될 수 있는지를 평가하는 과정입니다. 이는 모델이 훈련 데이터에 대해 과적합되지 않도록 하며, 실제 적용 시 좋은 성능을 발휘할 수 있도록 하기 위한 중요한 단계입니다. 일반적으로 훈련 데이터와 검증 데이터를 사용합니다.  검증 데이터(Validation Data) : 모.. 2024. 7. 19.
(3) 머신러닝(Machine learning)이란? - Your First Machine Learning Model [Hellfer] https://www.kaggle.com/code/dansbecker/your-first-machine-learning-model Your First Machine Learning ModelExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 위의 글을 참고하여 작성하였습니다. 모델링을 하기 위해 데이터를 선택해 보겠습니다. 데이터 세트에서 어떤 변수를 사용할지 결정하는 것은 중요합니다. 초기에는 직관과 도메인 지식을 활용하여 몇 가지 중요한 변수를 선택할 수 있습니다. 이후에는 통계적 기법을 사용하여 변수의 중요도를 평가하고 우선순위를 지정해 보겠습니다... 2024. 7. 18.