본문 바로가기

개발/python6

Kaggle - London Bike Sharing (2) 데이터 전처리:이상치 제거 앞 내용에서 데이터 시각화 문제를 해결하자마자 바로 다시 에러 발생 이 부분이 제일 중요한 것 같은데..!! >> 이상치 제거 시그마 제거, IQR 방법, k-means 군집 기반 제거 방법 등이 있다. 시그마 제거, IQR 제거 방법은 아래 블로그 참고할 예정 (지금은 한번 쭉 훑는게 목적이라 패스) https://brave-greenfrog.tistory.com/13 kaggle 실습 - 아웃라이어(이상치) 제거 1. 3시그마 이상치 제거 3 시그마 이상치 제거란 ? 정규분포에서 데이터들이 ±3σ 안에 포함될 확률은 무려 99.7%인데 3 시그마 규칙이란 데이터가 ±3σ 밖에 존재할 확률은 0.3%이기 때문에 이 범위 brave-greenfrog.tistory.com >> 코드 * 이상치 제거 함수 .. 2023. 10. 3.
Kaggle - London Bike Sharing (1) - 데이터 I/O, 데이터 형태 파악 갑자기 머신러닝을 해야할 일이 생겼다. 부랴부랴 Kaggle 사이트에서 입문용 데이터셋 찾아서 공부하던 중 인프런 강의에서 듣는 코드가 실행 안되는 부분이 있어 블로그를 켜게 되었다. * 여기까진 kaggle 기본 제공 코드 import numpy as np import pandas as pd import os for dirname, _, filenames in os.walk('/kaggle/input'): for filename in filenames: dir_data = os.path.join(dirname, filename) print(dir_data) : os.walk() 뒤 경로에 있는 데이터 목록을 찾아온 다음, dir_data 변수에 할당한다. * 필요한 python library (시각화).. 2023. 10. 3.