대회

https://www.kaggle.com/c/ieee-fraud-detection/discussion/107697
어떻게 빠르게 할까?
추천 시스템
데이터 수집
- 데이터 출처 및 수집 방법 정의
- 데이터 포맷 확인 및 데이터 크기 결정
EDA(탐색적 데이터 분석)
- 데이터 분포, 결측값, 이상치 등 파악
- Feature 분석을 통한 데이터 특성 파악
- 유저, 아이템, 상호작용 등의 특성에 대한 이해
전처리
- 결측치 처리, 이상치 제거 등의 데이터 클리닝
- Feature engineering: 기존 Feature의 조합 및 파생 Feature 생성
- Feature scaling: 데이터 스케일링