데이터 정제
1) 데이터 전처리의 중요성 전처리 결과가 분석 결과에 직접적인 영향을 주기 때문에 데이터 분석 과정에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 특히 데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계가 데이터 수집과 전처리 단계이다. 대략 전체 업무의 80%가 소요된다. 데이터 전처리는 데이터 정제, 결측값 처리, 이상값 처리, 분석 변수 처리 순서로 진행된다. 2) 데이터 정제(Data Cleansing)의 개념 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업이다. 3) 데이터 정제 절차 데이터의 정제 절차는 오류 원인 분석, 정제 대상 선정, 정제 방법 결정 순으로 진행된다. (1) 데이터 오류 원인 분석 : 원천 데이터의 오류로 인해서 발생하거나 빅데이터 ..
과학/데이터분석
2021. 8. 20. 23:59