1) 데이터 전처리의 중요성
전처리 결과가 분석 결과에 직접적인 영향을 주기 때문에 데이터 분석 과정에서 데이터 전처리는 반드시 거쳐야 하는 과정이다.
특히 데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계가 데이터 수집과 전처리 단계이다. 대략 전체 업무의 80%가 소요된다.
데이터 전처리는 데이터 정제, 결측값 처리, 이상값 처리, 분석 변수 처리 순서로 진행된다.
2) 데이터 정제(Data Cleansing)의 개념
결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업이다.
3) 데이터 정제 절차
데이터의 정제 절차는 오류 원인 분석, 정제 대상 선정, 정제 방법 결정 순으로 진행된다.
(1) 데이터 오류 원인 분석 : 원천 데이터의 오류로 인해서 발생하거나 빅데이터 플로우의 문제로부터 발생
(2) 데이터 정제 대상 선정 : 모든 데이터를 대상으로 정제 활동
(3) 데이터 정제 방법 결정 : 오류 데이터를 삭제, 대체, 예측값으로 삽입
4) 데이터 세분화(Data Segmentation)
데이터 세분화는 데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스다.
빅데이터분석기사필기, 정보처리기술사연구회저, 도서출판건기원
DIKW피라미드(데이터Data, 정보Information, 지식Knowledge, 지혜Wisdom) (0) | 2022.05.19 |
---|---|
데이터 시각화 절차 (0) | 2022.04.23 |
분석기법 (0) | 2022.04.08 |
데이터로부터 가치를 추출한다는 것은 (0) | 2021.09.11 |
비정형 데이터 분석 - 텍스트마이닝 (0) | 2021.07.25 |
댓글 영역