상세 컨텐츠

본문 제목

비정형 데이터 분석 - 텍스트마이닝

과학/데이터분석

by 세드뤽 2021. 7. 25. 23:46

본문

비정형 데이터 분석
비정형 데이터 분석의 개념
비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 의사결정에 활용하는 분석기법이다.
비정형 데이터 분석기법
대표적인 비정형 데이터 분석기법으로 텍스트마이닝, 오피니언 마이닝, 텍스트마이닝, 감성 분석, 사회연결망 분석 등이 있다.

텍스트 마이닝 개념

텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어처리 방식을 이용해 정보를 만드는 기법이다.

보통 사람들이 말하는 언어를 자연어라고 하고, 반대로 0과 1의 이진법으로 만들어지는 언어를 기계어라고 한다.

 

텍스트마이닝 단계

텍스트마이닝 단계는 4단계다.

텍스트 수집 텍스트 의미 추출 텍스트 패턴 분석 정보 분석

 

텍스트마이닝 절차

텍스트마이닝의 각 단계 별 절차는 다음과 같다.

단계 절차 설명
1 텍스트 수집 ﹒데이터베이스, 텍스트 기반 문서 등이 수집 대상
﹒문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 전처리
2 의미 추출 ﹒복잡한 의미정보의 표현을 단순화
﹒도메인에 적합한 정볼르 문서의 의미 데이터로 저장
3 패턴 분석 ﹒의미 데이터를 기반으로 문서를 군집화 및 분류
4 정보 생성 ﹒시각화 도구를 통해 효과적으로 정보 표현

 

텍스트마이닝 기능

텍스트마이닝의 기능은 다음과 같다.

기능 설명
정보 추출
(Extraction)
﹒일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업
﹒원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어 추출
문서 요약
(Summarization)
﹒정보 추출에서 더 나아가 문서에서 다룬 중요 내용을 글로 요약하는 기법
문서 분류
(Classification)
﹒키워드에 따라 문서를 분류하는 기법으로서 주어진 키워드 집합에 따라 해당 카테고리로 분류
문서 군집화
(Clustering)
﹒문서를 분석해 동일 내용의 문서들을 묶은 기법
빅데이터 분석기사 필기, 정보처리기술사연구회, 도서출판 건기원
반응형

관련글 더보기

댓글 영역