컴퓨터/이론 및 tools 사용

데이터 마이닝 weka - K-means k-평균

review777777 2016. 11. 4. 03:00
반응형

데이터 마이닝 기법 해보기

확장자 .arff로 바꿔야 weka에서 사용 가능함

(http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php 사이트에서 변환)

데이터는 http://learnersdesk.weebly.com/weka-tutorials.html

http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html 다운.

 

K-means k-평균

K개의 군집으로 나누는 대표적인 군집 방법

각 데이터들의 평균값 혹은 중심값 계산 후에 그 곳을 기준점으로 세워 가장 가까운 데이터부터 차례차례 군집으로 만듦.

 

 

bank_data중에서 몇가지 속성만 따로 arff로 바꿈.

bank_data_a.arff4가지 속성 기준(나이, 수입, 자녀수, 차 보유 유무)으로 3000개의 데이터를 클러스터링 군집분석.

 

cluster -> choose -> SimpleKMeans 선택 속성을 클릭해서 클러스터의 수를 적절하게 3으로 변경함.

맨 하단에 군집이 3개 생성되었다는 것을 알 수 있음. 전체 데이터가 600개이니 군집0에 데이터 368개는 전체 비율 61%를 차지하고 군집1에 데이터 173는 전체 비율 29%를 차지하고 군집2에 데이터 59은 전체 비율10%를 차지한다.

age(나이)에 대하여 군집040 군집161 군집254 , 따라서 군집2가 중간크기이다. income(수입)에 대하여 군집038248.3 군집137869.6 군집224212.1이므로 중간크기는 군집1이다. 자녀수에서는 군집00 군집12 군집22이고 차 보유 유무는 군집0NO 군집1YES 군집2NO이다. 이런식으로 나눠진 군집의 특성을 알 수 있다.

 

 

시각화한 그래프를 보면 Xinstance_num으로 설정하고 Ychildren의 수로 하면 레코드를 그래프로 볼 수 있다. 파란색은 군집0이고 빨간색은 군집1 초록색은 군집2인데 군집 0은 자녀수가 0인 사람이 많은 것을 볼수 있고 군집 12는 자녀수가 2명인 사람이 많은걸 그래프로 확인 할 수 있다.

 

 

반응형