▶데이터 마이닝 기법 해보기
확장자 .arff로 바꿔야 weka에서 사용 가능함
(http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php 사이트에서 변환)
데이터는 http://learnersdesk.weebly.com/weka-tutorials.html
http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html 다운.
▶K-means k-평균 K개의 군집으로 나누는 대표적인 군집 방법 각 데이터들의 평균값 혹은 중심값 계산 후에 그 곳을 기준점으로 세워 가장 가까운 데이터부터 차례차례 군집으로 만듦.
bank_data중에서 몇가지 속성만 따로 arff로 바꿈. bank_data_a.arff를 4가지 속성 기준(나이, 수입, 자녀수, 차 보유 유무)으로 3000개의 데이터를 클러스터링 군집분석. cluster -> choose -> SimpleKMeans 선택 속성을 클릭해서 클러스터의 수를 적절하게 3으로 변경함. 맨 하단에 군집이 3개 생성되었다는 것을 알 수 있음. 전체 데이터가 600개이니 군집0에 데이터 368개는 전체 비율 61%를 차지하고 군집1에 데이터 173는 전체 비율 29%를 차지하고 군집2에 데이터 59은 전체 비율10%를 차지한다. 시각화한 그래프를 보면 X는instance_num으로 설정하고 Y를 children의 수로 하면 레코드를 그래프로 볼 수 있다. 파란색은 군집0이고 빨간색은 군집1 초록색은 군집2인데 군집 0은 자녀수가 0인 사람이 많은 것을 볼수 있고 군집 1과 2는 자녀수가 2명인 사람이 많은걸 그래프로 확인 할 수 있다.
'컴퓨터 > 이론 및 tools 사용' 카테고리의 다른 글
[리팩토링 refactoring] Composing methods 메소드 구성 - Inline Method 즉시 처리하는 메소드 (0) | 2016.11.24 |
---|---|
리팩토링 refactoring (0) | 2016.11.24 |
데이터마이닝 weka - IBK (KNN K-Nearest Neighbor) (0) | 2016.11.04 |
데이터 마이닝 WEKA - LibSVM(Support Vector Machine) (0) | 2016.11.04 |
도스창 네트워크 명령어 Ping / netstat / arp / tracert / ipconfig / nslookup (0) | 2016.11.04 |
컴퓨터 네트워킹 하향식 접근 연습문제 (0) | 2016.11.04 |
컴퓨터 네트워킹 하향식 접근 연습문제 (0) | 2016.11.04 |