컴퓨터/이론 및 tools 사용

데이터 마이닝 WEKA - LibSVM(Support Vector Machine)

review777777 2016. 11. 4. 02:37
반응형

데이터 마이닝 기법 해보기

확장자 .arff로 바꿔야 weka에서 사용 가능함

(http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php 사이트에서 변환)

데이터는 http://learnersdesk.weebly.com/weka-tutorials.html

http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html 다운.

 

LibSVM(Support Vector Machine)

높은 성능을 보장함 서로 다른 클래스에 속해있는 데이터들을 분류하는 초평면 중 가장 거리가 먼 초평면을 찾아냄

2종류의 데이터들이 맵핑되는 공간에서 두 그룹을 나누는 경계선을 찾는데, 이 경계선은 두 데이터와 직선의 거리가 가장 커지는 maximum margin을 찾도록 되어있다. 그런데 어떤 데이터는 전처리를 아무리 잘하여도 직선으로 나눌 수 없는 분포를 이루기도 하는데, 이를 나누기 위해서는 임의의 공간으로 데이터를 맵핑하여 경계선을 찾아야한다. 이를 커널 메서드라한다.

 

 

 

Iris.arff 데이터를 이용하였다. x는 꽃받침의 길이고 y는 꽃받침의 폭이다. 데이터를 임의로 수정해서 분류를 정해주었다. 0Iris-setosa로 하고 1Iris-viersicolor로 정했다.

 

 

 

 

 

 

weka에서 visualization ->BoundaryVisualizer를 이용해 LibSVM(functions)으로 데이터 마이닝을 해보았다.

ibSVM을 실행하기 전

 

 

LibSVM을 실행한 후이다

반응형