컴공돌이의 스터디 블로그

[Iris_1] - Iris DataSet 가져오기 본문

Machine Learning 실습/Iris

[Iris_1] - Iris DataSet 가져오기

제갈초아 2018. 3. 26. 12:00


* 이 글은 Iris DataSet을 이용한 실습 과정을 정리한 글입니다.


Iris DataSet 가져오기


  Iris DataSet은 1930년대부터 시작된 고전적인 데이터셋이기 때문에 DataSet을 가져오는 방법에도 여러가지 방법이 존재합니다. 하지만 가장 간단한 방법은 Scikit-Learn에 들어있는 Iris DataSet을 코드상으로 불러오는 방법일 것입니다.



1
2
3
4
5
6
7
8
9
10
11
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
 
Iris = load_iris()
 
Iris_Data = pd.DataFrame(data= np.c_[Iris['data'], Iris['target']], columns= Iris['feature_names'+ ['target'])
Iris_Data['target'= Iris_Data['target'].map({0"setosa"1"versicolor"2"virginica"})
 
X_Data = Iris_Data.iloc[:,:-1]
Y_Data = Iris_Data.iloc[:,[-1]]
cs



  위의 코드를 실행하면 정말 간단하게 Iris DataSet을 별도의 다운로드 없이 코드상에서 사용할 수 있게 됩니다.


  Scikit-Learn 안에 들어있는 datasets에서 load_iris() 함수를 사용한것 만으로 Iris DataSet을 코드안의 변수 Iris에 저장할 수 있습니다. Iris가 아닌 위의 코드에서 선언한 Iris_Data, X_Data, Y_Data 변수들에 대한 설명은 아래와 같습니다.


- Iris_Data : Iris DataSet을 Dataframe의 형태로 저장한 데이터

- X_Data : Iris를 구분하는 데 실제로 사용되는 데이터

- Y_Data : Iris의 실제 Label 데이터


  각각의 데이터를 실제로 출력해보면 아래와 같습니다. 아래의 그림의 Dataframe에 대해서 사용할 수 있는 head() 함수는 상위 5개의 데이터를 보여주고 tail() 함수는 하위 5개의 데이터를 보여주는 함수 입니다. 그리고 sample() 함수는 전체 데이터에서 사용자가 원하는 개수의 데이터를 랜덤하게 보여주는 함수입니다.





  위의 그림들에서 볼 수 있드시 Iris DataSet의 모든 데이터는 정상적으로 코드안의 변수에 저장되었음을 확인할 수 있습니다.

반응형
Comments