728x90
반응형
데이터를 머신러닝 학습시키기 위해서는 모두 수치화 해주는 것이 좋다.
만약 명목형 데이터인 경우에는 순서가 없으므로 유/무를 원핫 인코딩을 통해 여러 열을 만들어 해결하는 것이 좋다. 이를 더미함수(dummy)를 이용한다고 하는데 이 때 판다스에서는 친절한 함수가 있다.
일 때
import pandas as pd
dummy = pd.get_dummies(test['측정 시간대'])
만약 순서가 있는 데이터일 경우는 어떻게 짤 수 있을까?
for문으로 함수를 구현해야할까?
아니다. 매핑을 통해 할 수 있다.
만약 새벽:0, 오전:1 오후:2 저녁:3으로 매핑시키고 싶으면 다음과 같은 코드를 짜면 된다.
time_mapping = {"새벽":0,"오전":1,"오후":2,"저녁":3}
df['측정 시간대'] = df['측정 시간대'].map(time_mapping)
다음과 같은 매핑을 자유자재로 할 수 있도록 하자!
728x90
반응형
댓글