wonpick
devvon
wonpick
방문자🌱
오늘
어제
  • 분류 전체보기 (147)
    • 개발 (42)
      • Spark (7)
      • Hadoop (3)
      • ML&DL (4)
      • Paper Review (0)
      • ETC (24)
    • STUDY (77)
      • Data Engineering (54)
      • Cloud (4)
      • Algorithm (5)
      • SQL (10)
      • Toy Project (1)
    • Android (2)
    • Backend (14)
    • 인턴 (0)
    • 공모전 (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

태그

  • 자연어처리
  • 쿠버네티스
  • 데이터엔지니어링
  • kodekloud
  • cka
  • 최신 데이터 인프라 이해하기
  • 인턴강연
  • 최신 데이터 인프라 이해하기 #7
  • SQL
  • Python

최근 댓글

최근 글

티스토리

Designed By.hELLO
wonpick

devvon

개발/ETC

[python] 범주형 변수 인코딩 (labelencoder, onehotencoder)

2021. 5. 10. 12:39

잘됨

encoder = LabelEncoder()
df5['division'] = encoder.fit_transform(df5['division'].values)

df5['office'] = encoder.fit_transform(df5['office'].values)

오류

import numpy as np
from sklearn.preprocessing import LabelEncoder

# 라벨 인코더 생성
encoder = LabelEncoder()

# df2 데이터를 이용 피팅하고 라벨숫자로 변환한다
arr = np.array(df5['division'])
encoder.fit(arr)

df5_encoded = encoder.transform(arr)

# df2데이터를 다시 데이터 프레임으로 변경
df5['division'] =  pd.DataFrame(df5_encoded, columns = ['division'])
print('before: ', arr)
print('after: ' , df5_encoded)

# df2데이터를 이용 피팅하고 라벨숫자로 변환한다
arr2 = np.array(df5['office'])
encoder.fit(arr2)
df2_encoded2 = encoder.transform(arr2)

# df2데이터를 다시 데이터 프레임으로 변경
df5['office'] =  pd.DataFrame(df2_encoded2, columns = ['office'])
print('before: ', arr2)
print('after: ' , df2_encoded2)

'개발 > ETC' 카테고리의 다른 글

[python] 반올림,반내림 (0.5 사사오입 문제 해결)  (0) 2021.06.04
[python] 🥑 *args 🍇**kwargs  (0) 2021.05.10
이동평균 설명  (0) 2021.05.10
[nbviewer] Jupyter Notebook 전체 코드 공유하기  (0) 2021.05.10
[python] 문자->숫자, 타입 변환 오류  (0) 2021.05.10
    wonpick
    wonpick

    티스토리툴바