개발
[Python] 디버깅 모듈 pdb
pdb는 파이썬 코드를 디버깅할 때 사용하는 모듈이다. 이 모듈을 사용하면 중단점(breakpoint) 설정, 소스 리스팅, 변수 치환, 콜 스택 검사 등의 다양한 기능을 사용할 수 있다. 특히나 머신러닝과 같이 피쳐 사이즈에 민감한 개발의 경우 python debugger가 매우 큰 도움이 될 수 있다. 파이썬 디버거 예제 pdb 모듈은 파이썬 표준 라이브러리의 일부이기 때문에 별도 설치가 필요없다. Python 디버깅 모듈을 사용하면 매 순간 변수값을 알아낼 수 있고, 직접 trace를 볼 수도 있다. import pdb x=0 while True: x+=1 print ("Current number:", x) pdb.set_trace() 파이썬 3.7 버전 이후부터는 기존의 pdb.set_trace..
1. 군집화 (Clustering) - 유사도 측정 기법
1. 군집화란? 유사한 속성들을 갖는 관측치들을 묶어 전체 데이터를 몇 개의 군집으로 나누는 것. 좋은 군집화는 동일한 군집에 소속된 데이터는 서로 유사하게(inter-class similarity), 상이한 군집에 소속된 데이터는 서로 다르게(intra-class dissimilarity) 군집화하는 것이다. Inter class similarity Intra-class similarity Class간의 분산 Differ is better Centroid/Border 간 거리가 멀수록 Class 내부의 분산 Similar is better 분산의 값이 작을 수록 Centroid-border간 거리가 가까울 수록 2. 군집화 수행 시 주요 고려사항 어떤 거리 척도를 사용하여 유사도를 측정할 것인가? 어..
[추천시스템] Learning To Rank(LTR)
1. LTR이란? 추천 시스템에 있어서 추천 방식을 2가지로 나눠보자면 아래와 같다. 평점 예측 : rating matrix prediction 랭킹 예측: top-k prediction 평점 예측과 랭킹 예측의 가장 큰 차이는, 랭킹 예측이 유저가 더 선호할 만한 상품을 우선 순위에 랭킹하여 선호 관계를 잘 맞추는게 중요하다는 것이다. A possible architecture of a machine-learned search engine. n개의 유저에 대해서 각 item에 대한 m개의 feaure가 정해지고 n개의 relevance score로 학습 데이터를 생성하게 된다. 이때 학습 시킨 모델에 테스트 데이터를 넣어 relevance score를 예측하게 된다. 예측값의 정의에 따라 랭킹이 결정 ..
[추천시스템] Learning To Rank(LTR)
1. LTR이란? 추천 시스템에 있어서 추천 방식을 2가지로 나눠보자면 아래와 같다. 평점 예측 : rating matrix prediction 랭킹 예측: top-k prediction 평점 예측과 랭킹 예측의 가장 큰 차이는, 랭킹 예측이 유저가 더 선호할 만한 상품을 우선 순위에 랭킹하여 선호 관계를 잘 맞추는게 중요하다는 것이다. n개의 유저에 대해서 각 item에 대한 m개의 feaure가 정해지고 n개의 relevance score로 학습 데이터를 생성하게 된다. 이때 학습 시킨 모델에 테스트 데이터를 넣어 relevance score를 예측하게 된다. 예측값의 정의에 따라 랭킹이 결정 되기 때문에, learning to rank에서 가장 중요한 점은 어떠한 손실함수(loss function)..