분류 전체보기
2. 군집화 (Clustering) - 알고리즘
1. 군집화란? 유사한 속성들을 갖는 관측치들을 묶어 전체 데이터를 몇 개의 군집으로 나누는 것. 좋은 군집화는 동일한 군집에 소속된 데이터는 서로 유사하게(inter-class similarity), 상이한 군집에 소속된 데이터는 서로 다르게(intra-class dissimilarity) 군집화하는 것이다. Inter class similarity Intra-class similarity Class간의 분산 Differ is better Centroid/Border 간 거리가 멀수록 Class 내부의 분산 Similar is better 분산의 값이 작을 수록 Centroid-border간 거리가 가까울 수록 2. 군집화 수행 시 주요 고려사항 어떤 거리 척도를 사용하여 유사도를 측정할 것인가? 어..
1. 군집화 (Clustering) - 유사도 측정 기법
1. 군집화란? 유사한 속성들을 갖는 관측치들을 묶어 전체 데이터를 몇 개의 군집으로 나누는 것. 좋은 군집화는 동일한 군집에 소속된 데이터는 서로 유사하게(inter-class similarity), 상이한 군집에 소속된 데이터는 서로 다르게(intra-class dissimilarity) 군집화하는 것이다. Inter class similarity Intra-class similarity Class간의 분산 Differ is better Centroid/Border 간 거리가 멀수록 Class 내부의 분산 Similar is better 분산의 값이 작을 수록 Centroid-border간 거리가 가까울 수록 2. 군집화 수행 시 주요 고려사항 어떤 거리 척도를 사용하여 유사도를 측정할 것인가? 어..
[추천시스템] Learning To Rank(LTR)
1. LTR이란? 추천 시스템에 있어서 추천 방식을 2가지로 나눠보자면 아래와 같다. 평점 예측 : rating matrix prediction 랭킹 예측: top-k prediction 평점 예측과 랭킹 예측의 가장 큰 차이는, 랭킹 예측이 유저가 더 선호할 만한 상품을 우선 순위에 랭킹하여 선호 관계를 잘 맞추는게 중요하다는 것이다. A possible architecture of a machine-learned search engine. n개의 유저에 대해서 각 item에 대한 m개의 feaure가 정해지고 n개의 relevance score로 학습 데이터를 생성하게 된다. 이때 학습 시킨 모델에 테스트 데이터를 넣어 relevance score를 예측하게 된다. 예측값의 정의에 따라 랭킹이 결정 ..
[추천시스템] Learning To Rank(LTR)
1. LTR이란? 추천 시스템에 있어서 추천 방식을 2가지로 나눠보자면 아래와 같다. 평점 예측 : rating matrix prediction 랭킹 예측: top-k prediction 평점 예측과 랭킹 예측의 가장 큰 차이는, 랭킹 예측이 유저가 더 선호할 만한 상품을 우선 순위에 랭킹하여 선호 관계를 잘 맞추는게 중요하다는 것이다. n개의 유저에 대해서 각 item에 대한 m개의 feaure가 정해지고 n개의 relevance score로 학습 데이터를 생성하게 된다. 이때 학습 시킨 모델에 테스트 데이터를 넣어 relevance score를 예측하게 된다. 예측값의 정의에 따라 랭킹이 결정 되기 때문에, learning to rank에서 가장 중요한 점은 어떠한 손실함수(loss function)..