일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 특성중요도
- 그래프
- NLP
- 알고리즘
- 토스
- 스타터스
- 서비스기획
- sql정리
- MatchSum
- AARRR
- 서비스기획부트캠프
- 스타터스부트캠프
- SLASH22
- NLU
- 딥러닝
- 취업부트캠프
- 추천시스템
- 데이터도서
- 부트캠프후기
- AWS builders
- 임베딩
- 취업부트캠프 5기
- 유데미큐레이션
- 사이드프로젝트
- 유데미부트캠프
- BERT
- 그로스해킹
- pytorch
- SQL
- 유데미코리아
- Today
- Total
목록채우기 (25)
다시 이음
보호되어 있는 글입니다.
Neural Collaborative Filtering(2017) Abstract 최근 동향에서는 추천 시스템을 위한 딥러닝은 보조적인 영향을 보였지만 matrix factorization(행렬분해)과 user, item의 latent feature(잠재 요인)에 내적을 적용하는 user, item feature 사이의 interaction인 협업 필터링에서는 key factor(핵심요인)이 되었다. Neural network based Collaborative Fiterling의 약어인 NCF는 일반적이며 행렬분해(MF)을 사용할 수 있습니다. 비선형으로 NCF 모델링을 강화하기 위해서 퍼셉트론을 활용하여 user-item interaction을 학습할 것을 제안합니다. 1. INTRODUCTION 많..
Factorization Machines(FM)은 사용자와 아이템의 다양한 특성들을 모델화 함으로써 이러한 예측의 성능을 높이는 방법입니다. 앞서 MF에서는 사용자의 취향과 아이템의 특성을 나타내는 특성값을 K개로 요약하여 추출하고 이를 통해 각 사용자의 선호아이템을 예측하는 방식이었습니다. MF에서 사용한 특성값 이외에도 예측에 도움이 될 수 있는 변수가 존재할 수 있는데 이러한 다양한 변수를 종합해서 요인화(Factorization)해주는 방법이 FM입니다. FM의 표준식 FM의 기본 아이디어는 모든 변수와 그 변수들간의 상호작용을 고려해서 평점을 예측하는 것입니다. 입력변수 x의 모든 가능한 2개씩의 조합에 대해서 해당 잠재요인행렬 v의 값을 내적하고 여기에 x의 값을 곱하는 것이 표준식 입니다. ..
이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다. 3. 통계 3-1. 중심 경향성 중심 경향성은 데이터의 중심이 어디에 있는지를 파악하는 지표입니다. 댜부분은 데이터의 값의 합을 포인트 개수로 나눈 평균을 사용합니다. 평균은 이상치에 민감한 특성을 가집니다. 이런 부분을 피하가고자 중앙값을 사용하기도 하는데 중앙값은 데이터 전체에서 가장 중앙에 있는 데이터를 의미합니다. 을 찾기 위해서는 데이터를 정렬해야합니다. 3-2. 산포도 산포도는 데이터가 얼마나 퍼져있는지를 나타냅니다. 산포도를 측정하기 위해 max() - min()을 통해 산포도를 나타낼 수도 있고 아래와 같이 분산,표준편차를 확인할 수 있습니다. 분산(variance)은 관측값에서 평균을 뺀..
이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다. 2. 확률 어떠한 사건의 공간에서 특정 사건이 선택될 때 발생하는 불확실성을 수치적으로 나타내는 것입니다. 2-1. 종속성과 독립성 사건 A,B가 서로 발생여부에 관여한다면 종속 사건, 아니라면 독립 사건입니다. 예를들어 동전을 두번 던져서 첫번째 시도에 앞면이 나왔다고 해도 두번째 시도에 어떤 면이 나올지 알 수 없기에 독립사건입니다. 하지만 모두 뒷면이 나올 확률의 경우, 첫번째 시도에 동전에서 앞면이 나오면 확률이 0이 되기때문에 두 사건은 종속사건입니다. 2-2. 조건부확률 만약 두 사건이 독립사건이라면 P(A∩B) = P(A)*P(B)가 성립합니다. 예를 들어 P(A)가 주사위를 던져 2의 배수..
이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다. 1. 벡터 대부분의 데이터는 벡터로 표현할 수 있습니다. 벡터를 표현하는 가장 간단한 방법은 숫자로 구성된 list로 표현하는 것입니다. - 벡터의 덧셈, 뺄셈 배열의 각 성분끼리 덧셈과 뺄셈을 하게 됩니다. - 벡터의 내적 벡터의 내적은 벡터 v가 벡터 w 방향으로 얼마나 멀리 뻗어가는지를 나타냅니다. 다른 관점에서는 벡터 v가 벡터 w로 투영된 벡터의 길이를 나타냅니다. 벡터의 각 성분별 곱한 값을 더해 준 값입니다. - 벡터의 길이 L1 Norm 은 벡터 p, q 의 각 원소들의 차이의 절대값의 합 L2 Norm 은 벡터 p, q 의 유클리디안 거리(직선 거리) = 각 원소들의 차이의 제곱의 합에 ..
추천을 위한 다양한 알고리즘의 분류로 메모리 기반 알고리즘 , 모델 기반 알고리즘이 있습니다. 앞에서 알아본 협업 필터링이 메모리 기반 알고리즘이며 추천을 위한 데이터를 모두 메모리에 가지고 있으면서 추천이 필요할 때마다 이 데이터를 사용해서 계산을 하여 추천하는 방식입니다. 모델 기반 알고리즘은 데이터로부터 추천을 위한 모델을 구성한 뒤에 이 모델만을 저장하고 실제 추천할때 이 모델을 사용하여 추천하는 방식입니다. 이번 포스트에서 알아볼 행렬요인화(Matrix Factorization) 추천방식이 대표적인 모델 기반 알고리즘입니다. 메모리 기반 알고리즘 모델 기반 알고리즘 장점 - 모든 데이터를 메모리에 저장하고 있어 데이터를 충실히 사용한다. - 개별 사용자의 데이터에 집중하여 개별 사용자의 행동분석..
협업 필터링(Collaborative Filtering) 1. 유사도 지표(similarity index) 사용자간의 유사도를 구하는 것이 핵심 1) 상관계수(Correlation coefficient) 원래 사용되는 상관계수 식에서 사용자 x,y의 평균 평점과 s아이템에 대한 평점을 사용하여 상관계수를 측정할 수 있습니다. 평가 자료가 연속값인 경우에 가장 이해하기 쉬운 유사도로 사용된다.(-1에서 1사이의 값을 가짐) 그러나, 단점으로 늘 좋은 결과를 가져오지는 못한다. 2) 코사인 유사도 코사인 유사도에서는 각 아이템을 하나의 차원(dimention)으로 보고 사용자의 평가값을 좌표값으로 본다. 각 사용자의 평가값을 벡터로 해서 두 사용자 간의 벡터의 각도(코사인값)을 구할 수 있다. def cos..
안녕하세요. 오늘은 어제 리뷰하였던 협업 필터링 추천 시스템 이후의 추천시스템 알고리즘에 대해서 알아보도록 하겠습니다. https://aifactory.space/competition/detail/2009 INNOPOLIS AI SPACE-S 인공지능 세미나 - 추천시스템 더 알아보기 aifactory.space Sequential, Session Recommendation 사용자가 상호작용하는 항목을 상품의 집합으로 보는 것이 아닌 상품의 구매 순서 까지 고려해서 추천하는 방법 이를 통해서 이전 협업 필터링(잠재 요인 협업 필터링)에서 적용하기 어려웠던 사용자의 long-term, short-term 선호도 변화도 적용할 수 있게 되었습니다. Sequential Based : 긴 시간 동안 일반적인 l..
안녕하세요. 추천 시스템에 대한 좋은 자료가 있어 영상을 시청하고 정리하려고 합니다. 추천 시스템 기초 내용을 담고 있는 영상 자료와 실습을 할 수 있는 페이지 링크를 남겨놓겠습니다. https://aifactory.space/competition/detail/1977 INNOPOLIS AI SPACE-S 인공지능 세미나 - 추천시스템 입문하기 aifactory.space 추천 시스템이란? 어떤 사용자에게 어떤 아이템을 어떻게 추천할지 문제 설정 - Rating Prediction : User-Item Matrix Rating 에서 빈칸을 채우는 문제 - Top-k Recommendation Problem : Rating(평점) 예측이 중요한게 아니라 k개의 상품을 추천하는 것에 중점 Rating(평점)..