일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 임베딩
- BERT
- 그래프
- pytorch
- 딥러닝
- 유데미부트캠프
- MatchSum
- 알고리즘
- 서비스기획부트캠프
- 유데미큐레이션
- 토스
- NLU
- SLASH22
- 유데미코리아
- 그로스해킹
- AWS builders
- AARRR
- SQL
- sql정리
- 취업부트캠프
- 부트캠프후기
- 스타터스부트캠프
- 특성중요도
- 사이드프로젝트
- 추천시스템
- 취업부트캠프 5기
- 스타터스
- 서비스기획
- 데이터도서
- NLP
- Today
- Total
목록embedding (2)
다시 이음

안녕하세요. 오늘은 Embedding 시리즈의 3번째 문맥 임베딩에 대해서 알아보도록 하겠습니다. Contextual embedding model Contextual Embedding은 단어를 저차원 (일반적으로 100~500 차원) 공간에서 표현하는 기법입니다. 단, 기존의 전통적 Word Embedding과는 달리, 같은 단어더라도 문맥에 따라 그 표현방법이 바뀔 수 있는 개념의 Embedding입니다. 전통적인 Pre-trained Word Representation(Word2vec)은 한 단어가 가지고 있는 여러가지의 의미를 표현할 수 없었습니다. Contextualized Word Embedding은 같은 단어라도 문맥에 따라 다른 vector를 만들어 냅니다. 대표적으로 ELMo, Bert, ..

안녕하세요. 오늘은 어제에 이어서 자연어를 벡터화 하는 방법에 대해서 알아보겠습니다. 어제 등장 횟수에 따라 벡터화 하는 방법(BoW:TF,TF-IDF)을 알아보았습니다. 오늘은 벡터화 하는 다른 방법인 단어 자체를 벡터화 하는 분산 표현에 대해서 알아보겠습니다. Distributed Representation 1) 원핫인코딩 단어를 벡터화하고자 할 때 선택할 수 있는 가장 쉬운 방법입니다. 예를 들면 5가지의 단어가 모여 하나의 문장을 이룰 때 이것을 원핫인코딩을 적용하면 5차원을 가진 벡터가 생성됩니다. 순서에 따라 [1,0,0,0,0], [0,1,0,0,0]... [0,0,0,0,1]과같이 생성됩니다. 원핫인코딩의 단점은 단어간의 유사도를 구할 수 없다는 것입니다. 코사인 유사도(cosine sim..