Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 유데미코리아
- 사이드프로젝트
- 임베딩
- 데이터도서
- 스타터스부트캠프
- pytorch
- 서비스기획부트캠프
- 추천시스템
- 취업부트캠프 5기
- 그로스해킹
- BERT
- 토스
- sql정리
- MatchSum
- 서비스기획
- NLP
- 특성중요도
- SLASH22
- 취업부트캠프
- 그래프
- AARRR
- NLU
- AWS builders
- 부트캠프후기
- 유데미큐레이션
- 스타터스
- 알고리즘
- SQL
- 딥러닝
- 유데미부트캠프
Archives
- Today
- Total
목록Tokenizer (1)
다시 이음
임베딩 (2) - Subword (segmentation) Embedding
안녕하세요. Subword (segmentation) Tokenizer 모델에 대해서 알아보려고 합니다. Subword (segmentation) Tokenizer Subword segmentation은 단어 기반 토크나이즈 방식이 갖는 OOV(Out Of Vocabulary) 문제를 해결하는 토크나이즈 방식입니다. 단어 보다 더 작은 단위인 “subword” 단위로 토큰을 분리하는데 이러한 방식은 신조어나 학습 코퍼스에 없던 새로운 단어도 사전에 있는 subword의 조합으로 표현할 수 있다는 장점이 있습니다. 뿐만 아니라 영어는 prefix, suffix가 의미를 가지고 있는 경우가 많습니다. 예를 들면, “fearless”란 단어는 “fear” + “less” subword로 이루어져 있는데 각각의..
Pre_Onboarding by Wanted(자연어 처리)
2022. 3. 8. 21:07