Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 알고리즘
- 임베딩
- 취업부트캠프
- 데이터도서
- 취업부트캠프 5기
- AWS builders
- NLP
- 추천시스템
- 유데미코리아
- 딥러닝
- 부트캠프후기
- NLU
- 유데미부트캠프
- MatchSum
- AARRR
- 토스
- pytorch
- 그래프
- 스타터스부트캠프
- SLASH22
- sql정리
- 서비스기획부트캠프
- 유데미큐레이션
- BERT
- 스타터스
- SQL
- 서비스기획
- 사이드프로젝트
- 특성중요도
- 그로스해킹
Archives
- Today
- Total
목록Tokenizer (1)
다시 이음

안녕하세요. Subword (segmentation) Tokenizer 모델에 대해서 알아보려고 합니다. Subword (segmentation) Tokenizer Subword segmentation은 단어 기반 토크나이즈 방식이 갖는 OOV(Out Of Vocabulary) 문제를 해결하는 토크나이즈 방식입니다. 단어 보다 더 작은 단위인 “subword” 단위로 토큰을 분리하는데 이러한 방식은 신조어나 학습 코퍼스에 없던 새로운 단어도 사전에 있는 subword의 조합으로 표현할 수 있다는 장점이 있습니다. 뿐만 아니라 영어는 prefix, suffix가 의미를 가지고 있는 경우가 많습니다. 예를 들면, “fearless”란 단어는 “fear” + “less” subword로 이루어져 있는데 각각의..
Pre_Onboarding by Wanted(자연어 처리)
2022. 3. 8. 21:07