'Tokenizer' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Tokenizer (1)

다시 이음

임베딩 (2) - Subword (segmentation) Embedding

안녕하세요. Subword (segmentation) Tokenizer 모델에 대해서 알아보려고 합니다. Subword (segmentation) Tokenizer Subword segmentation은 단어 기반 토크나이즈 방식이 갖는 OOV(Out Of Vocabulary) 문제를 해결하는 토크나이즈 방식입니다. 단어 보다 더 작은 단위인 “subword” 단위로 토큰을 분리하는데 이러한 방식은 신조어나 학습 코퍼스에 없던 새로운 단어도 사전에 있는 subword의 조합으로 표현할 수 있다는 장점이 있습니다. 뿐만 아니라 영어는 prefix, suffix가 의미를 가지고 있는 경우가 많습니다. 예를 들면, “fearless”란 단어는 “fear” + “less” subword로 이루어져 있는데 각각의..

Pre_Onboarding by Wanted(자연어 처리) 2022. 3. 8. 21:07

이전 Prev 1 Next 다음

목록Tokenizer (1)

다시 이음

티스토리툴바