일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 그로스해킹
- 유데미코리아
- 서비스기획부트캠프
- 스타터스
- MatchSum
- 스타터스부트캠프
- sql정리
- 유데미큐레이션
- 유데미부트캠프
- 취업부트캠프 5기
- 알고리즘
- AARRR
- SQL
- 취업부트캠프
- 데이터도서
- 특성중요도
- NLU
- 부트캠프후기
- NLP
- BERT
- 임베딩
- 사이드프로젝트
- SLASH22
- 그래프
- 딥러닝
- pytorch
- 토스
- 서비스기획
- 추천시스템
- AWS builders
- Today
- Total
목록임베딩 (4)
다시 이음

안녕하세요. 오늘은 word embedding 모델의 종류를 알아보려고 합니다. 임베딩은 자연어를 컴퓨터가 이해하고, 효율적으로 처리하기 위해서 컴퓨터가 이해할 수 있도록 자연어를 적절히 변환합니다. 1. Embedding 방법 1-1. Sparse Embedding 원-핫 인코딩 방법은 단어 인덱스만 1이고 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이 있습니다. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 Sparse representation(희소 표현)이라고 합니다. 단점 포함된 단어의 개수 만큼 차원이 확장되기 때문에 고차원으로 형성 ==> 차원의저주(curse of dimensionality) 벡터가 단어의 의미를 표현하지 못합니다. 모든 단어의 유클..

안녕하세요. 오늘은 BERT모델의 구조, 임베딩 개념에 대해서 이해하기 위해서 여러방법으로 임베딩을 설정하는 방법을 설명하려고 합니다. BERT를 활용하는 데 집중할 것이기 때문에 먼저 간단한 이론에서 임베딩 활용 순서대로 보려고합니다.(BERT에 대한 특징 NSP, MLM 같은 내용은 논문을 정리한 내용을 통해 공부를 하면 좋습니다.) BERT 기본적으로 1개의 input_embedding과 12개의 히든레이어(인코더)를 가지고 있는 구조입니다. 위에서 보이듯이 BERT의 임베딩은 단어 임베딩, 문장 임베딩이 가능합니다. 여기서 BERT의 활용을 보기 위해서 빠르게 사전학습된 데이터를 불러옵니다. BERT는 pre_trained 모델이기 때문에 저희는 BertTokenizer, BertModel을 불러..

안녕하세요. 오늘은 제가 3주간 진행한 프로젝트에 대한 리뷰 시간을 가져보려고 합니다. 총평으로는 이렇게 긴 기간동안 프로젝트를 진행한 적이 없었고, 팀원과 같이 커뮤니케이션하면서 진행하는 기업협업 프로젝트였기에 실무에서 사용하는 데이터를 사용할 수 있었고 팀원간의 커뮤니케이션과 의견 합일에 대해서도 많이 생각하게되었습니다. 이러한 전체적인 과정은 긴장되면서도 많은 것을 배우고 생각하게 된 프로젝트였습니다. 이 리뷰를 작성하면서 기업과 맺은 계약 때문에 하나하나의 설명보다는 어떤 기술을 사용했고 어떤 방식으로 진행했는지만을 상세히 다뤄보려고 합니다. BASE 이 프로젝트를 하기 앞서 저희가 제공받았던 데이터는 반정형 데이터의 형태인 로그 데이터였습니다. 이 로그데이터를 분석하고 여러가지 게임 이용자에 적..

안녕하세요. 오늘은 어제에 이어서 자연어를 벡터화 하는 방법에 대해서 알아보겠습니다. 어제 등장 횟수에 따라 벡터화 하는 방법(BoW:TF,TF-IDF)을 알아보았습니다. 오늘은 벡터화 하는 다른 방법인 단어 자체를 벡터화 하는 분산 표현에 대해서 알아보겠습니다. Distributed Representation 1) 원핫인코딩 단어를 벡터화하고자 할 때 선택할 수 있는 가장 쉬운 방법입니다. 예를 들면 5가지의 단어가 모여 하나의 문장을 이룰 때 이것을 원핫인코딩을 적용하면 5차원을 가진 벡터가 생성됩니다. 순서에 따라 [1,0,0,0,0], [0,1,0,0,0]... [0,0,0,0,1]과같이 생성됩니다. 원핫인코딩의 단점은 단어간의 유사도를 구할 수 없다는 것입니다. 코사인 유사도(cosine sim..