Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 그로스해킹
- 부트캠프후기
- 추천시스템
- AWS builders
- 딥러닝
- 알고리즘
- 토스
- 서비스기획
- SQL
- pytorch
- 서비스기획부트캠프
- sql정리
- 유데미코리아
- 유데미큐레이션
- 특성중요도
- SLASH22
- 스타터스
- 유데미부트캠프
- 사이드프로젝트
- 스타터스부트캠프
- AARRR
- MatchSum
- NLP
- 취업부트캠프 5기
- 데이터도서
- 취업부트캠프
- BERT
- NLU
- 그래프
- 임베딩
Archives
- Today
- Total
다시 이음
NLU란? 본문
Week1-2 NLU 개론
목표 : 해결할 문제가 어떤 task인지 구별, 벤치마크 데이터 셋 및 모델을 알기
1. NLU란?
Main task : 언어의 이해
- Syntactic == 문법적 구분
- Semantic == 문장의 의미 구분 - 감정분석, 유사도, 맥락파악, QnA, 추론 등등
2. GLUE & SQuAD
"가장 공신력 있는 NLU 대회(벤치마크)"
GLUE 백서 내에 표기 되어 있는 사용 데이터셋에 따른 Task와 평가지표, 도메인을 확인 할 수 있습니다.
- CoLA - 문법
- SST - 감성 분석(문장의 의미 분석)
- STS - 문장 유사도
- MRPC,QQP - 맥락 이해
- MNLI - 자연어 추론
- SQuAD - 기계 독해 ( 글을 통해 질문에 대한 대답을 하는 QA task )
아래 표는 위에서 설명한 내용을 예시를 통해 이해를 돕습니다.
3. NLP task 활용 분야 예시
문법(CoLA) - 자동 문법 교정
감성 분석(SST) - 리뷰 데이터 감성 분석
문장 유사성(STS) - 유사 문서 클러스터링
추론(MNLI) - 자동 회계 검사
언급 대상 추론(WNLI) - QA,요약,번역의 필수 요소(기초) - 대명사 파악
QA(SQuAD) - 검색 엔진 스닛펫(요약검색 추출)
4. SOTA 모델
주로 BERT와 변형모델, T5와 같은 대용량 사전학습 모델이 SOTA를 기록하고 있습니다.
- GLUE
- 문법 ➡ biLSTM, BERT(RoBERTa)
- 감성 분석 ➡ BERT(RoBERTa)
- 문장 유사성 ➡ Bert(RoBERTa)
- 추론 ➡ T5, Bert(ALBERT, DeBERTa)
- 언급 대상 추론 (WNLI) ➡ Bert(SpanBERT, RoBERTa)
- SQuAD
- QA ➡ T5, Bert(Bigbird), XLNet (대용량의 자료를 사용할수록 성능이 높음)
5. 벤치마크 task 이외의 활용
- 분류 : 이탈 고객 예측, 상품 카테고리 분류, 위험 판별
- 군집화 : 유사 제품군 군집화, 유사 키워드 생성
'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글
Week1-4. 리뷰 긍정부정 판별 모델 설정 프로세스 (0) | 2022.02.24 |
---|---|
Week 1-3. NLG 과제 (4) | 2022.02.23 |
NLG 란? (0) | 2022.02.23 |
Week 1-2 NLU 과제 (4) | 2022.02.22 |
Week 1-1 (Orientation) (5) | 2022.02.21 |