Taeho(Damon)
2022. 2. 22. 11:26
Week1-2 NLU 개론
목표 : 해결할 문제가 어떤 task인지 구별, 벤치마크 데이터 셋 및 모델을 알기
1. NLU란?
Main task : 언어의 이해
- Syntactic == 문법적 구분
- Semantic == 문장의 의미 구분 - 감정분석, 유사도, 맥락파악, QnA, 추론 등등
2. GLUE & SQuAD
"가장 공신력 있는 NLU 대회(벤치마크)"
GLUE 백서 내에 표기 되어 있는 사용 데이터셋에 따른 Task와 평가지표, 도메인을 확인 할 수 있습니다.
- CoLA - 문법
- SST - 감성 분석(문장의 의미 분석)
- STS - 문장 유사도
- MRPC,QQP - 맥락 이해
- MNLI - 자연어 추론
- SQuAD - 기계 독해 ( 글을 통해 질문에 대한 대답을 하는 QA task )
아래 표는 위에서 설명한 내용을 예시를 통해 이해를 돕습니다.
3. NLP task 활용 분야 예시
문법(CoLA) - 자동 문법 교정
감성 분석(SST) - 리뷰 데이터 감성 분석
문장 유사성(STS) - 유사 문서 클러스터링
추론(MNLI) - 자동 회계 검사
언급 대상 추론(WNLI) - QA,요약,번역의 필수 요소(기초) - 대명사 파악
QA(SQuAD) - 검색 엔진 스닛펫(요약검색 추출)
4. SOTA 모델
주로 BERT와 변형모델, T5와 같은 대용량 사전학습 모델이 SOTA를 기록하고 있습니다.
- GLUE
- 문법 ➡ biLSTM, BERT(RoBERTa)
- 감성 분석 ➡ BERT(RoBERTa)
- 문장 유사성 ➡ Bert(RoBERTa)
- 추론 ➡ T5, Bert(ALBERT, DeBERTa)
- 언급 대상 추론 (WNLI) ➡ Bert(SpanBERT, RoBERTa)
- SQuAD
- QA ➡ T5, Bert(Bigbird), XLNet (대용량의 자료를 사용할수록 성능이 높음)
5. 벤치마크 task 이외의 활용
- 분류 : 이탈 고객 예측, 상품 카테고리 분류, 위험 판별
- 군집화 : 유사 제품군 군집화, 유사 키워드 생성