다시 이음

NLU란? 본문

Pre_Onboarding by Wanted(자연어 처리)

NLU란?

Taeho(Damon) 2022. 2. 22. 11:26

Week1-2 NLU 개론

 

목표 : 해결할 문제가 어떤 task인지 구별, 벤치마크 데이터 셋 및 모델을 알기

 

1. NLU란?

 

Main task : 언어의 이해

  • Syntactic == 문법적 구분
  • Semantic == 문장의 의미 구분 - 감정분석, 유사도, 맥락파악, QnA, 추론 등등 

 

 2. GLUE & SQuAD

 

"가장 공신력 있는 NLU 대회(벤치마크)"

 

GLUE 백서 내에 표기 되어 있는 사용 데이터셋에 따른 Task와 평가지표, 도메인을 확인 할 수 있습니다.

  1. CoLA - 문법
  2. SST - 감성 분석(문장의 의미 분석)
  3. STS - 문장 유사도
  4. MRPC,QQP - 맥락 이해
  5. MNLI - 자연어 추론
  6. SQuAD - 기계 독해 ( 글을 통해 질문에 대한 대답을 하는 QA task )

 

아래 표는 위에서 설명한 내용을 예시를 통해 이해를 돕습니다.

task 요약표

 

3. NLP task 활용 분야 예시

 

문법(CoLA) - 자동 문법 교정

 

감성 분석(SST) - 리뷰 데이터 감성 분석

 

문장 유사성(STS) - 유사 문서 클러스터링

 

추론(MNLI) - 자동 회계 검사

 

언급 대상 추론(WNLI) - QA,요약,번역의 필수 요소(기초) - 대명사 파악

 

QA(SQuAD) - 검색 엔진 스닛펫(요약검색 추출)

 

 

4. SOTA 모델

 

주로 BERT와 변형모델, T5와 같은 대용량 사전학습 모델이 SOTA를 기록하고 있습니다.

 

  • GLUE 
    • 문법 ➡ biLSTM, BERT(RoBERTa) 
    • 감성 분석 ➡ BERT(RoBERTa) 
    • 문장 유사성 ➡ Bert(RoBERTa) 
    • 추론 ➡ T5, Bert(ALBERT, DeBERTa) 
    • 언급 대상 추론 (WNLI) ➡ Bert(SpanBERT, RoBERTa) 
  • SQuAD
    • QA ➡ T5, Bert(Bigbird), XLNet (대용량의 자료를 사용할수록 성능이 높음)

 

5. 벤치마크 task 이외의 활용

 

  • 분류 : 이탈 고객 예측, 상품 카테고리 분류, 위험 판별
  • 군집화 : 유사 제품군 군집화, 유사 키워드 생성

'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글

Week1-4. 리뷰 긍정부정 판별 모델 설정 프로세스  (0) 2022.02.24
Week 1-3. NLG 과제  (4) 2022.02.23
NLG 란?  (0) 2022.02.23
Week 1-2 NLU 과제  (4) 2022.02.22
Week 1-1 (Orientation)  (5) 2022.02.21