다시 이음

Week 1-2 NLU 과제 본문

Pre_Onboarding by Wanted(자연어 처리)

Week 1-2 NLU 과제

Taeho(Damon) 2022. 2. 22. 15:22

NLU sub task - Machine Reading Comprehension(기계 독해)

 

  • 문제 정의

    - 대용량 문서를 대상으로 필요한 정보를 빠르고 정확하게 찾는 기술로 사람이 대용량 문서를 확인할 때 생기는 시간비용과 정확도를 개선하기 위해서 발전되고 있습니다. 기계독해를 base로 질문에 답할 수 있는 QA 기술이 발전함으로써 챗봇, 대화형 인공지능 개발이 가능해지고 있습니다.
  • 기계 독해 추론 원리 및 과정

    - 원리 : 주어진 본문에서 답이 시작할 점수 + 끝날 점수 맞추기
    - 과정 : 원문, 질문 → Vocab 적용 → 숫자열로 변환 → 모델 추론 → 위치 선택 → 답변

  • 기계 독해 응용 : OCR (문자인식) 후 MRC (기계독해), 영화 주인공의 프로파일 예측, 대화 플랫폼

  • 데이터셋 소개 : SQuAD
    - context, question, answer 부분으로 나뉘며 answer에서는 인덱싱 된 answer 시작위치(정수형), text로 구성됩니다.
    SQuAD 데이터 구조

  • SOTA 모델 소개 : BERT, T5

    (1) BERT

    - RoBERTa, ALBERT 등과 같이 BERT 업그레이드 버전이 대체적으로 좋은 성능을 내고 있기에 Basic 모델인 BERT를 SOTA로 선정하였습니다.

    BERT : Bidirectional Encoder Representations form Transformer

    - 대용랑 unlabeled data로 모델을 미리 학습 시킨 후, 특정 task를 가지고 있는 labeled data로 transfer learning을 하는 모델
    - 특정 task를 처리하기 위해 새로운 network를 붙일 필요 없이, BERT 모델 자체의 fine-tuning을 통해 성능이 높아졌습니다.
    Input Representation


    - 논문 키워드 : Masked Language Model(MLM), next sentence prediction(NSP), bidirectional
    🔍 논문


    (2) T5

    - 기존 BERT 기반의 모델들은 Task별로 출력 형태(클래스 레이블, 입력 범위...)가 다르게 되어 있습니다. 이러한 문제는 퀄리티 이슈나 데이터의 다양성에 대한 이슈를 발생시켰습니다. 이를 해결하기 위해 T5는 텍스트 입력-텍스트 출력으로 자연어 처리 Task가 달라도 같은 모델, loss 함수, 그리고 하이퍼파라미터를 쓸 수 있게 개선한 모델입니다.

    T5 : the Text-To-Text Transfer Transformer

    - 새로운 오픈소스형 데이터 셋(C4. Colossal Clean Crawled Corpus)을 사용하여 사전학습을 진행하였습니다.
    - 기존의 사전학습 모델들을 연구하여 성능을 좋게 한 아이디어와 방법을 사용합니다.
     
      ▶ 모델 아키텍쳐 : '디코더' 만 있는 모델보다 '인코더-디코더'구조의 모델이 성능이 우수
      ▶ 사전 훈련한 객체 : 마스킹된 단어를 복구하도록 훈련된 경우가 효과적
      ▶ unlabeled data
      ▶ 훈련 전략, 모델 확장성

    - 논문 키워드 : text-to-text, Colossal Clean Crawled Corpus, Training strategies
    🔍 논문

 

'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글

Week1-4. 리뷰 긍정부정 판별 모델 설정 프로세스  (0) 2022.02.24
Week 1-3. NLG 과제  (4) 2022.02.23
NLG 란?  (0) 2022.02.23
NLU란?  (0) 2022.02.22
Week 1-1 (Orientation)  (5) 2022.02.21