다시 이음

Week 1-1 (Orientation) 본문

Pre_Onboarding by Wanted(자연어 처리)

Week 1-1 (Orientation)

Taeho(Damon) 2022. 2. 21. 16:37

1. 본인이 본 강의를 수강하는 목적에 대해서 자유롭게 적어보세요.

 

✏️

 AI 부트캠프 당시에 TensorFlow 라이브러리를 사용하여 공부를 했습니다. 그러나 딥러닝 관련 프로젝트를 진행할 시에 활용하고자 하는 모델(YOLO, seqGAN 등)에 대하여 사용할 수 있는 오픈소스 코드가 대부분 Pytorch 라이브러리를 사용해서 진행하는 경우가 많았습니다. Pytorch사용법을 몰랐기 때문에 TensorFlow를 사용하여 프로젝트를 진행하긴 했지만 그 과정에서 소스를 얻기 위해 많은 시간을 사용하였습니다. 앞선 경험으로 활용도 측면에서 Pytorch 가 더 좋은 측면이 있다고 생각하여 독학을 하려고 하던 찰나에 해당 강의를 알게되어 지원하게 되었습니다.



2. Paperswithcode(https://paperswithcode.com/area/natural-language-processing)에서 NLP sub task 중에 2개를 선택하여 본인 블로그에 정리해보세요. task 별로 아래 3가지 항목에 대해서 정리하세요.
   

 

(1) Text Generation

 

  • 문제 정의 : 기존 언어 모델(Language model)은 학습한 문장을 똑같이 만들어 내는 것이 목적이기 때문에 다양한 데이터(output)를 기대할 수 없습니다. 이와 같은 문제를 해결하기 위해 Text Generation(문장 생성)이 필요합니다.

  • 데이터 소개 : MATH
    - MATH는 12,500개의 경쟁 수학 문제의 데이터 세트입니다. MATH의 각 문제에는 모델이 답 유도 및 설명을 생성하도록 가르치는 데 사용할 수 있는 완전한 단계별 솔루션를 제공합니다.
    - json 형태. key값으로 'problem, level, type, solution'을 가집니다.
    #예시
    {
      "problem": "Let \\[f(x) = \\left\\{\n\\begin{array}{cl} ax+3, &\\text{ if }x>2, \\\\\nx-5 &\\text{ if } -2 \\le x \\le 2, \\\\\n2x-b &\\text{ if } x <-2.\n\\end{array}\n\\right.\\]Find $a+b$ if the piecewise function is continuous (which means that its graph can be drawn without lifting your pencil from the paper).",
      "level": "Level 5",
      "type": "Algebra",
      "solution": "For the piecewise function to be continuous, the cases must \"meet\" at $2$ and $-2$. For example, $ax+3$ and $x-5$ must be equal when $x=2$. This implies $a(2)+3=2-5$, which we solve to get $2a=-6 \\Rightarrow a=-3$. Similarly, $x-5$ and $2x-b$ must be equal when $x=-2$. Substituting, we get $-2-5=2(-2)-b$, which implies $b=3$. So $a+b=-3+3=\\boxed{0}$."
    }​


  • SOTA 모델 소개
    - 최근에 가장 좋은 성적을 내고 있는 모델은 GPT-2(1.5B), LeakGAN 등이 있습니다.
    - GPT-2(1.5B) 키워드 :  Unsupervise, Multitask, Zero-shot
    - LeakGAN 키워드 : long text generation, MANAGER module, WORKER module, leaking

 

(2) Sentiment Analysis

 

  • 문제 정의 : 텍스트에 잠재되어 있는 의견이나 감성, 평가, 태도 등의 주관적인 정보을 통해 수치화 하기 어려운 부분을 해석하여 활용할 필요가 있습니다.

  • 데이터 소개 : IMDB 영화 리뷰
    - IMDb 영화 리뷰 데이터세트 는 긍정적 또는 부정적으로 레이블이 지정된 IMDb(Internet Movie Database)의 50,000개 리뷰로 구성된 이진 감정 분석 데이터세트입니다. 데이터 세트에는 짝수개의 긍정적인 리뷰와 부정적인 리뷰가 포함되어 있습니다. 
    - 리뷰내용이 담긴 비정형 데이터(문장)과 레이블(긍정적,부정적)으로 이루어진 데이터셋입니다.

  • SOTA 모델 소개
    - RoBERTa(A Robustly Optimized BERT Pretraining Approach)
    - BERT 모델의 업그레이드 버전이며, 기존 BERT모델이 Undertrained 되었고 후속모델들보다 좋은 성적을 거두기 때문에 설계를 다시 하여 성능을 향상시킨 모델입니다.
    - RoBERTa 키워드 :  Dynamic Masking, Large mini-batches, remove NSP

 

'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글

Week1-4. 리뷰 긍정부정 판별 모델 설정 프로세스  (0) 2022.02.24
Week 1-3. NLG 과제  (4) 2022.02.23
NLG 란?  (0) 2022.02.23
Week 1-2 NLU 과제  (4) 2022.02.22
NLU란?  (0) 2022.02.22