Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- AWS builders
- 취업부트캠프 5기
- 추천시스템
- 서비스기획
- 취업부트캠프
- 유데미부트캠프
- 토스
- NLU
- 서비스기획부트캠프
- sql정리
- 유데미코리아
- 데이터도서
- 사이드프로젝트
- NLP
- 스타터스부트캠프
- SLASH22
- 그래프
- pytorch
- AARRR
- 특성중요도
- 부트캠프후기
- BERT
- 임베딩
- 알고리즘
- 딥러닝
- 스타터스
- MatchSum
- 유데미큐레이션
- 그로스해킹
- SQL
Archives
- Today
- Total
다시 이음
Week 1-1 (Orientation) 본문
1. 본인이 본 강의를 수강하는 목적에 대해서 자유롭게 적어보세요.
✏️
AI 부트캠프 당시에 TensorFlow 라이브러리를 사용하여 공부를 했습니다. 그러나 딥러닝 관련 프로젝트를 진행할 시에 활용하고자 하는 모델(YOLO, seqGAN 등)에 대하여 사용할 수 있는 오픈소스 코드가 대부분 Pytorch 라이브러리를 사용해서 진행하는 경우가 많았습니다. Pytorch사용법을 몰랐기 때문에 TensorFlow를 사용하여 프로젝트를 진행하긴 했지만 그 과정에서 소스를 얻기 위해 많은 시간을 사용하였습니다. 앞선 경험으로 활용도 측면에서 Pytorch 가 더 좋은 측면이 있다고 생각하여 독학을 하려고 하던 찰나에 해당 강의를 알게되어 지원하게 되었습니다.
2. Paperswithcode(https://paperswithcode.com/area/natural-language-processing)에서 NLP sub task 중에 2개를 선택하여 본인 블로그에 정리해보세요. task 별로 아래 3가지 항목에 대해서 정리하세요.
(1) Text Generation
- 문제 정의 : 기존 언어 모델(Language model)은 학습한 문장을 똑같이 만들어 내는 것이 목적이기 때문에 다양한 데이터(output)를 기대할 수 없습니다. 이와 같은 문제를 해결하기 위해 Text Generation(문장 생성)이 필요합니다.
- 데이터 소개 : MATH
- MATH는 12,500개의 경쟁 수학 문제의 데이터 세트입니다. MATH의 각 문제에는 모델이 답 유도 및 설명을 생성하도록 가르치는 데 사용할 수 있는 완전한 단계별 솔루션를 제공합니다.
- json 형태. key값으로 'problem, level, type, solution'을 가집니다.
#예시 { "problem": "Let \\[f(x) = \\left\\{\n\\begin{array}{cl} ax+3, &\\text{ if }x>2, \\\\\nx-5 &\\text{ if } -2 \\le x \\le 2, \\\\\n2x-b &\\text{ if } x <-2.\n\\end{array}\n\\right.\\]Find $a+b$ if the piecewise function is continuous (which means that its graph can be drawn without lifting your pencil from the paper).", "level": "Level 5", "type": "Algebra", "solution": "For the piecewise function to be continuous, the cases must \"meet\" at $2$ and $-2$. For example, $ax+3$ and $x-5$ must be equal when $x=2$. This implies $a(2)+3=2-5$, which we solve to get $2a=-6 \\Rightarrow a=-3$. Similarly, $x-5$ and $2x-b$ must be equal when $x=-2$. Substituting, we get $-2-5=2(-2)-b$, which implies $b=3$. So $a+b=-3+3=\\boxed{0}$." }
- SOTA 모델 소개
- 최근에 가장 좋은 성적을 내고 있는 모델은 GPT-2(1.5B), LeakGAN 등이 있습니다.
- GPT-2(1.5B) 키워드 : Unsupervise, Multitask, Zero-shot
- LeakGAN 키워드 : long text generation, MANAGER module, WORKER module, leaking
(2) Sentiment Analysis
- 문제 정의 : 텍스트에 잠재되어 있는 의견이나 감성, 평가, 태도 등의 주관적인 정보을 통해 수치화 하기 어려운 부분을 해석하여 활용할 필요가 있습니다.
- 데이터 소개 : IMDB 영화 리뷰
- IMDb 영화 리뷰 데이터세트 는 긍정적 또는 부정적으로 레이블이 지정된 IMDb(Internet Movie Database)의 50,000개 리뷰로 구성된 이진 감정 분석 데이터세트입니다. 데이터 세트에는 짝수개의 긍정적인 리뷰와 부정적인 리뷰가 포함되어 있습니다.
- 리뷰내용이 담긴 비정형 데이터(문장)과 레이블(긍정적,부정적)으로 이루어진 데이터셋입니다. - SOTA 모델 소개
- RoBERTa(A Robustly Optimized BERT Pretraining Approach)
- BERT 모델의 업그레이드 버전이며, 기존 BERT모델이 Undertrained 되었고 후속모델들보다 좋은 성적을 거두기 때문에 설계를 다시 하여 성능을 향상시킨 모델입니다.
- RoBERTa 키워드 : Dynamic Masking, Large mini-batches, remove NSP
'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글
Week1-4. 리뷰 긍정부정 판별 모델 설정 프로세스 (0) | 2022.02.24 |
---|---|
Week 1-3. NLG 과제 (4) | 2022.02.23 |
NLG 란? (0) | 2022.02.23 |
Week 1-2 NLU 과제 (4) | 2022.02.22 |
NLU란? (0) | 2022.02.22 |