Week 1-2 NLU 과제

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

다시 이음

Week 1-2 NLU 과제 본문

Pre_Onboarding by Wanted(자연어 처리)

Week 1-2 NLU 과제

Taeho(Damon) 2022. 2. 22. 15:22

NLU sub task - Machine Reading Comprehension(기계 독해)

문제 정의

- 대용량 문서를 대상으로 필요한 정보를 빠르고 정확하게 찾는 기술로 사람이 대용량 문서를 확인할 때 생기는 시간비용과 정확도를 개선하기 위해서 발전되고 있습니다. 기계독해를 base로 질문에 답할 수 있는 QA 기술이 발전함으로써 챗봇, 대화형 인공지능 개발이 가능해지고 있습니다.
기계 독해 추론 원리 및 과정

- 원리 : 주어진 본문에서 답이 시작할 점수 + 끝날 점수 맞추기
- 과정 : 원문, 질문 → Vocab 적용 → 숫자열로 변환 → 모델 추론 → 위치 선택 → 답변
기계 독해 응용 : OCR (문자인식) 후 MRC (기계독해), 영화 주인공의 프로파일 예측, 대화 플랫폼
데이터셋 소개 : SQuAD
- context, question, answer 부분으로 나뉘며 answer에서는 인덱싱 된 answer 시작위치(정수형), text로 구성됩니다.
SQuAD 데이터 구조
SOTA 모델 소개 : BERT, T5

(1) BERT

- RoBERTa, ALBERT 등과 같이 BERT 업그레이드 버전이 대체적으로 좋은 성능을 내고 있기에 Basic 모델인 BERT를 SOTA로 선정하였습니다.

BERT : Bidirectional Encoder Representations form Transformer

- 대용랑 unlabeled data로 모델을 미리 학습 시킨 후, 특정 task를 가지고 있는 labeled data로 transfer learning을 하는 모델
- 특정 task를 처리하기 위해 새로운 network를 붙일 필요 없이, BERT 모델 자체의 fine-tuning을 통해 성능이 높아졌습니다.
Input Representation

- 논문 키워드 : Masked Language Model(MLM), next sentence prediction(NSP), bidirectional
🔍 논문

(2) T5

- 기존 BERT 기반의 모델들은 Task별로 출력 형태(클래스 레이블, 입력 범위...)가 다르게 되어 있습니다. 이러한 문제는 퀄리티 이슈나 데이터의 다양성에 대한 이슈를 발생시켰습니다. 이를 해결하기 위해 T5는 텍스트 입력-텍스트 출력으로 자연어 처리 Task가 달라도 같은 모델, loss 함수, 그리고 하이퍼파라미터를 쓸 수 있게 개선한 모델입니다.

T5 : the Text-To-Text Transfer Transformer

- 새로운 오픈소스형 데이터 셋(C4. Colossal Clean Crawled Corpus)을 사용하여 사전학습을 진행하였습니다.
- 기존의 사전학습 모델들을 연구하여 성능을 좋게 한 아이디어와 방법을 사용합니다.

▶ 모델 아키텍쳐 : '디코더' 만 있는 모델보다 '인코더-디코더'구조의 모델이 성능이 우수
▶ 사전 훈련한 객체 : 마스킹된 단어를 복구하도록 훈련된 경우가 효과적
▶ unlabeled data
▶ 훈련 전략, 모델 확장성

- 논문 키워드 : text-to-text, Colossal Clean Crawled Corpus, Training strategies
🔍 논문

'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글

Week1-4. 리뷰 긍정부정 판별 모델 설정 프로세스 (0)	2022.02.24
Week 1-3. NLG 과제 (4)	2022.02.23
NLG 란? (0)	2022.02.23
NLU란? (0)	2022.02.22
Week 1-1 (Orientation) (5)	2022.02.21

'Pre_Onboarding by Wanted(자연어 처리)' Related Articles

다시 이음

Week 1-2 NLU 과제 본문

Week 1-2 NLU 과제

NLU sub task - Machine Reading Comprehension(기계 독해)

'Pre_Onboarding by Wanted(자연어 처리)' 카테고리의 다른 글

티스토리툴바