일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 서비스기획
- NLU
- 그로스해킹
- 스타터스
- AWS builders
- SQL
- MatchSum
- 특성중요도
- sql정리
- 취업부트캠프 5기
- 데이터도서
- 유데미부트캠프
- 그래프
- 임베딩
- 유데미코리아
- 알고리즘
- 취업부트캠프
- 서비스기획부트캠프
- NLP
- 부트캠프후기
- 딥러닝
- 추천시스템
- 토스
- 사이드프로젝트
- AARRR
- 유데미큐레이션
- BERT
- pytorch
- 스타터스부트캠프
- SLASH22
- Today
- Total
목록Summarization (3)
다시 이음

오늘은 논문 본문 마지막 부분과 결론 부분을 알아보겠습니다. 5. Experiment 5.1 Datasets 본 논문에서 제시한 프레임워크의 효용성을 알아보기 위해 아래의 벤치마크데이터셋을 활용하여 설명하려고 합니다. *Ext = 문서를 pruning한 후 문장의 개수 **Sel = 후보군 요약(C)을 구성하는 문장의 개수 ***Size = 최종 후보군 요약의 개수 CNN/DailyMail : 뉴스 기사, 요약문 포함 PubMed : 과학 논문으로 구성, 긴 글 (본 논문에선 intro 부분을 문서로, abstract 부분을 요약으로) WikiHow : 온라인 지식 베이스로부터 추출된 다양한 문서 XSum : 한 문장 요약 데이터셋 (기사의 주제) Multi-News : 뉴스 요약 데이터셋, 긴 요약문 ..
오늘은 MatchSum 논문 Extractive Summarization as Text Matching의 본문 내용을 정리하였습니다. 본문 2. Related Work(본 논문이 다루는 주제에 기존 관련 연구들을 확인하는 부분) 2.1 Extractive Summarization(추출 요약) 최근 추출 요약 연구에서 다양한 범위에서의 시도를 하고 있는데 대부분 encoder-decoder 프레임워크를 사용하는 RNN, Transformer, GNN, non-auto-regressive, auto-regressiv decoders 를 선택하고 있습니다. 이러한 모델은 sentence level에서의 추출기이며 개별적인 score 프로세스에서 최고 score 문장을 요약문으로 채택합니다. 그러나 이렇게 선택..
안녕하세요. 올초 1월에 기업 과제 프로젝트로 진행하였던 문서 요약 프로젝트에서 완성하지 못했던 matchsum 모델을 다시 구현해보기 위한 여정을 해보려고 합니다. 기존 프로젝트는 라벨링이 되어 있지 않아 TEXTRANK 모델로 라벨링을 하고 koBERTSum 모델 - MatchSum 모델을 모두 거쳐 보다 사람이 읽었을 때 자연스러운 요약문을 추출하는 방식이었습니다. 이전에는 koBERTSum까지는 완성했었으나 MatchSum의 경우 한국어 모델에 대한 정보가 없어서 영어 모델을 한국어 모델로 변환하는 무리한 과정을 거쳤었는데 그 뒤 계속 고쳐보려고 했으나 Cuda error가 발생하는 것이 아무래도 변환 부분에서 문제가 있었다고 판단하여 이번에는 직접 논문을 상세하게 파악해보고 구현해보는 프로젝트를..