일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 스타터스부트캠프
- 유데미코리아
- 서비스기획부트캠프
- 데이터도서
- 특성중요도
- 추천시스템
- 서비스기획
- MatchSum
- AWS builders
- 부트캠프후기
- 그로스해킹
- SQL
- 유데미큐레이션
- SLASH22
- 딥러닝
- 토스
- AARRR
- 임베딩
- 사이드프로젝트
- sql정리
- NLU
- 취업부트캠프 5기
- pytorch
- BERT
- 유데미부트캠프
- 스타터스
- 그래프
- 취업부트캠프
- NLP
- 알고리즘
- Today
- Total
목록MatchSum (4)
다시 이음
안녕하세요. 오늘은 사용할 데이터셋을 정하고 MATCHSUM을 구현하고 그 과정에서 겪은 문제점에 대해 적어보려고 합니다. 1. Choose Dataset *Ext = 문서를 pruning한 후 문장의 개수(길이) **Sel = 후보군 요약(C)을 구성하는 문장의 개수(길이) ***Size = 최종 후보군 요약문의 개수 논문에서 CNN/DM 데이터셋을 사용할때 가장 좋은 성능을 보여주기 때문에 한국어 데이터셋 중에 CNN/DM과 비슷한 형태의 데이터가 있는지 확인해보고 사용하도록 하겠습니다. AI-HUB 데이터를 살펴봐서 사용할 수 있는 요약 데이터셋을 아래와 같이 정리했습니다. 도서자료 요약 (다양한 주제 도서 원문 1천자 이내, 요약 1~5문장) (https://aihub.or.kr/aihubdata..

오늘은 논문 본문 마지막 부분과 결론 부분을 알아보겠습니다. 5. Experiment 5.1 Datasets 본 논문에서 제시한 프레임워크의 효용성을 알아보기 위해 아래의 벤치마크데이터셋을 활용하여 설명하려고 합니다. *Ext = 문서를 pruning한 후 문장의 개수 **Sel = 후보군 요약(C)을 구성하는 문장의 개수 ***Size = 최종 후보군 요약의 개수 CNN/DailyMail : 뉴스 기사, 요약문 포함 PubMed : 과학 논문으로 구성, 긴 글 (본 논문에선 intro 부분을 문서로, abstract 부분을 요약으로) WikiHow : 온라인 지식 베이스로부터 추출된 다양한 문서 XSum : 한 문장 요약 데이터셋 (기사의 주제) Multi-News : 뉴스 요약 데이터셋, 긴 요약문 ..
오늘은 MatchSum 논문 Extractive Summarization as Text Matching의 본문 내용을 정리하였습니다. 본문 2. Related Work(본 논문이 다루는 주제에 기존 관련 연구들을 확인하는 부분) 2.1 Extractive Summarization(추출 요약) 최근 추출 요약 연구에서 다양한 범위에서의 시도를 하고 있는데 대부분 encoder-decoder 프레임워크를 사용하는 RNN, Transformer, GNN, non-auto-regressive, auto-regressiv decoders 를 선택하고 있습니다. 이러한 모델은 sentence level에서의 추출기이며 개별적인 score 프로세스에서 최고 score 문장을 요약문으로 채택합니다. 그러나 이렇게 선택..
안녕하세요. 올초 1월에 기업 과제 프로젝트로 진행하였던 문서 요약 프로젝트에서 완성하지 못했던 matchsum 모델을 다시 구현해보기 위한 여정을 해보려고 합니다. 기존 프로젝트는 라벨링이 되어 있지 않아 TEXTRANK 모델로 라벨링을 하고 koBERTSum 모델 - MatchSum 모델을 모두 거쳐 보다 사람이 읽었을 때 자연스러운 요약문을 추출하는 방식이었습니다. 이전에는 koBERTSum까지는 완성했었으나 MatchSum의 경우 한국어 모델에 대한 정보가 없어서 영어 모델을 한국어 모델로 변환하는 무리한 과정을 거쳤었는데 그 뒤 계속 고쳐보려고 했으나 Cuda error가 발생하는 것이 아무래도 변환 부분에서 문제가 있었다고 판단하여 이번에는 직접 논문을 상세하게 파악해보고 구현해보는 프로젝트를..