일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 서비스기획부트캠프
- 취업부트캠프
- 임베딩
- 데이터도서
- 딥러닝
- pytorch
- 알고리즘
- 유데미부트캠프
- 유데미코리아
- BERT
- AARRR
- MatchSum
- 토스
- 스타터스부트캠프
- 유데미큐레이션
- AWS builders
- SQL
- 추천시스템
- NLP
- 특성중요도
- sql정리
- 사이드프로젝트
- 그로스해킹
- 스타터스
- NLU
- 부트캠프후기
- 그래프
- SLASH22
- 취업부트캠프 5기
- 서비스기획
- Today
- Total
목록AI 일별 공부 정리 (61)
다시 이음
안녕하세요. 오늘은 사용할 데이터셋을 정하고 MATCHSUM을 구현하고 그 과정에서 겪은 문제점에 대해 적어보려고 합니다. 1. Choose Dataset *Ext = 문서를 pruning한 후 문장의 개수(길이) **Sel = 후보군 요약(C)을 구성하는 문장의 개수(길이) ***Size = 최종 후보군 요약문의 개수 논문에서 CNN/DM 데이터셋을 사용할때 가장 좋은 성능을 보여주기 때문에 한국어 데이터셋 중에 CNN/DM과 비슷한 형태의 데이터가 있는지 확인해보고 사용하도록 하겠습니다. AI-HUB 데이터를 살펴봐서 사용할 수 있는 요약 데이터셋을 아래와 같이 정리했습니다. 도서자료 요약 (다양한 주제 도서 원문 1천자 이내, 요약 1~5문장) (https://aihub.or.kr/aihubdata..

오늘은 논문 본문 마지막 부분과 결론 부분을 알아보겠습니다. 5. Experiment 5.1 Datasets 본 논문에서 제시한 프레임워크의 효용성을 알아보기 위해 아래의 벤치마크데이터셋을 활용하여 설명하려고 합니다. *Ext = 문서를 pruning한 후 문장의 개수 **Sel = 후보군 요약(C)을 구성하는 문장의 개수 ***Size = 최종 후보군 요약의 개수 CNN/DailyMail : 뉴스 기사, 요약문 포함 PubMed : 과학 논문으로 구성, 긴 글 (본 논문에선 intro 부분을 문서로, abstract 부분을 요약으로) WikiHow : 온라인 지식 베이스로부터 추출된 다양한 문서 XSum : 한 문장 요약 데이터셋 (기사의 주제) Multi-News : 뉴스 요약 데이터셋, 긴 요약문 ..
오늘은 MatchSum 논문 Extractive Summarization as Text Matching의 본문 내용을 정리하였습니다. 본문 2. Related Work(본 논문이 다루는 주제에 기존 관련 연구들을 확인하는 부분) 2.1 Extractive Summarization(추출 요약) 최근 추출 요약 연구에서 다양한 범위에서의 시도를 하고 있는데 대부분 encoder-decoder 프레임워크를 사용하는 RNN, Transformer, GNN, non-auto-regressive, auto-regressiv decoders 를 선택하고 있습니다. 이러한 모델은 sentence level에서의 추출기이며 개별적인 score 프로세스에서 최고 score 문장을 요약문으로 채택합니다. 그러나 이렇게 선택..
안녕하세요. 올초 1월에 기업 과제 프로젝트로 진행하였던 문서 요약 프로젝트에서 완성하지 못했던 matchsum 모델을 다시 구현해보기 위한 여정을 해보려고 합니다. 기존 프로젝트는 라벨링이 되어 있지 않아 TEXTRANK 모델로 라벨링을 하고 koBERTSum 모델 - MatchSum 모델을 모두 거쳐 보다 사람이 읽었을 때 자연스러운 요약문을 추출하는 방식이었습니다. 이전에는 koBERTSum까지는 완성했었으나 MatchSum의 경우 한국어 모델에 대한 정보가 없어서 영어 모델을 한국어 모델로 변환하는 무리한 과정을 거쳤었는데 그 뒤 계속 고쳐보려고 했으나 Cuda error가 발생하는 것이 아무래도 변환 부분에서 문제가 있었다고 판단하여 이번에는 직접 논문을 상세하게 파악해보고 구현해보는 프로젝트를..
안녕하세요. 오늘은 시계열 데이터 예측에 대해서 사용할 수 있는 기법에 대해서 알아보도록 하겠습니다. 해당 글은 Hyndman, R.J., & Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. 온라인 교재의 내용을 요약,정리한 글이며 제가 주로 사용하는 파이썬이 아닌 R로 설명되어 있어 이해함에 부족함이 있을 수 도 있다는 점을 알려드립니다. 예측가의 도구 상자 1. 평균 기법 2. 단순 기법 모든 예측값을 단순하게 마지막 값으로 두는 것입니다. 데이터가 확률보행 패턴을 따를 때에 최적입니다. 3. 계절성 단순 기법 계절성이 뚜렷한 데이터를 다룰 때 유용합니다. 각..

안녕하세요. 오늘은 시계열 시각화에 대해서 알아보도록 하겠습니다. 해당 글은 Hyndman, R.J., & Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. 온라인 교재의 내용을 요약,정리한 글이며 제가 주로 사용하는 파이썬이 아닌 R로 설명되어 있어 이해함에 부족함이 있을 수 도 있다는 점을 알려드립니다. 시계열 시각화 데이터 분석 작업에서 가장 먼저 해야하는 것은 데이터를 그래프으로 나타내는 것입니다. 그래프는 패턴, 특이한 관측값, 시간에 따른 변화, 변수 사이의 관계 등의 데이터의 많은 특징을 눈으로 볼 수 있게 해줍니다. 시계열의 빈도 빈도의 값은 일별 혹..
안녕하세요. 오늘은 Sequential data(시간 순서에 따라 순차적으로 쌓이는 데이터)를 처리하기 위해 필요한 시계열 데이터 분석 방법에 대해서 정리를 해보려고 합니다. 해당 글은 Hyndman, R.J., & Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. 온라인 교재의 내용을 요약,정리한 글이며 제가 주로 사용하는 파이썬이 아닌 R로 설명되어 있어 이해함에 부족함이 있을 수 도 있다는 점을 알려드립니다. 시간이 되신다면 위의 링크를 통하여 실제 교재를 보시는 것을 추천드립니다. Forecasting 1. 예측 될 수 있는 것이란? 예측을 하기 쉬운 것과 ..

안녕하세요. 오늘은 알고리즘의 마지막 시간입니다. 그동안 많은 알고리즘과 자료구조에 대해서 알아보았는데요. 알아본 내용 이외에도 몬테카를로 알고리즘이나 퍼셉트론 알고리즘과 같이 수많은 알고리즘이 존재합니다. 오늘 동적 프로그래밍과 그리디를 정리하고나서 추후에 시간이 나는 경우 하나하나 정리하는 시간을 가지려고 합니다. 그렇게 오늘은 동적 프로그래밍(Dynamic Programing)과 그리디(Greedy)(탐욕 알고리즘) 에 대해서 살펴보겠습니다. 동적 프로그래밍(Dynamic Programing) 동적 계획법은 동적 알고리즘, 동적 프로그래밍, 다이나믹 프로그래밍 등등 다양한 용어로 사용되는데, 보편적 의미는 '문제의 일부분을 풀고 그 결과를 재활용하는 방법' 입니다. 이러한 개념은 이전에 배운 '분할..

안녕하세요. 오늘은 직전에 같이 배웠던 순회에서 자료구조인 그래프의 순회에 대해서 배워보려고 합니다. 그래프의 순회는 트리 순회와 비슷하게 진행 방향에 따른 구분입니다. BFS(Breadth-first-search) - 너비 우선 탐색 BFS 란? 그래프의 순회방법 중 인접한 노드부터 탐색해나가는 탐색 방법입니다. 위의 예시를 통해서 어떻게 BFS가 진행되는지 같이 살펴보도록 하겠습니다. BFS는 위에서 정의한 것과 같이 인접한 노드부터 탐색합니다. 좀더 쉽게 말하면 예전에 트리구조 용어에서 LEVEL이라는 단어를 들어보셨을 겁니다. 그 LEVEL에 따라 탐색을 진행한다고 생각하시면 됩니다. 시작 노드를 'A'로 지정한 경우에는 B-C-D가 인접한 노드로 먼저 탐색을 시작하고 그다음 레벨인 E-F-G-H..

안녕하세요. 오늘은 자료구조 중급의 두번째 그래프(Graph)에 대해서 알아보겠습니다. 이 그래프 자료구조는 트리 자료구조와 많이 비교가 이루어지는 자료구조 입니다. 그만큼 비슷한 점도 있고 차이점도 있는 구조입니다. 그래프(Graph) 위에서 언급한 것과 같이 트리 구조와 어떤 부분이 비슷하고 어떤 부분에서 차이를 보일까요? 그래프란? 그래프는 노드(=정점,vertex) 와 엣지(=링크,간선)로 구성된 구조입니다. 이러한 구성에 대해서는 어느 정도 연관성을 가지고 있는 구조이지만, 트리 구조는 노드 간에 계층 구조를 나타나고 그래프는 노드간에 관계를 나타낸다는 차이점이 있습니다. 그래프에서 노드간에 관계란 실제의 object간의 관계를 보여주기 때문에 보통 SNS, 도로 상의 차량 검색, 운송시스템 등..