일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 취업부트캠프 5기
- 딥러닝
- 서비스기획부트캠프
- 그로스해킹
- NLP
- 사이드프로젝트
- sql정리
- 취업부트캠프
- 알고리즘
- 그래프
- 부트캠프후기
- MatchSum
- 서비스기획
- NLU
- 유데미코리아
- AARRR
- 유데미큐레이션
- 추천시스템
- SQL
- 스타터스부트캠프
- BERT
- pytorch
- SLASH22
- 스타터스
- 임베딩
- 데이터도서
- 특성중요도
- 토스
- AWS builders
- 유데미부트캠프
- Today
- Total
목록Pre_Onboarding by Wanted(자연어 처리) (17)
다시 이음

안녕하세요. 오늘은 Pytorch를 이해하기 위해 기초인 텐서와 구조에 대해 알아보려고 합니다. Pytorch🔥 텐서 변환 리스트 >> 텐서 numpy.array >> 텐서 x = [[1],[2]] print(f"x data type: {type(x)}") #리스트 >> 텐서 x_tensor = torch.tensor(x) print(f"x_tensor data type: {type(x_tensor)}") #array 생성 x_np = np.array(x) print(f"x_np data type: {type(x_np)}") #array >> 텐서 x_tensor = torch.from_numpy(x_np) print(f"x_tensor data type: {type(x_tensor)}") 텐서 생성(0..
한국 스트리밍 서비스 (왓*, 쿠*플레이, 티*)에서 시청자가 영화를 보고 남긴 리뷰를 긍정과 부정으로 나누어 볼 수 있는 대시보드를 만들려고 합니다. 리뷰 긍부정 판별 모델을 만들려고 할 때, NLP 리서처/엔지니어로서 어떤 의사 결정을 할 것인지 각 단계에 맞춰 작성해봄으로써 실무에서의 프로세스를 간접 경험 해봅니다. (단, 수집된 리뷰 데이터의 개수가 1,000개 미만이라고 가정합니다.) 1. 문제 정의 풀고자 하는 문제를 정의하세요. 또한 데이터 생성 시 고려해야할 사항이 있다면 무엇인지 설명하세요. (예, 만약 긍정 리뷰가 부정 리뷰보다 많은 경우 어떻게 해야 할까?, 길이가 정말 긴 리뷰는 어떻게 전처리 해야 할까?) - 문제 정의 한국 OTT 서비스 이용 고객이 남긴 영화리뷰를 긍정,부정 판..

NLG sub task - Extractive summarization task(내용 추출 요약) 문제 정의 수많은 데이터가 생겨나는 요즘, 인간의 능력으로 유의미한 내용만을 선택하여 확인하기엔 정보를 모두 받아들일 수 없을 뿐만아니라 시간이 부족합니다. 이를 해결하기 위해 summarization을 통해 요약문의 문장이나 단어구들은 전부 원문에 있는 문장 사용하여 유의미한 정보만을 추출 요약하여 사용할 수 있습니다. 데이터셋 소개 : CNN / Daily Mail, DebateSum CNN / Daily Mail - CNN 및 Daily Mail 웹사이트의 뉴스 기사에서 질문으로 생성되었고 스토리는 시스템이 빈 채우기 질문에 답할 것으로 예상되는 해당 구절로 생성되었습니다. 저자는 이러한 웹사이트에서 ..

1.NLG란? Natural Language Generation (자연어 생성) - 시스템 계산 결과를 자연어로 자동으로 생성하는 자연어 처리 기술분야로 주어진 정보(이미지, 텍스트..)를 기반으로 정보 축약, 보강, 재구성을 하는 task를 가집니다. 좋은 자연어 생성의 기준 적절성: 생성된 문장이 모호하지 않고 원래의 input text의 의미와 일치해야 함 유창성: 문법이 정확하며 어휘를 적절하게 사용해야 함 가독성: 적절한 지시어, 접속사 등을 사용하여 문장의 논리 관계를 고려하여 생성해야 함 다양성: 상황이나 대상에 따라 표현을 다르게 생성해야 함 NLG 기본 알고리즘 : Decoding Algorithms - Language Model은 특정 time-step까지의 words sequence가..

NLU sub task - Machine Reading Comprehension(기계 독해) 문제 정의 - 대용량 문서를 대상으로 필요한 정보를 빠르고 정확하게 찾는 기술로 사람이 대용량 문서를 확인할 때 생기는 시간비용과 정확도를 개선하기 위해서 발전되고 있습니다. 기계독해를 base로 질문에 답할 수 있는 QA 기술이 발전함으로써 챗봇, 대화형 인공지능 개발이 가능해지고 있습니다. 기계 독해 추론 원리 및 과정 - 원리 : 주어진 본문에서 답이 시작할 점수 + 끝날 점수 맞추기 - 과정 : 원문, 질문 → Vocab 적용 → 숫자열로 변환 → 모델 추론 → 위치 선택 → 답변 기계 독해 응용 : OCR (문자인식) 후 MRC (기계독해), 영화 주인공의 프로파일 예측, 대화 플랫폼 데이터셋 소개 : ..

Week1-2 NLU 개론 목표 : 해결할 문제가 어떤 task인지 구별, 벤치마크 데이터 셋 및 모델을 알기 1. NLU란? Main task : 언어의 이해 Syntactic == 문법적 구분 Semantic == 문장의 의미 구분 - 감정분석, 유사도, 맥락파악, QnA, 추론 등등 2. GLUE & SQuAD "가장 공신력 있는 NLU 대회(벤치마크)" GLUE 백서 내에 표기 되어 있는 사용 데이터셋에 따른 Task와 평가지표, 도메인을 확인 할 수 있습니다. CoLA - 문법 SST - 감성 분석(문장의 의미 분석) STS - 문장 유사도 MRPC,QQP - 맥락 이해 MNLI - 자연어 추론 SQuAD - 기계 독해 ( 글을 통해 질문에 대한 대답을 하는 QA task ) 아래 표는 위에서 ..
1. 본인이 본 강의를 수강하는 목적에 대해서 자유롭게 적어보세요. ✏️ AI 부트캠프 당시에 TensorFlow 라이브러리를 사용하여 공부를 했습니다. 그러나 딥러닝 관련 프로젝트를 진행할 시에 활용하고자 하는 모델(YOLO, seqGAN 등)에 대하여 사용할 수 있는 오픈소스 코드가 대부분 Pytorch 라이브러리를 사용해서 진행하는 경우가 많았습니다. Pytorch사용법을 몰랐기 때문에 TensorFlow를 사용하여 프로젝트를 진행하긴 했지만 그 과정에서 소스를 얻기 위해 많은 시간을 사용하였습니다. 앞선 경험으로 활용도 측면에서 Pytorch 가 더 좋은 측면이 있다고 생각하여 독학을 하려고 하던 찰나에 해당 강의를 알게되어 지원하게 되었습니다. 2. Paperswithcode(https://pa..