일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- BERT
- MatchSum
- 스타터스
- SLASH22
- 알고리즘
- NLP
- 취업부트캠프
- sql정리
- 유데미큐레이션
- 스타터스부트캠프
- 서비스기획
- 취업부트캠프 5기
- 딥러닝
- pytorch
- AWS builders
- 부트캠프후기
- 그로스해킹
- 특성중요도
- SQL
- 토스
- 추천시스템
- 유데미코리아
- 유데미부트캠프
- 데이터도서
- 그래프
- 사이드프로젝트
- AARRR
- 서비스기획부트캠프
- NLU
- 임베딩
- Today
- Total
목록분류 전체보기 (154)
다시 이음
어제에 이어서 여러가지 시각화 방법을 알아볼게요. 3. 순위 ( Ranking ) 1) Bar plot ( 막대 그래프 ) barplot를 나타내는 숫자 및 categoric 변수 사이의 관계. 범주형 변수의 각 항목은 막대로 표시됩니다. 막대의 크기는 숫자 값을 나타냅니다. # Libraries import numpy as np import matplotlib.pyplot as plt # Make a random dataset: height = [3, 12, 5, 18, 45] bars = ('A', 'B', 'C', 'D', 'E') y_pos = np.arange(len(bars)) # Create bars plt.bar(y_pos, height) # Create names on the x-axis..
이번주 프로젝트를 진행을 하면서 데이터 전처리와 분석이 중요하단 걸 알았지만 가장 크게 다가왔던 것은 그동안 신경을 안썼던 시각화에 대한 문제였습니다. 데이터를 분석한다 함은 내가 CEO가 아닌 이상 누군가에게 분석한 내용을 발표하거나 전달해야하는 위치에 있다는 걸 잊고 있던 거죠. 그러기위해서 필요한 능력은 안정된 톤으로 발표하는 전달력, 단순 명료하나 설득력이 있는 논리전개, 깔끔하고 말하고자하는 바가 잘 들어난 발표자료. 이 세가지가 얼마나 중요한지 알게된 시간이었습니다. 그 부족함을 채우기 위해서 다른 동기여러분들이 많이 사용하신 시각화에 대해서 흥미를 느꼈고 한번 정리를 해보고 싶었습니다. 1. 분포 ( Distribution ) 1) Violin violin t-plot은 하나 이상의 그룹을 ..
안녕하세요. 일주일 간 프로젝트 발표 준비를 하기 위해서 잠시 블로그 활동을 멈췄습니다. 오늘로 발표가 끝나고 피드백도 받았기에 널널한 마음으로 다시 블로그 업데이트를 할거에요. 오늘은 따로 배운 게 없기 때문에 제가 배웠던 부분에서 다시 상기해볼 수도 혹은 좀더 심화된 지식을 포스팅 해보려고 합니다. 바로 AI 대학원 면접 예상 질문!!! Statistic 통계 / Probability 확률 1) Central Limit Theorem(중심 극한 정리)이란 무엇인가? Sample 데이터의 수가 많아질 수록, sample의 평균은 정규분포에 근사한 형태로 나타난다. 라고 이전 포스트에서 아주 축약해서 올린 적이 있는데요. 오늘은 심화과정이니 더 알아보도록 하겠습니다. 정의 : 동일한 확률분포를 가진 독립..
일주일에 평일에는 모두 블로그에 그 날 배운 지식을 업데이트하고 있습니다만.. 평일에 하루는 배운 것에 대한 테스트를 하는 날이라 딱히 스스로 배운 내용 다시 복습밖에 없어서 생각해낸 컨텐츠는 바로?! 알아두면 쓸데 있는 데이터 상식 ㅎㅎ 비전공자로서 나중에 취직을 하게될 때 배운 지식 말고도 도메인 지식이나 데이터 관련 지식에 대한 관심도 도 충분히 고려할 거 같기에 그걸 충족 시킬 수 있는 컨텐츠를 생각해봤습니다 헿 아직 배운 게 티끌이라 전체적인 구도를 못보고 있지만 그래도 차차 질 높은 컨텐츠를 만들 수 있을 거 같아요. 오늘의 주제는 고차원의 문제( The Curse of Dimensionality ) 입니다. 1) 차원(dimensionality)? 각 샘플을 정의하는 정보의 개수가 차원 좀 ..
지도 학습 (Supervised Learning) 데이터에 라벨이 있을 때 사용 가능. 분류(Classification) : 주어진 데이터가 카테고리 혹은 클래스 예측을 위해 사용 회귀(Prediction) : 주어진 데이터가 continuous할 때 결과 예측을 위해 사용 비지도 학습 (Unsupervised Learning) 클러스터링 ( Clustering ) : 데이터와 연관된 feature을 바탕으로 유사한 그룹을 생성. 차원 축소 ( Dimentionality Reduction ) 연관 규칙 학습 ( Association Rule Learning ) : feature들의 관계를 발견하는 방법 클러스터링 ( Clustering ) - 군집화 목적 : 주어진 데이터가 얼마나, 어떻게 유사한지 확인..
고차원 데이터 처리 선형변환( Vector transformation ) 임의의 두 벡터를 더하거나 혹은 스칼라 값을 곱하는 것을 의미 행렬은 벡터를 변환시켜 다른 벡터를 출력 벡터(x)에 행렬을 더하거나 곱하여 출력된 새로운 벡터(Ax)는 크기와 방향이 변화한다. 그중 크기는 변화하였지만 방향이 변화하지 않는 벡터를 우리는 고유벡터(Eigenvector)라고 한다. 임의의 n×n 행렬 A 에 대하여, 0이 아닌 솔루션 벡터(x)가 존재한다면 숫자 λ 는 행렬 A 의 고유값(Eigenvalue)라고 할 수 있다. 여기서 솔루션 벡터를 다시 고유벡터라고 보면 된다. 위의 특성 활용에서 두가지를 확인할 수 있는데 벡터(x)의 값이 0이거나 앞에 스칼라부분이 0이어야 한다 더보기 위의 내용을 아는 것이 주 목..
분산 ( Variance ) 데이터가 얼마나 퍼져있는지를 측정하는 방법 - (각 값들과 평균과의 차이)의 제곱 평균. df.var(ddof=1) # 분산을 구하는 함수 # ddof = 0 : n으로 나눔 (모집단) # ddof = 1 : n-1로 나눔 (표본집단) 표준편차 ( Standard Deviation ) 분산 값에 루트를 씌운 값. 분산을 구하는 과정에서 평균에 비해 스케일이 커지는 문제가 있는데,표준 편차는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법 공분산 ( Covariance ) 1개의 변수가 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지 측정하는 것. 즉, 2개의 확률변수의 선형 관계를 나타내는 값 상관관계의 상승(변수1이 증가할 때 변수2도 증가) 혹은 하강(변수1이..
Data structure 1D(1차원) 데이터의 순서가 유지되어야 하는 데이터 구조 주로 list로 이용된다. 2D(2차원) dataframe을 통해 주로 표현하며 행렬과 같다. Determinant - 매트릭스를 하나의 수로 표현하는 것 2x2의 Determinant는 위와 같이 실행한다. 스칼라와 벡터 (Scalar and Vector) 스칼라와 벡터는 선형 대수를 구성하는 기본 단위입니다. 스칼라는 단순히 변수로 저장되어 있는 숫자이며 벡터 혹은 매트릭스에 곱해지는 경우 해당 값에 곱한 값으로 결정됩니다. 한편 벡터는 파이썬에서는 주로 list로 사용 되며, 이전에 다뤘던 것처럼 데이터셋을 구성하고 있는 데이터프레임의 행/열로써 사용되기도 합니다. 매트릭스는 벡터의 모음으로 간주 될 수도 있기 때..
이유 불충분의 원리 - 아무 정보가 없는 상태에서 확률을 동등하게 생각하는 것 총확률의 법칙 - 선택지의 확률을 총합하면 해당 이벤트에 대한 총확률은 1이다. 베이즈 정리 사전확률을 데이터를 얻어 업데이트해서 사후확률을 구하는 것 A조건과 B조건의 확률이 독립적인가 아닌가에 대해선 카이제곱검정을 통해 확인을 할 수 있다. 검정을 통해 독립적인 조건이라고 한다면 B가 일어났을 때, A가 일어날 확률은 𝑃(𝐴)는 𝑃(𝐴)∗𝑃(𝐵) 이다. 두 조건 사이에 연관성이 있다면 과 같이 표현한다. 베이즈 정리에 핵심 공식은 𝑝(𝐴|𝐵) -> 사후 확률. (B라는 정보가 업데이트 된 이후의 사(이벤트)후 확률) 𝑝(𝐴) -> 사전 확률. B라는 정보가 업데이트 되기 전의 사전확률 (prior) 𝑝(𝐵|𝐴) -> lik..
신뢰구간과 ANOVA에 대해 설명 하기 전에 이해를 도울 수 있도록 기초 설명을 한다. 큰 수의 법칙 ( Law of large numbers ) sample 데이터의 수가 커질 수록, sample의 통계치는 점점 모집단의 모수와 같아진다. 중심극한정리 ( Central Limit Theorem, CLT ) Sample 데이터의 수가 많아질 수록, sample의 평균은 정규분포에 근사한 형태로 나타난다. 신뢰구간 신뢰도가 95% 라는 의미는 표본을 100번 뽑았을때 95번은 신뢰구간 내에 모집단의 평균이 포함된다. 즉, 신뢰구간이 95%->99%가 된다면 99%의 확률로 해당 구간에 평균이 포함되어 있을 것이다. 그러나 신뢰구간이 넓어짐에 따라 해당 되는 값들이 너무 많아 유의미한 결과를 얻기는 힘들다...