일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- AARRR
- 서비스기획부트캠프
- 스타터스
- pytorch
- 알고리즘
- 임베딩
- AWS builders
- 부트캠프후기
- 그로스해킹
- 데이터도서
- 토스
- 유데미부트캠프
- 서비스기획
- 취업부트캠프 5기
- 유데미큐레이션
- sql정리
- 추천시스템
- NLU
- 유데미코리아
- 딥러닝
- 취업부트캠프
- NLP
- SQL
- 스타터스부트캠프
- MatchSum
- 그래프
- 특성중요도
- SLASH22
- 사이드프로젝트
- BERT
- Today
- Total
목록전체 글 (154)
다시 이음

올바른 가설 검정위한 조건 - 독립성 : 두 샘플그룹이 연결성이 있는지 - 등분산성 : 비교할 대상의 scale이 비슷한지 - 정규성 : 정규분포와 일치하는지 - 정규분포는 평균 µ 을 기준으로 좌우로 대칭 어제 공부한 one sample t-test는 특정한 그룹의 평균에 예측값이 같은지 다른지를 검증하였고, two sample t-test는 특정한 그룹들의 평균을 비교하여 서로간의 크고 작음을 검증하였다. (서로 다른 그룹과 비교(독립성0), 같은 그룹이 어떤 행동을 했나 안했나(독립성X,정규성0)으로 구분지을 수 있다.) 그중 독립성이 가정된 샘플에 대해 정규성에 만족한다면 모수적 방법, 정규성이 불만족하다면 비모수적 방법을 사용한다. Non-Parametric Methods(비모수적 방법) 모집단..
샘플링의 종류 1. Simple Random Sampling 모집단에서 sampling을 무작위로 하는 방법 2. Systematic Sampling 모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법입니다. ex) 1, 6, 11, 16, ... 번째의 데이터를 선택 3. Stratified Random Sampling 모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 무작위 추출을 수행하는 방법입니다. ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출. 4. Cluster Sampling 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법입니다. 가설 검정 가설을 표본 통계량에 입각하여 주장이나 가설의 진위 여부를 판단, 증명, ..
https://nbviewer.jupyter.org/github/justmarkham/pandas-videos/blob/master/top_25_pandas_tricks.ipynb 참고자료 -버전 확인하기 pd.__version__ pd.show_versions() -데이터프레임 생성 df = pd.DataFrame({'col one':[100, 200], 'col two':[300, 400]}) pd.DataFrame(np.random.rand(4, 8)) 4행, 8열 랜덤 생성 pd.DataFrame(np.random.rand(4, 8), columns=list('abcdefgh')) 4행, 8열에 랜덤 생성, 열이름을 abcdefgh로 생성 -이름 바꾸기 위에 3 개는 같은 결과를 냄. df = ..
import numpy as np import pandas as pd pandas 툴을 불러오는 키워드 판다스(pandas)의 기본 자료구조 판다스는 R을 모티브로하여 만든 파이썬 라이브러리이다. 시리즈(series)는 데이터프레임의 하위 자료형으로, 1개의 열이 시리즈이고 이 시리즈가 다수 모여 데이터프레임을 형성한다고 이해하면 쉽다. 즉, 시리즈는 1개의 열로 각기 index를 가지고 있다. series 구조 분석 -series에 값을 입력하기 series_data = pd.series(['value1', 'value2'...]) 이렇게 하면 1개의 열에 해당 value가 입력되어 시리즈를 형성하게 된다. 여기서 시리즈에 연결되는 index를 만들기 위해서는 series_data = pd.series..