일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 부트캠프후기
- MatchSum
- 그래프
- 서비스기획
- AARRR
- 추천시스템
- NLP
- 사이드프로젝트
- AWS builders
- 토스
- 취업부트캠프 5기
- SQL
- BERT
- 그로스해킹
- SLASH22
- 딥러닝
- 임베딩
- 유데미큐레이션
- 알고리즘
- 취업부트캠프
- NLU
- 데이터도서
- 유데미코리아
- 유데미부트캠프
- 스타터스부트캠프
- 특성중요도
- 스타터스
- pytorch
- sql정리
- 서비스기획부트캠프
- Today
- Total
목록채우기/밑바닥부터 시작하는 데이터 과학 (3)
다시 이음
이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다. 3. 통계 3-1. 중심 경향성 중심 경향성은 데이터의 중심이 어디에 있는지를 파악하는 지표입니다. 댜부분은 데이터의 값의 합을 포인트 개수로 나눈 평균을 사용합니다. 평균은 이상치에 민감한 특성을 가집니다. 이런 부분을 피하가고자 중앙값을 사용하기도 하는데 중앙값은 데이터 전체에서 가장 중앙에 있는 데이터를 의미합니다. 을 찾기 위해서는 데이터를 정렬해야합니다. 3-2. 산포도 산포도는 데이터가 얼마나 퍼져있는지를 나타냅니다. 산포도를 측정하기 위해 max() - min()을 통해 산포도를 나타낼 수도 있고 아래와 같이 분산,표준편차를 확인할 수 있습니다. 분산(variance)은 관측값에서 평균을 뺀..

이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다. 2. 확률 어떠한 사건의 공간에서 특정 사건이 선택될 때 발생하는 불확실성을 수치적으로 나타내는 것입니다. 2-1. 종속성과 독립성 사건 A,B가 서로 발생여부에 관여한다면 종속 사건, 아니라면 독립 사건입니다. 예를들어 동전을 두번 던져서 첫번째 시도에 앞면이 나왔다고 해도 두번째 시도에 어떤 면이 나올지 알 수 없기에 독립사건입니다. 하지만 모두 뒷면이 나올 확률의 경우, 첫번째 시도에 동전에서 앞면이 나오면 확률이 0이 되기때문에 두 사건은 종속사건입니다. 2-2. 조건부확률 만약 두 사건이 독립사건이라면 P(A∩B) = P(A)*P(B)가 성립합니다. 예를 들어 P(A)가 주사위를 던져 2의 배수..
이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다. 1. 벡터 대부분의 데이터는 벡터로 표현할 수 있습니다. 벡터를 표현하는 가장 간단한 방법은 숫자로 구성된 list로 표현하는 것입니다. - 벡터의 덧셈, 뺄셈 배열의 각 성분끼리 덧셈과 뺄셈을 하게 됩니다. - 벡터의 내적 벡터의 내적은 벡터 v가 벡터 w 방향으로 얼마나 멀리 뻗어가는지를 나타냅니다. 다른 관점에서는 벡터 v가 벡터 w로 투영된 벡터의 길이를 나타냅니다. 벡터의 각 성분별 곱한 값을 더해 준 값입니다. - 벡터의 길이 L1 Norm 은 벡터 p, q 의 각 원소들의 차이의 절대값의 합 L2 Norm 은 벡터 p, q 의 유클리디안 거리(직선 거리) = 각 원소들의 차이의 제곱의 합에 ..