일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 취업부트캠프 5기
- AARRR
- sql정리
- 유데미부트캠프
- SQL
- SLASH22
- 토스
- 유데미코리아
- 데이터도서
- 특성중요도
- 취업부트캠프
- AWS builders
- 그래프
- 사이드프로젝트
- pytorch
- NLU
- BERT
- 임베딩
- 딥러닝
- 알고리즘
- 서비스기획부트캠프
- 유데미큐레이션
- 부트캠프후기
- 스타터스
- NLP
- MatchSum
- 서비스기획
- 스타터스부트캠프
- 추천시스템
- 그로스해킹
- Today
- Total
목록파이프라인 (2)
다시 이음

안녕하세요. 이번에는 토스 Data Engineer 윤아서님의 강연을 정리하겠습니다. Data Engineer의 고민 1. 효율적인 테이블 검색방법 2. 테이블의 사용처 혹은 생성장소 3. 데이터 품질의 효율적 관리 ---> 토스는 테이블 센터(테이블 정보를 제공하는 서비스)를 통해 해결 테이블 센터의 검색 기능 키워드 검색, 드릴다운 검색(DB타입,서버호스트,테이블스키마,테이블 순으로 점진적 검색), 태그 검색 - 우선순위 적용 테이블명 완전 일치 - 태그/태그 동의어 매칭 - 테이블 설명 매칭 - 테이블 명 매칭 - 칼럼 명/ 설명 매칭 테이블 정보를 가져오는 곳(저장소) 1. 라이브 테이블 정보 수집 - 토스 서비스에서 사용되는 테이블 2. 데이터 웨어하우스 분석 - 하둡 영향도 검색 - DB명과 ..

오늘 배운 내용을 살펴보기 전에 요즘 자주 쓰게 되는 기능인 파이프라인에 대해서 정리를 해보려고 합니다. 물론 일별 정리는 밤에 포스팅할 예정입니다 ㅎㅎ 파이프라인이란? 프로세서에서 성능을 높이기 위해서 명령어 처리 과정으로 명령어 처리를 여러 단계로 나누어 단계별로 동시에 수행 하여 병렬화를 시키는 것을 말합니다. 여러 단계의 변환을 연결하려는 경우 손으로 변환을 수행하는 것이 코드의 길이를 길게 할뿐만아니라 성능에도 차이를 줍니다. 그래서 예를 들어 다음과 같은 처리 파이프라인이 필요할 수 있습니다. 원핫인코딩 평균을 사용하여 결측값 대치 표준화 과정 피쳐를 2차로 변환 선형 회귀 피팅 or 릿지 회귀 or 로지스틱 회귀 or 결정 트리 이러한 유형의 처리 파이프라인을 간소화하기 위해 Scikit-L..