Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 부트캠프후기
- 취업부트캠프
- 임베딩
- 특성중요도
- 토스
- 유데미큐레이션
- 유데미부트캠프
- 스타터스
- BERT
- NLP
- 추천시스템
- AWS builders
- 유데미코리아
- 그로스해킹
- SLASH22
- 서비스기획
- NLU
- 취업부트캠프 5기
- SQL
- pytorch
- 사이드프로젝트
- AARRR
- sql정리
- 데이터도서
- MatchSum
- 그래프
- 서비스기획부트캠프
- 알고리즘
- 스타터스부트캠프
- 딥러닝
Archives
- Today
- Total
다시 이음
토스ㅣSLASH 22 - 토스에서는 테이블 정보를 어떻게 관리하나요? 본문

안녕하세요.
이번에는 토스 Data Engineer 윤아서님의 강연을 정리하겠습니다.
Data Engineer의 고민
1. 효율적인 테이블 검색방법
2. 테이블의 사용처 혹은 생성장소
3. 데이터 품질의 효율적 관리
---> 토스는 테이블 센터(테이블 정보를 제공하는 서비스)를 통해 해결
테이블 센터의 검색 기능
키워드 검색, 드릴다운 검색(DB타입,서버호스트,테이블스키마,테이블 순으로 점진적 검색), 태그 검색
- 우선순위 적용
테이블명 완전 일치 - 태그/태그 동의어 매칭 - 테이블 설명 매칭 - 테이블 명 매칭 - 칼럼 명/ 설명 매칭
테이블 정보를 가져오는 곳(저장소)
1. 라이브 테이블 정보 수집
- 토스 서비스에서 사용되는 테이블
2. 데이터 웨어하우스 분석
- 하둡

영향도 검색
- DB명과 테이블 명을 전달받아 영향도 테이블에 정규신 패턴 매칭으로 검색
- 여러 언어에 특징에 맞는 여러 정규식 패턴으로 구성되어 있어 OR방식으로 검색하여 수초 검색시간이 걸린다.

테이블 센터의 Data Quality 관리 기능
데이터 품질 관리 부분에 탐지 방식이 Meta Data인 완결성, 유일성, 유효성은 하둡 에코시스템에 데이터 웨어하우스를 구축하고 있는 특성상 제공되지 않는다.
이를 테이블 센터의 DQ관리를 통해 해결

'참가 컨퍼런스 정리 > SLASH 22 (토스)' 카테고리의 다른 글
토스ㅣSLASH 22 - 물 흐르듯 자연스러운 ML 서비스 만들기 (0) | 2022.06.13 |
---|---|
토스ㅣSLASH 22 - Data Scientist는 어떻게 비즈니스에 기여할 수 있을까? (0) | 2022.06.10 |