다시 이음

토스ㅣSLASH 22 - 토스에서는 테이블 정보를 어떻게 관리하나요? 본문

참가 컨퍼런스 정리/SLASH 22 (토스)

토스ㅣSLASH 22 - 토스에서는 테이블 정보를 어떻게 관리하나요?

Taeho(Damon) 2022. 6. 13. 15:54

안녕하세요.

 

이번에는 토스 Data Engineer 윤아서님의 강연을 정리하겠습니다.

 

 

Data Engineer의 고민

 

1. 효율적인 테이블 검색방법

2. 테이블의 사용처 혹은 생성장소

3. 데이터 품질의 효율적 관리

 

---> 토스는 테이블 센터(테이블 정보를 제공하는 서비스)를 통해 해결

 

테이블 센터의 검색 기능

키워드 검색, 드릴다운 검색(DB타입,서버호스트,테이블스키마,테이블 순으로 점진적 검색), 태그 검색

 

- 우선순위 적용
테이블명 완전 일치 - 태그/태그 동의어 매칭 - 테이블 설명 매칭 - 테이블 명 매칭 - 칼럼 명/ 설명 매칭

 

테이블 정보를 가져오는 곳(저장소)

1. 라이브 테이블 정보 수집

- 토스 서비스에서 사용되는 테이블

 

2. 데이터 웨어하우스 분석

- 하둡

 

영향도 검색

 

- DB명과 테이블 명을 전달받아 영향도 테이블에 정규신 패턴 매칭으로 검색

- 여러 언어에 특징에 맞는 여러 정규식 패턴으로 구성되어 있어 OR방식으로 검색하여 수초 검색시간이 걸린다.

 

테이블 센터의 Data Quality 관리 기능

데이터 품질 관리 부분에 탐지 방식이 Meta Data인 완결성, 유일성, 유효성은 하둡 에코시스템에 데이터 웨어하우스를 구축하고 있는 특성상 제공되지 않는다.

 

이를 테이블 센터의 DQ관리를 통해 해결