다시 이음

토스ㅣSLASH 22 - Data Scientist는 어떻게 비즈니스에 기여할 수 있을까? 본문

참가 컨퍼런스 정리/SLASH 22 (토스)

토스ㅣSLASH 22 - Data Scientist는 어떻게 비즈니스에 기여할 수 있을까?

Taeho(Damon) 2022. 6. 10. 16:01

출처 : SLASH22

안녕하세요.

 

토스 개발자 컨퍼런스 SLASC 22에서 DATA 관련 컨퍼런스를 정리할 예정입니다.

 

처음으로는 토스 데이터 사이언티스트 황동현님의 강연입니다.

 

 

비즈니스 효과를 극대화 시킬 수 있는 두개의 모델을 소개해주십니다.

 

CVR(Conversion Rate) 예측 모델

 

토스에서는 토스 앱에 있는 10원 받기 탭을 통해 유저 전환을 확인한다고 합니다.

토스가 전환 유저의 수를 늘리길 바라는 것은 전환유저의 수가 제품 성장을 대변한다고 정의하였기 때문입니다.

 

전환 유저를 늘리기 위해 토스 내의 메세지 발송 시스템인 TUBA(Toss User Behavior Analyzer)를 활용합니다.

전환 유저가 될 것 같은 사용자들을 파악하여 CRM(Customer Relationship Management)마케팅을 실시합니다.

 

CVR 예측 모델의 장점

  • 이전 데이터의 크기가 충분하다면 여러 서비스에 적용할 수 있도록 확장성이 좋다.
  • CTR(Click-through rate)를 예측하는 모델과 다르게 클릭 반응성 변화에 강건하다.

 

결제 예측 모델

 

토스는 유저 소비명세 데이터를 활용하여 유저가 캐시백을 희망했던 브랜드 상품을 구매했는지 확인하여 결제하면 혜택을 주고 있다고 합니다.

 

결제 예측 모델은 데이터를 활용하여 각 소비기록을 학습, 고객이 미래에 어떤 상품을 구매할 것인지 예측하는데 목표가 있습니다.

이를 통해 광고 효과를 극대화 할 수 있습니다.

 

광고 극대화에 따른 장점

  • 서비스 추천으로 리텐션 강화(리텐션이란? 얼마나 많은 유저가 제품으로 다시 돌아오는지 측정한 것)
  • 유저 특성별 프로모션
  • 실구매 확률이 높은 유저에게 광고 노출

Baseline - LightGBM

Light GBM은 Gradient Boosting 프레워크로 Tree 기반 학습 알고리즘입니다.
속도가 빠르다는 장점이 있습니다.

 

문제가 있던 경우

  • 모델의 낮은 성능 -- 해결방법 : Feature에 대한 새로운 확인, 단순한 모델링

해결한 방법

 

데이터를 도메인 지식에 맞게 재구성 : 일,월 같이 주기별 데이터 분류, 로그의 사용형태에 따른 분류

파이프라인 구성 : 일단위의 배치 서빙(실시간성이 요구되지 않기때문에), 젠킨스 서버활용(분산 컴퓨팅시스템 Ray를 사용, Airflow는 모델 학습, 추론에만 사용)

 

사후관리

  • 학습은 주단위로 주기적으로 진행, 추론은 매일매일
  • 성능이 떨어질 수 있기때문에 모델 버전 관리 혹은 모니터링 ( Mlflow 활용 )

휴먼에러 관리

  • slack 알람 메세지 활용 (데이터 정합성 문제 해결)

 

CDP(Customer Data Platform) 론칭

출처 : SLASH 22

 

신규 브랜드를 위한 유저 세그먼트 추출

 

유저들의 소비 데이터를 사용하여 Graph Neural Network(GNN)을 활용하는 방법을 고안 중이라고 합니다.

 

GNN이란 ?
그래프에 직접 적용할 수 있는 신경망
GNN의 핵심은 점이 이웃과의 연결에 의해 정의된다는 것입니다.
(추후 논문을 읽어서 더 알아봐야겠다.)

 

 

느낀 점

 

프로젝트을 시작함에 앞서 무엇보다 우선되어야 하는 건 얼마나 비즈니스에 도움이 되는지 얼마나 가치를 가지는지 인 것 같다.

토스에서도 개발한 시스템을 CDP로 론칭하여 타 기업에게 제공하는 것도 하는 것 같다.

 

그리고 언제나 새로운 기술, 새로운 것 보다는 현재 데이터 상황과 컴퓨팅 환경에 맞는 모델을 설정하여 오류가 발생하지 않게 잘 관리하고 파이프라인을 세우는 게 우선이 되야 하는구나 라는 것을 느꼈다.