저는 게임 회사에서 로그 수집을 하며 빅데이터와 기계학습의 활용처를 찾던 중,
게임 서비스에 많은 문제를 일으키는 게임 어뷰징의 검출에 파이썬으로 기계학습을
적용하여 어뷰져를 퇴치한 사례 + 관련 파이썬 노하우를 공유하려 합니다.
다루는 내용:
- 통계와 탐색적 데이터 분석의 중요성
- 데이터 분석 툴과 기계학습에 대한 소개
- 간단한 통계적 아이디어로 스패밍(Spamming) 탐지
- 윈도우 서버에서 로그 수집하기(자체 개발 로그 포워더 + Fluentd)
- AWS EMR + Spot Instance로 하둡 싸게 이용하기
- 하둡을 위한 로그 파일 전처리
- mrjob으로 간편하게 MR 코딩하기
- scikit-learn의 알고리즘(Decision Tree, Random Forest)을 사용하여 파밍(Farming) 캐릭터 탐지
- 앞으로의 전망 (Spark, 딥러닝, 미래의 분석 플랫폼)