탐색적으로 큰 데이터 분석하기: 파이프라인, 병렬화, 압축, 인덱싱 등에 대해

PyCon Korea Red PyCon Korea Blue
  • Data / Analysis / Machine Learning
  • 2015-08-30 (Sun) 12:00 - 13:00
  • Korean
  • Photography and recording is allowed

Slide

http://www.slideshare.net/hyeshik/pycon-korea-2015

Description

어떤 정보가 숨어있는지 알 수 없는 큰 데이터를 분석할 때는 미리 생각할 수 없는 시나리오로 진행되는 경우가 많다. 이렇게 데이터 처리의 윤곽이 잡혀있지 않을 때엔 빨리 만들어 빨리 쓰고 버리는 일회용 스크립팅과, 어떤 경우에도 쉽게 적응할 수 있는 일반화된 프레임워크가 필요하다. 또한, 결과가 빨리 나오지 않으면 다음 분석 작업이 늦어지기 때문에, 적은 노력으로 속도를 끌어올릴 수 있는 병렬화 환경이 있어야 한다.

이 발표에서는 분자생물학에서 많이 사용되는 데이터 분석 도구들을 예로 들어, 빠른 반복주기가 필요한 대규모 탐색적 데이터 분석 방법을 소개한다. 워크플로우 자동화 도구 snakemake 의 기본적인 설계 개념을 알아본 뒤, snakemake를 이용한 병렬화, 여러 텍스트 파일 병렬처리, 인덱싱 도구들의 기본적인 개념과 장단점, Julia로 계산이 많이 필요한 부분 가속하기 등을 예시를 통해 둘러보기로 한다.

Comments

blog comments powered by Disqus

Sponsor list


Diamond


Financial Aid Sponsor


Platinum


Venue


Gold


Silver


Media