땀내를 줄이는 Data와 Feature 다루기

Slide


https://www.slideshare.net/zzonee/2018-pycon-kr-data-feature/

Video


https://www.youtube.com/watch?v=GlJVV43O8po

Description


머신러닝이나 딥러닝 뿐만 아니라 데이터를 다루는 일을 하다보면 데이터를 정제하는 일에 많은 노력이 필요합니다. 특히나 일반화된 결과를 얻기위해서는 아웃라이어 데이터나 결측치를 어떻게 다루느냐에 따라 결과가 달라집니다. 이 과정은 보통 사람의 손이 많이 가기 때문에 데이터 엔지니어링에서 가장 땀내가 많이 나는 분야입니다. 또 머신러닝이나 딥러닝 알고리즘은 진화하고 변화하고 있습니다. 하지만 날것의 데이터를 가공하는 과정은 아직까지는 사람의 손을 많이 필요로 합니다. 파이썬 사용자 그룹에 배권한님이 땀내나는 내용에 대해 발표지원을 해달라고 쓰신 문구를 보고 데이터 사이언스 분야에서 가장 땀내나는 일이 무엇일지 생각해 보았습니다. 결측치 다루기, 수치형데이터 다루기(Binning), 카테고리형태의 데이터 다루기(One-Hot-Encoding), 아웃라이어데이터 다루기, 텍스트데이터 전처리, Feature Selection, Imputation 등 정제되지 않은 데이터에서 해답을 찾기 위해 우리는 방망이 깍는 노인처럼 데이터를 정제하고 또 정제합니다. 이 땀내나는 과정을 파이썬 표준라이브러리와 Numpy, Pandas, Scipy, Scikit-learn 같은 툴을 사용해서 땀내를 줄여보는 방법을 고민해 봅니다. "공짜 점심은 없다."라는 유명한 논문이 있습니다. 머신러닝/딥러닝에서 최적화된 기법은 없다는 건데요. 발표되는 내용이 최적화된 솔루션은 아닐지라도 우리의 땀내를 줄여줄 수 있는 방법이 있을 것입니다. 더운 여름, 파이콘에서 우리의 땀내를 줄여줄 데이터 전처리 기법에 대해 발표해 보고자 합니다.


Comments

blog comments powered by Disqus

Sponsors

다이아몬드

사파이어

플래티넘

골드

실버

커뮤니티

미디어