├── README.md
├── RSource.md
├── Don’t learn Machine Learning in 24 hours.md
├── eng_Don’t learn Machine Learning in 24 hours.md
└── Here’s why so many data scientists are leaving their jobs.md
/README.md:
--------------------------------------------------------------------------------
1 | # etc
2 | etc
3 |
--------------------------------------------------------------------------------
/RSource.md:
--------------------------------------------------------------------------------
1 |
2 | # 참고 자료
3 |
4 |
5 | ## 통계 분석
6 |
7 | - ### 카이제곱 검정
8 | http://www.r-tutor.com/elementary-statistics/goodness-fit/chi-squared-test-independence
9 |
10 | - ### t-test
11 | https://www.statmethods.net/stats/ttest.html
12 |
13 | - ### ANOVA
14 | https://www.statmethods.net/stats/anova.html
15 |
16 | - ### 상관분석
17 | https://www.statmethods.net/stats/correlations.html
18 |
19 | - ### 회귀 분석
20 | http://www.sthda.com/english/articles/40-regression-analysis/167-simple-linear-regression-in-r/
21 |
22 |
23 | ## 머신 러닝
24 |
25 | - ### RandomForest
26 | https://www.guru99.com/r-random-forest-tutorial.html
27 |
28 | - ### 딥러닝 - Keras
29 | https://blog.rstudio.com/2017/09/05/keras-for-r/
30 |
31 |
32 | ## ETC
33 |
34 | - ### 텍스트 마이닝 - KoNLP
35 | https://github.com/youngwoos/Doit_R/blob/master/Lecture/pdf/Doit_part10.pdf
36 |
37 | - ### 인터렉티브 그래프 - ggplotly
38 | https://plot.ly/ggplot2/geom_point/
39 |
40 | - ### 시계열 인터렉티브 그래프 - dygraphs
41 | https://rstudio.github.io/dygraphs/
42 |
--------------------------------------------------------------------------------
/Don’t learn Machine Learning in 24 hours.md:
--------------------------------------------------------------------------------
1 | # 머신러닝 하루 만에 배우려고 하지 마라
2 |
3 |

4 | Source - https://medium.com/designer-hangout/machine-learning-and-ux-c28725b5f3a5
5 |
6 | 최근 피터 노빅의 "10년 동안 프로그래밍 독학하라"는 멋진 글을 발견했다.
7 |
8 | 제목이 위트 있으면서도 약간 비꼬는 느낌인데, 프로그래밍을 하루, 일주일, 열흘, 말도 안 되게 짧은 시간만에 익히게 해준다는 허접한 책들을 두고 빈정거리는 것이다.
9 |
10 | 닥터 노빅은 다음과 같이 분명하게 말한다. 프로그래밍 문법, 원리, 스타일은 하루 만에 익힐 수도 있다. 하지만 그렇다고 해서 프로그래밍 기술을 제대로 사용할 수 있게 되는 것은 아니다. 프로그래밍은 문법이 다가 아니기 때문이다. 프로그래밍이란 코드를 효율적으로 설계하고, 시간과 공간의 복잡성을 철저하게 분석하고, 언제 특정 언어를 사용하는 게 다른 언어를 사용하는 것보다 더 나은지 이해하는 등 다양한 지식을 포괄하는 것이다.
11 |
12 | 물론 Hello World나 원의 넓이를 구하는 프로그램을 C++로 하루 만에 짤 수도 있겠지만 핵심은 그게 아니다. 당신은 [객체 지향 프로그래밍](https://en.wikipedia.org/wiki/Object-oriented_programming)의 관점을 이해하는가? [namespaces](https://msdn.microsoft.com/en-IN/library/5cb46ksf.aspx)와 [templates](http://www.cplusplus.com/doc/oldtutorial/templates/)를 언제 사용해야 하는지 아는가? [STL](https://www.topcoder.com/community/data-science/data-science-tutorials/power-up-c-with-the-standard-template-library-part-1/)을 어떻게 사용하는지 아는가? 만약 알고 있다면, 분명 이 모든 것을 일주일 혹은 한 달 만에 익히지는 않았을 것이다. 이런 걸 익히는 데는 시간이 꽤 많이 걸린다. 그리고 알면 알수록, 겉으로 보기보다 더 많은 것들을 알아야 한다는 것을 깨달았을 것이다.
13 |
14 | 머신러닝, 딥러닝, AI를 둘러싼 전 영역의 분위기에도 이와 비슷한 문제가 있다. 광고, 블로그, 기사, 교육 과정이 도처에 넘쳐난다. 대부분 "코드 일곱 줄로 머신러닝 배우기", "열흘 만에 배우는 머신러닝" 같은 비슷한 제목을 달고 있다. 이런걸 접한 사람들은 Quora에 ["어떻게 하면 머신러닝을 한달 만에 배울수 있을까요?"](https://www.quora.com/How-should-I-plan-my-day-to-learn-machine-learning-in-30-days) 같은 질문을 올리게 된다. 짧게 답하자면 "한 달 안에 안된다. 누구도 못한다. 어떤 전문가도 그러지 못했다."
15 |
16 | 
많이 보던 상황인가? 이 페이스북 페이지에서 찾은 이미지다.
17 |
18 |
19 |
20 | 우리가 [1만 시간의 법칙](https://www.businessinsider.in/Malcolm-Gladwell-Explains-What-Everyone-Gets-Wrong-About-His-Famous-10000-Hour-Rule/articleshow/35964144.cms)을 잠시 잊었다 하더라도, 머신러닝을 코드 일곱 줄로 배울 수는 없다.
21 |
22 | 왜냐고? 코드 일곱 줄로는 [bias-variance tradeoff](https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff)를 어떻게 처리했는지, 생성된 모델의 accuracy가 무얼 의미하는지, [accuracy가 성능을 평가하는데 적절한 지표인지](https://stats.stackexchange.com/questions/34193/how-to-choose-an-error-metric-when-evaluating-a-classifier), 모델이 [과적합](https://towardsdatascience.com/overfitting-vs-underfitting-a-complete-example-d05dd7e19765)되지는 않았는지, 데이터가 어떤 분포를 띠고 있고 따라서 [적합한 모델을 선택했는지](https://www.itl.nist.gov/div898/handbook/pmd/section4/pmd422.htm) 등을 알 수 없기 때문이다. 이 모든 것을 알고 있더라도, 이 밖에 고려해야 할 문제가 훨씬 더 많다.
23 |
24 | 모델을 해석할 수 없으면 그냥 sklearn으로 파라미터를 조정해서 성능을 좀 향상시킨 다음 기분 좋게 퇴근하면 된다. 하지만 이게 진짜로 머신러닝을 아는 건가?
25 |
26 | 
27 |
28 | Source - http://machinelearningjourney.blogspot.in/2012/03/machine-learning-and-memes.html
29 |
30 | 즉, 코드 일곱 줄로 끝내려고 하면 안 된다. 6개월, 1년 이상 시간을 들여야 한다. 이 기간의 중간쯤 되면 자신이 여기에 흥미가 있는지 아닌지 판단할 수 있게 될 것이다. 화려한 겉모습은 일단 잊어버리고, 깊이 있고 놀라운 연구의 세계로 빠져들어야 한다. [이 글](https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf)을 꼭 읽어보길 권한다. 초보자에게 가장 많은 도움이 되는 글이다. 수학이나 프로그래밍을 몰라도 된다. 이 글을 읽고 나면 이 분야에 익숙해지려면 알아야 하는, 머신러닝에 관해 생각하고 말하려면 알고 있어야 하는 개념들의 큰 그림을 그릴 수 있게 될 거다.
31 |
32 | 이 주제와 관련한 훌륭한 블로그들을 소개한다. 이 리스트엔 나의 개인 취향이 반영되어 있다.
33 |
34 | 1. [http://colah.github.io/](http://colah.github.io/)
35 | 2. [http://mark.reid.name/blog/](http://mark.reid.name/blog/)
36 | 3. [http://karpathy.github.io/](http://karpathy.github.io/)
37 |
38 | Medium도 공부하는데 도움이 많이 된다. 나는 [이 페이지](https://towardsdatascience.com/)를 팔로우하면서 거의 모든 글을 읽고 있다.
39 |
40 | 만약 당신이 옛날 공부 방식에 익숙하다면, 앤드류 응이 스탠퍼드 대학교에서 강의한 [CS229](https://see.stanford.edu/course/cs229)를 들어보라. 앤드류 응이 Coursera에서 했던 강의보다 더 깊이 관여한 강의이고, 개론으로 듣기에 좋다.
41 |
42 | 과장 광고에 홀려 공부하면 "정보에 빠져 지식에 굶주리는" 불행한 결과를 마주하게 된다. 굉장히 많은 사람이 그런 상황을 겪는다. 우리는 자주 큰 그림을 놓친다. 머신러닝은 훌륭하다. 머신러닝은 하나의 진지한 연구 개발 분야인 동시에 21세기의 수많은 성공 사례들을 이끌고 있다.
43 |
44 | 하루 만에 배우려고 좀 하지 마라.
45 |
46 | [여기](http://norvig.com/21-days.html)에서 stellar AI의 연구원인 피터 노빅의 글을 읽을 수 있다. 반드시 읽어봐야 하는 글이다.
47 |
48 | 
49 |
50 | 진지하게, 왜 안돼?
51 |
52 | [Yu Zhou](https://medium.com/@yuzhoux?source=post_page)에게 감사를 전한다.
53 |
54 | >이 글은 Rwiddhi Chakraborty의 [Don’t learn Machine Learning in 24 hours](https://towardsdatascience.com/dont-learn-machine-learning-in-24-hours-3ea3624f9881)를 번역한 것입니다. 원문과 대조하여 보려면 [링크](https://github.com/youngwoos/etc/pull/4/files)를 클릭하세요.
--------------------------------------------------------------------------------
/eng_Don’t learn Machine Learning in 24 hours.md:
--------------------------------------------------------------------------------
1 | # Don’t learn Machine Learning in 24 hours
2 |
3 | 
4 |
5 | Source- [https://medium.com/designer-hangout/machine-learning-and-ux-c28725b5f3a5](https://medium.com/designer-hangout/machine-learning-and-ux-c28725b5f3a5)
6 |
7 | Recently, I came across a wonderful article by Peter Norvig??? - “Teach yourself programming in 10 years”.
8 |
9 | This is a witty and a tad bit satirical headline, taking a dig at all those coffee table programming books that aim to teach you programming in 24 hours, 7 days, 10, days, **\*insert a ridiculously short time line\***.
10 |
11 | Dr. Norvig makes quite a strong case. Yes, you may come to grips with the syntax, nature, and style of a programming language in 24 hours, but that doesn’t mean you’ve become adept at the art of programming. Because programming isn’t about a language at all. Programming is about intelligent design, a rigorous analysis of time and space complexity, understanding when a certain language works over another, and so much more.
12 |
13 | Of course you could write a Hello World program in C++ in 24 hours, or a program to find the area of a circle in 24 hours, but that’s not the point. Do you grasp [object oriented programming](https://en.wikipedia.org/wiki/Object-oriented_programming) as a paradigm? Do you understand the use cases of [namespaces](https://msdn.microsoft.com/en-IN/library/5cb46ksf.aspx) and [templates](http://www.cplusplus.com/doc/oldtutorial/templates/)? Do you know your way around the famed [STL](https://www.topcoder.com/community/data-science/data-science-tutorials/power-up-c-with-the-standard-template-library-part-1/)? If you do, you certainly didn’t learn all this in a week, or even a month. It took you a considerable amount of time. And the more you learned, the more you realised that the abyss is deeper than it looks from the cliff.
14 |
15 | I’ve found a similar situation in the current atmosphere surrounding Machine Learning, Deep Learning, and Artificial Intelligence as a whole. Feeding the hype, thousands of blogs, articles, and courses have popped up everywhere. Thousands of them have the same kind of headlines???“Machine Learning in 7 lines of code”, “Machine Learning in 10 days”, etc. This has, in turn led people on Quora to ask questions like [“How do I learn Machine Learning in 30 days?”](https://www.quora.com/How-should-I-plan-my-day-to-learn-machine-learning-in-30-days). The short answer is, “You can’t. No one can. And no expert (or even one comfortable with its ins and outs) did.”
16 |
17 | Looks familiar? Found this on a very funny Facebook?[page](https://www.facebook.com/npcompleteteens/photos/a.165757437252172.1073741828.165182533976329/324222291405685/?type=3&theater)
18 |
19 | Even if we were to forget the [10,000 hours rule](https://www.businessinsider.in/Malcolm-Gladwell-Explains-What-Everyone-Gets-Wrong-About-His-Famous-10000-Hour-Rule/articleshow/35964144.cms) for a second, you can’t do machine learning in 7 lines of code.
20 |
21 | Why? Because those 7 lines of code do not explain how you did in the [bias-variance tradeoff](https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff), what your accuracy value means, or whether [accuracy is an appropriate metric of performance in the first place](https://stats.stackexchange.com/questions/34193/how-to-choose-an-error-metric-when-evaluating-a-classifier), whether your model [overfits](https://towardsdatascience.com/overfitting-vs-underfitting-a-complete-example-d05dd7e19765), how your data is distributed, and if you’ve chosen the [right model to fit the data](https://www.itl.nist.gov/div898/handbook/pmd/section4/pmd422.htm) you have, etc. There’s just so much more to it even after you’ve answered these questions.
22 |
23 | And since you couldn’t interpret your model, you tweak the parameters in sklearn, get a minimal improvement in accuracy, and go home happy. But did you really learn?
24 |
25 |
26 | 
27 |
28 | Source - [http://machinelearningjourney.blogspot.in/2012/03/machine-learning-and-memes.html](http://machinelearningjourney.blogspot.in/2012/03/machine-learning-and-memes.html)
29 |
30 | In short, don’t do it in 7 lines of code. Do it over 6 months, a year. You’ll know in the middle of that period whether it interests you. Forget the glamour for now, and really get into the depths of this amazing field of research. You should definitely read [this](https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf). I
31 | found it to be the best introduction for a newbie in this field. You don’t need to know math or code to read it. But after reading this, you will realise the entire gamut of concepts you need to understand in order to be fluent with this field, to think in ML, so to speak.
32 |
33 | There are indeed fascinating blogs to follow on this subject. Here are some of my personal favourites:
34 |
35 | 1. [http://colah.github.io/](http://colah.github.io/)
36 | 2. [http://mark.reid.name/blog/](http://mark.reid.name/blog/)
37 | 3. [http://karpathy.github.io/](http://karpathy.github.io/)
38 |
39 | Medium is also a wonderful place to learn. I follow [this](https://towardsdatascience.com/) publication almost exclusively.
40 |
41 | If you’re old school, take Andrew Ng’s [CS229](https://see.stanford.edu/course/cs229) at Stanford. This is more involved than his course on Coursera, which is also a good introduction.
42 |
43 | An unfortunate result of hype is that we “drown in information and starve for knowledge”. So many people do it, that we frequently lose sight of the bigger picture. Machine Learning is wonderful. It is a serious field of research and development, and is driving so many 21st century use cases.
44 |
45 | Just don’t do it in 24 hours.
46 |
47 | [Here’s](http://norvig.com/21-days.html)the article by Peter Norvig, a must read from a stellar AI researcher of our age.
48 |
49 | 
50 |
51 | Seriously, though. Why?not?
52 |
53 | Thanks to [Yu Zhou](https://medium.com/@yuzhoux?source=post_page).
54 |
55 | - [Machine
56 | Learning](https://towardsdatascience.com/tagged/machine-learning?source=post)
57 |
58 |
--------------------------------------------------------------------------------
/Here’s why so many data scientists are leaving their jobs.md:
--------------------------------------------------------------------------------
1 | # 수많은 데이터 사이언티스트들이 직장을 떠나는 이유는 무엇인가?
2 |
3 | ## 데이터 사이언티스트의 좌절!
4 |
5 | 
6 |
7 | 맞다. 나는 데이터 사이언티스트다. 당신이 읽은 제목도 제대로 읽은 거 맞다. 누군가는 이런 이야기를 해야만 한다. 우리는 데이터 사이언티스트가 [21세기의 가장 섹시한 직업이라거나](https://www.hbs.edu/faculty/Pages/item.aspx?num=43110), [꿈의 직업으로 보일 만큼 엄청나게 돈을 많이 번다](http://uk.businessinsider.com/how-much-money-you-earn-in-the-sexiest-job-of-the-21st-century-2016-2)는 식의 이야기를 굉장히 많이 듣는다. 이 분야에는 복잡한 문제를 괴짜같이 놀라운 방법으로 해결해내는 뛰어난 능력자들이 많은데, 이 직업이 매력적인 이유는 이런 측면에 있다.
8 |
9 | 하지만 진실은 이렇다. [파이낸셜 타임스의 글](https://www.ft.com/content/49e81ebe-cbc3-11e7-8536-d321d0d897a3)에 따르면, 데이터 사이언티스트들은 일반적으로 “일주일에 한두 시간은 새 직장을 구하는 데 쓴다”. 심지어 “새로운 직장을 구하고 있다고 응답한 개발자 중 1위는 머신러닝 전문가(14.3%)다. 데이터 사이언티스트는 근소한 차이로 2위다(13.2%).” 이 데이터는 스택 오버플로가 개발자 64,000명을 대상으로 한 설문조사에서 수집된 것이다.
10 |
11 | 나도 같은 상황에 처해있었고, 최근에는 직장을 바꿨다.
12 |
13 | **그렇다면 왜 수많은 데이터 사이언티스트들이 새 직장을 구하려 할까?**
14 |
15 | 이 질문에 답하기 전에 내가 여전히 데이터 사이언티스트라는 것을 밝혀 둔다. 전반적으로 나는 이 직업을 사랑하고, 데이터 사이언티스트가 되려고 하는 사람들의 의욕을 꺾을 마음이 없다. 데이터 사이언티스트는 즐겁고, 흥미롭고, 보람 있는 직업이다. 이 글의 목적은 일부러 반대 측 이야기를 하는 악마의 변호인이 되어서 부정적인 면을 조명하는 데 있다.
16 |
17 | 내가 보기에 많은 데이터 사이언티스트들이 자신의 직업에 만족하지 못하는 데는 크게 네 가지 이유가 있다.
18 |
19 | ## 1. 현실은 기대하는 것과 다르다
20 |
21 | 
22 |
23 |
24 |
25 | > 빅데이터는 십대의 섹스와 같다. 다들 그것에 대해 말하지만, 진짜로 어떻게 하는지는 아무도 모르고, 나만 빼고 모두가 하고 있을 거라 생각한다. 그래서 다들 자기도 하고 있다고 주장한다. - Dan Ariely
26 |
27 | 매우 적절한 비유다. 나를 포함해서, 많은 주니어 데이터 사이언티스트들은 최신의 쿨한 머신러닝 알고리즘을 이용해 복잡한 문제를 해결하고 비즈니스에 엄청난 영향을 미칠 수 있을 거라 믿었기 때문에 데이터 과학에 뛰어들었다. 우리가 하는 일이 기존에 해왔던 일들 보다 훨씬 중요하게 느껴지는 것이다. 그러나, 보통은 안 그렇다.
28 |
29 | **내가 보기에 수많은
30 | 데이터 사이언티스트들이 업계를 떠나는 핵심적인 이유는 기대와 현실이 다르다는 것이다.** 여기에는 다양한 이유가 있지만, 이 글에서 전부 다룰 수는 없고, 내가 직면했던 근본적인 문제들을 이야기하고자 한다.
31 |
32 | 회사마다 상황이 다르니 모두 다 그렇다고 할 수는 없겠지만, 많은 회사들이 AI를 이용해 가치를 얻어낼 수 있을 정도의 [적절한 인프라](https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007)를 구축하지 못한 상태에서 데이터 사이언티스트를 고용한다. 이 때문에 [AI 분야의 콜드 스타트 문제](https://towardsdatascience.com/the-cold-start-problem-with-artificial-intelligence-49938ed3f612)가 발생한다. 이런 상황에 주니어를 고용하기 전에 경험 많은 시니어 데이터 전문가를 고용하지 못했다는 문제가 결합되면, 회사와 데이터 사이언티스트 양쪽 모두가 환멸을 느끼고 불행한 관계가 되는 법 레시피를 얻은 셈이다. 데이터 사이언티스트는 인사이트를 얻어낼 스마트한 머신러닝 알고리즘을 만드는 일을 하게 될 줄 알았겠지만 그러지 못한다. 데이터 인프라를 정리하고 분석 보고서 쓰는 일부터 해야 하기 때문이다. 반면 회사는 그저 매일 하는 미팅에 사용할 차트 한 장이 필요했을 뿐이다. 그러고 나면 회사도 좌절하게 된다. 새로운 가치를 충분히, 빨리 찾아내지 못하고, 결과적으로 이런 문제들 때문에 데이터 사이언티스트도 자신의 직무에 만족하지 못하게 되기 때문이다.
33 |
34 | [Robert Chang](https://medium.com/@rchang)은 [주니어 데이터 사이언티스트들에게 조언](https://medium.com/@rchang/advice-for-new-and-junior-data-scientists-2ab02396cf5b)하며 다음과 같이 굉장히 통찰력 있는 이야기를 했다.
35 |
36 | > 일하게 될 곳의 전체 업무 절차(critical path)가 자신이 하고자 하는 것에 얼마나 부합하는지 따져봐야 한다. 자신이 바라는 것에 가장 잘 부합하는 업무 절차를 갖추고 있는 프로젝트, 팀, 회사를 찾아라.
37 |
38 | 이 조언은 고용주와 데이터 사이언티스트의 관계를 강조하는 것이다. 회사가 제대로 준비되어 있지 않거나 데이터 사이언티스트의 기대와 부합하지 않는 목표를 가지고 있다면, 데이터 사이언티스트가 다른 일을 찾게 되는 것은 시간 문제다.
39 |
40 | 이 문제에 흥미가 생긴다면, [온라인 쇼핑몰 Wish에서 분석 팀을 만든 과정](https://medium.com/wish-engineering/scaling-analytics-at-wish-619eacb97d16)을 다룬 [Samson Hu](https://medium.com/@samson_hu)의 연재 글을 읽어 보길 권한다. 통찰이 담겨있는 훌륭한 글이다.
41 |
42 | 데이터 사이언티스트가 환멸을 느끼는 또 다른 이유는 [내가 학계에 환멸을 느꼈던 이유](https://towardsdatascience.com/academia-to-data-science-91558063aa9e)와 비슷하다. 나는 내가 회사뿐만 아니라 전 세계 모든 사람들에게 엄청나게 큰 영향을 미칠 수 있을 거라고 생각했다. 현실은, 만약 회사의 핵심 사업이 머신러닝을 운용하는게 아니라면(나는 미디어 출판사에 다녔었다) 당신이 하는 데이터 과학 작업은 아주 작은 추가 이득 정도를 만들어 낼 수 있을 뿐이다. 데이터 과학으로 굉장히 의미 있는 가치를 만들어 내거나, 운 좋게 얻어 걸려서 금맥을 찾는 일이 생길 수도 있겠지만, 근건 굉장히 드문 일이다.
43 |
44 | ## 2. 정치가 모든 것을 결정한다
45 |
46 | 
47 |
48 | 정치 문제에 관해서는 [“데이터 사이언스에서 가장 어려운 것: 정치"](https://www.rdisorder.eu/2017/09/13/most-difficult-thing-data-science-politics/)라는 훌륭한 글이 이미 있다. 꼭 읽어 보길 권한다. 이 글의 도입부 몇 문장은 내가 말하고자 하는 것을 요약하고 있다.
49 |
50 | > Support Vector Machines 알고리즘을 공부하려고 아침 6시에 일어났을 때, “이거 진짜 힘드네. 하지만 나는 고용주들이 탐낼 사람이 될 거야” 하고 생각했다. 만약 [타임머신(DeLorean)](https://en.wikipedia.org/wiki/DeLorean_time_machine)이 있다면, 과거로 돌아가 내 자신에게 말해 줄거다. “개소리하고 앉았네”.
51 |
52 | 다양한 머신러닝 알고리즘을 알면 가치 있는 데이터 사이언티스트가 될 거라고 진지하게 생각하고 있다면, 내가 처음에 지적했던 것을 다시 생각해보라. 현실은 기대하는 것과 다르다.
53 |
54 | 진실은, 비즈니스에서 가장 영향력 있는 사람들이 당신에 대해 좋은 인상을 갖도록 노력하는 일을 해야 한다는 것이다. 단지 윗분들이 당신에 대해 좋은 인상을 갖도록 하기 위한 목적으로 단순한 프로젝트를 수행하고, 동시에 윗분들이 필요하다고 할 때마다 데이터베이스에서 지표들을 뽑아 제 시간에 가져다 주는 추가 업무를 끝없이 해야만 한다. 나는 이전 직장에서 이런 일을 굉장히 많이 해야만 했다. 절망적이게도, 이런 일이 이 직업의 필수적인 부분이다.
55 |
56 | ## 3. 데이터가 있는 곳이라면 어디든 달려가야 한다
57 |
58 | 
59 |
60 | 윗분들을 기쁘게 하는 일이라면 뭐든지 해야 한다는 것에 관해 조금 더 이야기하자면, 영향력 있는 윗사람들은 대부분 “데이터 사이언티스트”가 뭔 지 모른다. 이는 당신이 데이터 분석 전문가일 뿐만 아니라 ‘보고서 만들어주는 애’가 되어야 한다는 것을 의미한다. 동시에 데이터베이스 전문가가 되어야 한다는 것도 잊으면 안된다.
61 |
62 | 비 기술 분야의 경영진뿐만 아니라 대부분의 사람들은 당신이 엄청나게 많은 스킬을 보유하고 있을 거라 가정한다. 기술 분야에 있는 동료들도 당신이 데이터와 관련된 거라면 무엇이든 다 알 거라고 생각한다. *Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP, 머신러닝의 모든 것*, 이 외에 당신이 생각해낼 수 있는 데이터와 관련된 모든 것들을 잘 알고 있어야만 한다. 그건 그렇고, 만약 이 모든 게 적혀 있는 직무명세서를 발견한다면 빨리 도망쳐라. 그 회사가 자신들의 데이터 전략에 관해 아무 생각이 없고, 누가 됐든 데이터와 관련된 사람을 뽑으면 회사에 있는 데이터와 관련된 모든 문제를 해결해줄 거라 믿기 때문에 아무나 고용하려 한다는 것을 암시하는 것이다.
63 |
64 | 그런데 이게 끝이 아니다. 사람들은 당신은 이 모든 것을 잘 알고 있고, **분명 모든 데이터에 접근할 수 있을 것이기 때문에** 데이터와 관련된 질문이라면 무엇이든 답변해줄 거라 생각한다. 그러니까, 안 물어봤어도 적어도 5분 전에는 담당자한테 메일로 답변을 보내놨어야 한다.
65 |
66 | 모든 사람들에게 자신이 실제로 아는 것은 무엇이고 다루기 어려운 것은 무엇인지를 얘기한다는 것은 쉽지 않은 일이다. 누군가 자신을 나쁘게 볼까 봐서가 아니라, 현장 경험이 별로 없는 주니어 데이터 사이언티스트처럼 여기게 될 것이 걱정되기 때문이다. 그렇게 되면 상황이 정말 어려워질 수 있다.
67 |
68 | ## 4. 고립된 팀에서 일한다
69 |
70 | 
71 |
72 | 종종 성공한 데이터 제품을 접하면, 똑똑한 기능, 전문적으로 디자인된 UI를 볼 수 있다. 특히, 적어도 사용자가 보기에 문제를 적절히 해결하고 유용한 결과물을 만들어 낸다. 그러니까 만약 데이터 사이언티스트가 머신러닝 알고리즘을 만들고 적용하는 방법을 익히는 데에만 시간을 쏟았다면, **가치 있는** 제품을 만들어내 프로젝트를 성공적으로 이끈 팀에서 아주 작은 역할만을 담당하게 되는 것이다(비록 필수적인 역할이라 하더라도). 즉, 고립된 상태로 일하는 데이터 사이언스 팀은 가치를 만들어내는데 어려움을 겪게 되는 것이다.
73 |
74 | 그런데도 여전히 많은 기업들이 자신들만의 프로젝트를 수행하기 위해 코드를 짜고 문제를 해결하려 노력하는 데이터 사이언스 팀을 운용하고 있다. 어떤 경우에는 그것 만으로 충분할 수도 있다. 예를 들어, 분기에 한번 정도 고정된 스프레드시트를 만들어 내는게 목표라면 데이터 사이언스 팀이 가치를 만들어 낼 수 있다. 반면 지능화된 추천 시스템을 최적화해서 맞춤형 웹사이트에 구현하는게 목표라면, 대다수 데이터 사이언티스트가 갖추고 있을 거라고 보기 어려운 매우 다양한 기술들이 필요하다(진정한 유니콘 데이터 사이언티스트만이 이 일을 해낼 수 있다). 따라서 고립된 채로 일하는 데이터 사이언스 팀이 프로젝트를 맡으면, 그 프로젝트는 실패할 가능성이 매우 높다(혹은 굉장히 오래 걸리거나. [대기업에서 고립된 팀을 다른 팀과 협력하도록 재조직하는 것은 쉽지 않기 때문](https://medium.com/startup-patterns/why-enterprise-agile-teams-fail-4ae64f7852d6)이다).
75 |
76 | 따라서 현장에서 일을 잘하는 데이터 사이언티스가 되고자 한다면, 단지 캐글 대회에서 좋은 성적을 거두고 온라인 교육 코스 몇 개 수료하는 것만으로는 충분하지 않다. 불행하게도, 위계와 정치가 비즈니스에서 어떤 식으로 작동하는지 이해해야만 한다(관점에 따라서는 좋은 것일수도 있다). 데이터 사이언스 분야에서 만족할 만한 직장을 구하려면, 자신이 기대하는 업무 절차를 갖춘 회사를 찾는 것을 핵심 목표로 삼아야 한다. 하지만 그렇더라도, 데이터 사이언스의 역할에 대해 가지고 있던 기대는 낮춰야 할 것이다.
77 |
78 | 누구든 코멘트, 질문, 반대 의견이 있다면 환영한다. 데이터 사이언티스트가 되고자 하는 사람들이 충분한 정보를 바탕으로 진로를 결정할 수 있도록 도우려면 건설적인 토론이 필수적이기 때문이다.
79 |
80 | 이 글이 이 직업에 대한 흥미를 잃게 만든 것은 아니길 바란다.
81 |
82 | 읽어줘서 감사하다. :)
83 |
84 | >이 글은 Jonny Brooks-Bartlett의 [Here’s why so many data scientists are leaving their jobs](https://towardsdatascience.com/why-so-many-data-scientists-are-leaving-their-jobs-a1f0329d7ea4)를 번역한 것입니다.
85 |
--------------------------------------------------------------------------------