본문 바로가기
FAQ

구글 직원이 이야기하는 데이터 사이언티스트의 미래

by USDK 2022. 2. 15.

 

 

 

 

이 글은 구글의 Galen이 Towards Data Science에 기고한 글을 바탕으로 쓰였음을 미리 밝히고 시작합니다.

 

우선 Galen이라는 사람은 데이터 사이언티스트도 아니고, 데이터 사이언스에 대한 정식 교육도 받은 적이 없습니다. 그런데 최근에 구글에서 곧 엄청난 가치를 창출할 예측 모델 (predictive model)을 구축했다고 합니다.

그러면서 Galen은 생각하게 되었습니다.

 

나 같이 전문적인 교육을 받지도 않은 사람이 이렇게 모델링을 할 수 있는데,
도대체 왜 그렇게 전문화 된 데이터 과학을 중심으로 많은 산업과 교육이 존재하는 것일까?

 

2012년에 하버드 비즈니스 리뷰 (Harvard Business Review)에서 데이터 사이언티스트를 21세기 가장 섹시한 직업이라고 선언하는 기사를 발표했었습니다. 그 이후로 비즈니스 문제에 정교한 통계적 모델링을 적용하기 위해 데이터 사이언스 분야에서 수 천 수 만 개의 일자리가 만들어졌는데요. 그 이후로는 여러분께서 잘 아시다시피 역사상 처음으로 일반적인 문제에 심층 수학/통계적인 방법론을 적용하는 것이 일상화되었습니다. 많은 회사와 직무, 전체 산업이 데이터 사이언스의 실천을 기반으로 만들어지기도 했고요.

 

이 하버드 비즈니스 리뷰의 기사는 개인적으로 여러 면에서 시대를 앞서갔다고 생각합니다. 이 아티클에서는 데이터 사이언티스트에게 공통적인 다른 기술은 호기심, 코드 작성, 데이터 시각화, 데이터 분석 및 효과적인 의사소통 능력이어야 한다고 이야기합니다. 이 아티클에서는 사실 구글의 수석 이코노미스트인 Hal Varian이 이야기했던 "향후 10년 동안 가장 섹시한 직업은 통계학자가 될 것"이라고 말한 것을 인용합니다. 

 

그러나 제 생각에는 데이터 분석가와 통계학자 사이에는 유사점에도 불구하고 뚜렷한 단절이 있습니다.

 

 

 

오늘날 데이터 과학자들은 무엇을 하는가?

 

이 질문에 대한 답은 "매우 다양합니다"입니다. 많은 데이터 과학자들은 여전히 ​​수작업으로 모델링을 하고, coordination 하는 것이 가장 좋은 방법이라고 믿고 있습니다.

많은 사람들이 정교한 도구를 사용하여 모델의 정확도를 높이고 궁극적으로 더 많은 생산 준비 모델을 구현하는 것을 선호합니다. 앞서 언급한 HBR 기사에서 설명한 것처럼 데이터 과학자의 정의는 매우 다양합니다.

일부 회사는 데이터 과학자에 의존하여 비교적 적은 통계 원칙을 사용하여 메트릭을 모니터링하고 의사 결정을 내리는 테스트를 설계합니다.

다른 회사는 데이터 과학자에 의존하여 새로운 통계 모델을 설계하거나 기존 통계 모델을 개선하여 제품 또는 예측 파이프라인의 성능을 향상시킵니다.

더군다나 오늘날 데이터 과학자에 의존하여 현대의 분석가와 동일한 기능을 수행하는 회사가 많이 있습니다.

SQL 쿼리를 작성하여 데이터를 조작하고 데이터를 스프레드시트 또는 데이터 시각화 형태로 비즈니스에 전달합니다.

이처럼 광범위한 job descriptions과 일반화되지 않는 job requirements 때문에 잡 마켓에서는 많은 혼란이 존재하고, 대학의 프로그램 지원자들에게도 많은 혼란을 초래하고 있습니다.

 

 

 

AutoML이 주목받는 이유는 무엇입니까?

 

구글의 Galen은 2021년에 Vertex와 같은 AutoML 제품을 사용하면 training model에 대한 통계적 지식이 없어도 hyper parameter tuning을 통해서 prediction accuracy가 매우 좋은 모델을 생성할 수 있었다고 말합니다. 이는 다른 말로 하면, 통계학자가 없어도 데이터 분석가는 전문가 수준의 예측 모델링이 가능해진다는 의미입니다. 데이터 분석가는 일반적으로 비즈니스 문제를 이해하고 이를 해결하기 위해 데이터를 적용하는 방법의 최전선에 있습니다. 역사적으로 데이터 분석가는 과거 추세 위주로 분석을 진행해 왔지만, 이제 분석가는 미래를 예측하기 위한 인사이트를 뽑을 수 있고, AutoML 도구에서 수집할 기능을 구축할 수 있게 된 것이죠.

 

 

 

 

그렇다면, 데이터 분석가는 데이터 사이언티스트가 될 수 있을까?


제 생각에는 두 타이틀 모두 앞으로 몇 년 동안 매우 모호하게 존재할 것입니다.

데이터 분석가가 비즈니스 데이터 사용을 마스터하고 AutoML 도구로 작업하는 방법을 배운 후에는 데이터 과학자와 데이터 분석가의 소통이 좀 더 원활해질 수 있습니다.

그러나 이 새로운 도구를 사용하면, 값비싼 학위를 따지 않고도, 필요하지 않고 기능 엔지니어링과 같은 배우기 쉬운 기술을 직장에서 가르칠 수 있습니다.

 


누가 차세대 예측 모델링을 설계하게 될까?

 

대다수의 경우 Google 및 Meta와 같은 회사는 예측 모델을 개선하기 위해 전문 PhD 연구 과학자 팀을 고용하고 있습니다.

이 연구 과학자들은 프로그래밍과 통계에 고도로 전문화되어 있으며 새롭게 떠오르는 수학 분야를 이해하고 이러한 복잡한 개념을 사용 가능한 도구를 개선하는 데 적용할 수 있습니다.


연구 과학자 팀은 여전히 ​​매일 중요한 발견을 하고 있습니다. GPT-3 또는 "Generative Pre-trained Transformer version 3"은 수십억 개의 샘플에 대해 훈련된 자연어 모델로, 전체 기사를 작성하고, 인간과 유사한 대화를 하고, 놀라운 정확도로 질문에 답할 수 있습니다.

PyTorch 및 Tensor Flow에서 볼 수 있는 것과 같은 컴퓨터 비전 모델은 치와와와 머핀의 경우를 제외하고 인간의 수준에 필적하는 수준에서 객체 감지, 세분화 및 분류가 가능합니다.

 


미래의 데이터 과학자는 누구인가?

 

Vertex AI와 같은 업계 최고의 제품에 대한 Google의 투자를 통해 Google은 정교한 Auto ML 제품을 도메인 지식 전문가와 결합하고 어제의 데이터 과학자가 필요로 했던 많은 프로그래밍 및 통계를 추상화하는 가치의 실현을 입증했다고 생각합니다

나는 도메인 지식이 미래를 지배할 것이라고 믿습니다. 인간이 해석할 수 있는 방식으로 입력과 출력 간의 관계를 이해하고 이 지식을 전달하는 기술을 갖는 것은 예측 모델링에 대한 가장 중요한 입력입니다. 

MBA 프로그램에 SQL 과정이 추가된다거나, 필요한 수학적, 통계적, 엔지니어링 수업이 추가되는 것은 시간문제로 보입니다.

이제 모델 정확도를 높이는 방법 중 제일 각광받는 방법론은 이전에는 모델 튜닝이었지만, 점차 모델 input으로 옮겨가고 있는 추세입니다. (이미 Andrew Ng 박사도 인풋의 중요성에 대해서 역설하고 있죠)

더 나은 모델 입력을 생성하려면 모델이 적용되는 비즈니스 문제를 전문가가 이해해야 합니다. 이 전문가들은 데이터 과학자라고 불릴 가능성이 높지만 소위 데이터 과학자라 불리는 사람들과 백그라운드가 많이 다른 사람들입니다.

저는 미래의 데이터 과학자가 실험을 설계하고, 가설을 확인하고, 비즈니스와 밀접하게 연관되고, 모델 정확도를 개선하기 위한 기능을 구축하기 위해 SQL을 작성하는 데 대부분의 시간을 할애할 것이라고 믿습니다.

통계 전문가는  자동화된 머신 러닝 아키텍처의 정확도를 개선하는 데 전문 기술을 집중할 수 있으며, 이러한 미래형 데이터 과학자는 더 높은 정확도를 생성할 수 있도록 지속적으로 개선되는 도구를 제공할 것으로 보입니다.

 

 

 

 

 

 

 

#영어이력서 #영문이력서 #이력서 #Cover #coverletter #resume #레주메 #데이터분석 #데이터애널리스트 #미국데이터분석석사 #미국석사 #데이터과학자 #네트워킹이벤트 #GMAT #링크드인 #미국데이터분석 #데이터사이언스 #미국 #GRE #해외취업 #데이터사이언티스트 #미국현지취업 #데이터분석석사 #글래빈 #미국데이터사이언티스트 #글래빈미국 #글래빈미국데이터사이언티스트 #브라이언 #브라이언미국데이터사이언티스트 #스테이시미국데이터사이언티스트 #미국대학원 #해외취업마스터 #미국생활 #데이터사이언스석사 #미국유학생 #유학생 #미국데이터 #애널리틱스석사 #데이터석사 #미국데이터석사유학 #뉴욕직딩 #미국유학 #미국직장인 #미국취업 #미국현지취업 #prerequisites #선수과목 #미국대학원선수과목 

728x90

댓글