[전문가 칼럼] 왜 데이터과학 ( Data Science )이라고 했을까?

왜 데이터과학 ( Data Science )이라고 했을까?

미국에서 백인이 아닌 사람이 최초로 당선된 2008년 대선 결과는 미국 뿐만 아니라 전 세계 정치에 관심있는 사람들에게 매우 신선하면서도 충격에 가까운 대선 결과였다. 이 당시에 버락 오바마의 젊음, 패기, 매력적인 연설도 대선을 승리로 이끈 원동력이기도 했으나, 또 하나 주목할 만한 사실은 빅데이터(Big Data) 기술을 활용해 각종 정책의 반응을 실시간으로 파악하여 사람들의 욕구와 반응에 적시에 그리고 효과적으로 부합할 수 있도록 해낸 것이었다. 이후에 많은 자료에서는 버락 오바마 대선 승리의 숨은 공로로 빅데이터가 있었다고 이야기하였다.

빅데이터

빅데이터(Big Data) 키워드는 2012년 세계경제포럼에서도 떠오르는 10개 기술 중에서 Best로 선정될 정도로 핵심 IT신기술 키워드에 해당했다. 대규모(Volume)의 데이터를 데이터 형식과 상관없이(Variety) 빠른 속도(Velocity)로 수집, 저장, 분석, 표현하는 개념으로 쏟아져 나오는 텍스트, 이미지, SNS 데이터 등에 대한 가치 발견은 단순한 트렌드 IT기술이 아니라 수많은 데이터로부터 많은 기회, 돈을 벌게 해주는 방법으로 인식되었다.

빅데이터(Big Data)라는 키워드가 인식된 지 10년~15년이 지났지만 여전히 이 단어는 신기술, 새로운 가치를 던져 주는 키워드로 인식이 되고 있다.

10년 전과 조금 더 바뀐 것이 있다면, 이전에는 아주 새로운 것을 할 수 있는 하나의 수단으로서 빅데이터 기술과 서비스가 인식이 되었고 얼리 어댑터(Early Adapter)에 해당하는 집단이나 개인이 먼저 빅데이터를 적용했다면, 최근에는 빅데이터를 적용할 수 있는 각종 법안(데이터기반행정법 , 마이 데이터 법 등)을 근간으로 하여 공공기관, 회사, 개인 등 광범위하게 빅데이터를 적용한 실 사례가 증가하고 있다는 것이다. 한마디로 주변에서 볼 수 있는 실사례가 많아졌고 더 많아지고 있는 실정이다.

빅데이터를 데이터과학(Data Science)이라고 표현하는 경우도 있고, 빅데이터를 이야기하면서 데이터를 다루는 기술 또는 사람을 이야기할 때 데이터과학(Data Science), 또는 데이터과학자(Data Scientist)라고 표현하기도 한다.

데이터과학이란

데이터과학(Data Science)이라는 단어의 기원을 조사해보면 3가지 사례로 정리할 수 있다. 첫 번째는 Jim Gray가 과학계에서 나타난 4차례의 패러다임 전환을 정리하며 ‘1차-관찰과 실험의 과학’, ‘2차-모델의 기반한 과학’, ‘3차-시뮬레이션 계산과학’, ‘4차-데이터에 기반한 과학’으로 설명하였다. 이 때 네 번째 과학의 범주로서 데이터과학(Data Science)을 이야기했다. 두 번째로는 1972년 Peter Naur가 컴퓨터과학(Computer Science)을 대신해 데이터과학(‘Datalogy’ or ‘Data Science’)을 제안하기도 하였다. 마지막 세 번째로는 1985년에 C. F. Jeff Wu가 베이징 강의에서 통계(Statistics) 대신 데이터과학(Data Science)이라는 단어로 발표한 사례가 있다.

즉 데이터과학에 대해서 이전에 정의한 내용을 요약하면,

과학의 네 번째 범주로서 데이터과학

컴퓨터과학의 대체로서 데이터과학

통계 대신 데이터과학

으로 정리된다.

그러나 데이터과학(Data Science)에 대한 명확하게 합의된 학술적인 정의가 없기 때문에 데이터과학이라는 단어 자체를 ‘버즈워드(Buzz Word, 명확한 합의와 정의가 없는 용어)’라고 이야기하기도 한다.

이전부터 자주 이야기되어 왔던 데이터 마이닝(Data Mining, 데이터속에서 가치를 캐내는 관점)이라는 용어도 있고, 데이터분석(Data Analysis, 기존 발생된 데이터의 패턴 파악)이라는 단어도 있는데 빅데이터(Big Data)라는 단어가 등장하면서 왜 데이터과학이라고 굳이 이야기하고 이에 대해 호응할까?

데이터 마이닝(Data Mining)은 일정한 규칙(연관, 연속, 군집 등)에 의해 기존에 발생된 데이터속에서 일정한 알고리즘에 의해 숨은 패턴을 발견하는 의미가 강하고 데이터분석(Data Analysis)은 기존에 발생된 데이터를 다양한 관점에서 따져보고 의미 있는 패턴을 발견하고자 하는 의미가 강한 것으로 해석된다. 그래서 이 두 개의 단어는 발생된 데이터를 다양한 관점에서 분석해보는 것으로서 알고리즘 중심적이고 데이터를 해석하고자 하는 특성이 강한 느낌을 준다.

일정한 규칙의 범주를 뛰어넘거나 단순히 데이터 값만을 분석하는 관점을 뛰어넘어 가설을 수립하고, 데이터의 흐름을 파악하고, 공간 상 의미를 파악하고, 시각화 방식에 따른 다양한 패턴을 통해 분석하는 등의 특징을 데이터 마이닝(Data Mining)이나 데이터 분석(Data Analysis)이라는 단어가 다 담기에는 범위와 방식측면에서 많이 부족한 느낌을 준다.

따라서, 기존에 발생되고 누적된 데이터를 통해 해왔던 일련의 활동들을 뛰어넘는 것들, 즉 빅데이터 환경에서 시도되고 있는 가설 수립, 기존 알고리즘을 포함하여 새롭게 시도되는 다양한 알고리즘, 다양한 시각화, 대상 데이터의 다양성 등을 담아 낼 수 있는 단어가 필요한데, 바로 그 단어가 데이터과학(Data Science)에 해당하는 것으로 해석할 수 있다.

끊임없이 쏟아지는 데이터들 속에서 가치를 캐내기 위해 기업이든, 공공기관이든 심지어 개인까지 필수가 되어버린 데이터과학의 본질적인 목적을 잘 이해하고 그 정의를 제대로 하는 것은 데이터를 탐색하는 이유(Why)를 알아가는 측면에서 매우 중요하다고 할 수 있을 것이다.

이것은 곧 누가, 어디가 데이터과학을 해야 하는 이 시대에 더 경쟁력을 확보할 수 있는가 출발점에 해당하는 것이라 할 수 있다.

데이터과학의 정의

데이터과학(Data Science)은 데이터(Data)와 과학(Science)이라는 단어로 구성되어 있다. 과학의 가장 궁극적인 지향점은 자연현상과 사회현상을 해석하는 것에 대한 신뢰성(Reliability)* 확보라고 할 수 있다. 과학적 신뢰성(Reliability) 은 곧 동일한 환경이 주어졌을 때 동일한 방식으로 실행할 경우 이전과 동일한 결과를 도출할 수 있을 것을 의미하는데 이러한 각각의 단어가 가지는 특징을 대입하여 데이터과학을 ①데이터와 ②과학을 결합하고 결과로서 ③신뢰성을 도출해내는 것이라고 정의할 수 있다.

데이터과학 = 데이터(발생된 사실, 경험의 기록) + 과학 + 신뢰성 있는 결과

① 데이터의 특징

자연계나 업무적인 환경에서 발생이 되고 경험이 되는 사실을 일정한 매체(종이, 디지털 등)에 기록한 것을 데이터라고 할 수 있다. 이때 발생되고 경험이 되는 사실(Facts)이 중요한 특성인데 이것은 각각의 개별적인 사실 하나씩만 있을 경우는 일정한 패턴을 일반화를 할 수 없지만 데이터 양이 많아질 경우 패턴을 분석할 수 있는 특징을 가진다. 대규모 데이터를 저장하기 위해 데이터베이스나 파일이 있으므로 이러한 디지털화 된 매체를 통해 데이터속에서 다양한 일반화할 수 있는 패턴을 도출할 수 있다.

② 과학의 특징

과학은 일정한 법칙을 발견하기 위해 가설을 수립하고 그 가설에 대해 다양한 실험을 통해 맞는지를 증명하는 절차를 거치게 된다. 증명이 완료되면 법칙으로서 일반화되어 정립되어 다양한 분야에 적용이 될 수 있게 된다.

③ 신뢰성 있는 결과

누적된 데이터로부터 패턴을 분석하여 일반화된 시사점을 도출하는 것도 데이터 자체가 자연계나 업무로부터 발생된 사실(Facts)로부터 얻어지는 결과이므로 신뢰성이 매우 높다고 할 수 있다. 또한 과학은 가설을 바탕으로 반복된 실험을 통해 얻어진 법칙이므로 재현성이 가능한 신뢰성이 높은 결과라고 할 수 있다.

따라서 위 세 가지 분야를 결합하여 데이터과학을 다음과 같이 정의할 수 있다.

과학적 원리를 통해 모든 것을 하나하나 가설을 수립하여 실험해서 입증을 하는 과정을 거치지 않고서도 데이터를 통해 증명한 것처럼 신뢰성 있는 결과를 도출해내는 것은 과학(Science)의 특징이 데이터과학에 포함된 내용이라 할 수 있다.

일정한 데이터를 통해 모든 것을 다 경험하지 않고 데이터를 통해 경험한 것처럼 신뢰성 있는 결과를 도출해내는 것은 데이터, 좀 더 구체적으로 이야기하면 누적된 데이터 분석을 통해 경험한 것처럼 결과를 도출해 내는 것은 데이터(Data)의 특징이 데이터과학에 포함된 내용이라 할 수 있다.

과학의 특징이든 데이터의 특징이든 신뢰성 있는 결과를 도출해내는 것이 목적이다.

따라서, 데이터과학은 실험을 통해 신뢰성 있는 결과를 도출해내는 방법이 아닌, 누적된 데이터를 통해 신뢰성 있는 결과를 도출해 내는 개념으로 정의할 수 있다.

과학의 특징을 데이터과학에 대입하여 특징을 좀 더 구체적으로 정리하면,

다양한 가설을 수립하고

수립된 가설을 데이터를 통해 검증해보고

검증된 결과를 바탕으로 일정한 법칙(회귀 식, 딥러닝(Deep Learning; 신경망, Neural Networks) 모델 등)을 도출하고

이를 다양한 데이터를 통해 모델과 결과의 신뢰성을 검증하여

실 의사결정체계나 업무 등에 반영하는 것

이라고 할 수 있다.

데이터과학자의 역량

이런 측면에서 데이터과학자(Data Scientist)에게 요구되는 핵심적인 역량은 과학자가 실험을 하기 위해 일정한 영역(도메인, Domain) 가설을 수립하는 것처럼 데이터에 기반하여 다양한 가설을 수립할 수 있어야 한다. 그렇게 하기 위해서는 데이터에 대한 단순히 처리 기술만을 가진 것이 아닌, 그 데이터가 가지는 의미 등을 다양하게 접근할 수 있는 인사이트(Insights)가 확보되어야 한다. 그리고 그것을 처리해 볼 수 있는 일련의 기술까지 확보하여 데이터를 통한 증명, 실험을 다양한 방식으로 해 볼 수 있는 사람, 그 사람이 데이터과학자(Data Scientist)라고 할 수 있다.

지금은 쏟아져 나오는 수많은 데이터들 속에서 다양한 가설을 수립하는 창의적인 생각과 함께 과감하게 데이터 기반 검증을 빠르게 하면서 기존의 패턴을 읽어내고 새로운 패턴을 발견하여 미래까지 예측할 수 있다면, 한마디로 역량 있는 데이터과학을 할 수 있다면, 회사 든 개인이든 성공할 수 있는 시대이다. 글로벌 IT 리서치 기관 가트너(Gartner) 에서도 누구나 데이터과학을 해야 하는 시대의 의미로 시민 데이터 과학(Citizen Data Science)을 이야기하며, 실제 업무 현장에서도 이것이 실현되고 있다. 데이터 과학에 대한 명확한 정의 위에 가치 있는 데이터 탐색, 데이터과학을 해보자.

*주:
과학적 연구의 신뢰성(Reliability) : 측정 대상을 반복 측정했을 때 결과가 일관성 있게 도출되는 정도.
과학적 연구의 타당성(Validity) : 측정하고자 한 대상을 얼마나 정확히(Accurately) 측정하였는지 나타내는 정도