Kernekoncepter
데이터 과학은 1960년대부터 시작된 개념으로, 데이터의 증가와 이를 처리하는 계산 능력의 한계 사이의 불균형, 즉 '데이터 임피던스'를 해결하기 위한 노력에서 비롯되었습니다. 초기에는 데이터 처리 및 관리에 중점을 두었지만, 통계학, 데이터 분석, 머신러닝 등 관련 분야의 발전과 함께 그 의미가 확장되고 진화해왔습니다.
Resumé
이 글은 데이터 과학이라는 용어의 역사를 1963년부터 2012년까지 살펴보는 에세이입니다. 저자는 데이터 과학이라는 용어가 시대에 따라 어떻게 다른 의미로 사용되었는지, 그리고 그 의미가 어떻게 상호 연결되어 있는지 보여줍니다.
1960년대: 데이터 과학의 태동
- 1963년 미국 공군은 방대한 양의 실시간 데이터를 처리하고 분석하기 위해 데이터 과학 연구소(DSL)를 설립했습니다.
- 당시 데이터 과학은 '데이터 임피던스', 즉 데이터의 양과 이를 처리하는 계산 능력 사이의 불균형을 해결하는 데 중점을 두었습니다.
- 데이터 과학은 데이터를 처리하고 가치를 추출하기 위한 계산 방법 및 도구 개발과 관련이 있었습니다.
1970년대: 데이터 과학의 개념 정립
- 덴마크 컴퓨터 과학자 Peter Naur는 컴퓨터 과학을 데이터 과학으로 이름 변경할 것을 제안했습니다.
- 그는 데이터 과학을 '데이터를 다루는 과학'으로 정의하고, 데이터 표현, 변환, 모델링, 인간 행동 안내 등의 실천을 포함한다고 설명했습니다.
- 이 시기에 관계형 데이터베이스의 기초가 된 Codd의 관계형 모델과 비정형 텍스트 데이터 인코딩을 위한 Goldfarb의 SGML과 같은 중요한 데이터 표준이 개발되었습니다.
1990년대: 통계적 데이터 과학의 등장
- 일본 통계학자 오스미 노부루는 데이터 과학이라는 용어를 사용하여 통계 정보를 관리하고 분석하는 새로운 방법을 제시했습니다.
- 그는 데이터 분석과 데이터 과학의 관계를 강조하며, 데이터 수집의 중요성을 역설했습니다.
- 하야시 치키오는 데이터 과학을 '수학적 통계, 데이터 분석 및 관련 방법을 통합하는 종합적인 개념'으로 정의하고, 데이터 설계, 수집, 분석의 세 단계를 제시했습니다.
데이터 분석 vs. 데이터 마이닝
- 데이터 과학은 데이터 마이닝과 종종 비교되지만, 저자는 데이터 마이닝이 데이터 수집 문제를 간과한다고 비판합니다.
- 데이터 분석은 데이터의 출처와 생성 조건을 중요하게 여기는 반면, 데이터 마이닝은 데이터 자체의 가치 추출에 집중합니다.
- 저자는 데이터 과학이 데이터의 의미와 맥락을 이해하는 데 중점을 두어야 한다고 주장합니다.
결론
이 글은 데이터 과학의 역사를 통해 데이터 과학이 단순한 용어의 변화가 아닌, 데이터의 증가와 계산 기술의 발전에 따라 진화해 온 역동적인 분야임을 보여줍니다. 저자는 데이터 과학의 본질을 강조하며, 데이터의 의미와 맥락을 이해하는 것이 중요하다고 주장합니다.
Citater
"데이터 과학은 데이터가 설정된 후 데이터를 다루는 과학이며, 데이터와 데이터가 나타내는 것의 관계는 다른 분야와 과학에 위임됩니다." - Peter Naur
"데이터 과학은 [수학적] 통계, 데이터 분석 및 관련 방법을 통합하는 종합적인 개념일 뿐만 아니라 그 결과도 포함합니다." - 하야시 치키오
"데이터 세트를 수집한 후에 데이터 세트를 조작하는 것은 단지 자기 충족적인 데이터 처리일 뿐입니다." - 오스미 노부루