
게이오기주쿠대학 빅데이터·이노베이션 인재 육성 프로그램
게이오기주쿠대학
배경
빅데이터 시대를 맞아 데이터 사이언티스트 육성이 요구되고 있습니다. 데이터 사이언티스트는 통계학·머신러닝 등의 이론적 소양뿐만 아니라, 수백 대에 이르는 컴퓨터를 활용한 대규모 분산 병렬 처리를 수행할 수 있는 프로그래밍 스킬이 필요합니다. 문부과학성 위탁사업 '스킬과 실무를 중시한 빅데이터·이노베이션 인재 육성 프로그램'의 일환으로, 데이터 사이언티스트를 위한 대규모 분산 병렬 프로그래밍 교육을 실시하고 있습니다.
목적
대규모 분산 병렬 프로그래밍을 위한 스킬을 습득하기 위해서는 분산 병렬 알고리즘의 이해와 같은 이론 수업만으로는 부족합니다. 실제로 수십 대의 컴퓨터를 활용하여 데이터 처리를 해보는 것이 중요합니다. Amazon EC2에서는 다수의 인스턴스를 저렴하게 이용할 수 있기 때문에, Amazon EC2상의 Elastic MapReduce(EMR)를 활용하여 실제로 대규모 분산 병렬 처리를 수행합니다.
실적
약 40명의 학생을 대상으로 Amazon EMR을 활용한 프로그램 실습을 진행했습니다.