Worldwide Big-Data Knowledge Group

  • Data Analysis in SQL
  • Statistics and Experimental Design
  • Data Manipulation and Cleaning in Python
  • Introduction to Data Wrangling
  • Introduction to Machine Learning
  • Advanced Machine Learning
  • Distributed Computation, Hadoop, and MapReduce
  • Distributed Computing with Spark
  • Data Visualization
  • Data Science for Business
  • Data Manipulation and Wrangling in R
  • Introduction to Predictive Analytics
교육과정 Data Analysis in SQL
교육내용 SQL로 처리하는 핵심 쿼리 작업 (select, where, update, create, delete, limit, order by, group by, join),
데이터를 다른 형식(csv, tsv)으로 받아들이거나 내보내는 기법, SQL을 이용한 요약과 집계 보고 및 인덱스를 사용하여
성능을 향상시킬 수 있는 방법을 제공합니다.
교육효과 - OLAP, OLTP, 다양한 데이터의 연결, 데이터 모델링, 데이터 웨어 하우징에 대한 철저한 이해를 하게 됨.
- 데이터 탐색과 대량 일괄 분석을 수행하는 실질적인 경험을 얻을 수 있음.

교육과정 Statistics and Experimental Design
교육내용 가설을 통한 테스트, 경험적 설계, 강화 학습 유형, 부트 스트랩핑, 매저링 컨피던스에 적용 하는 가장 일반적인
통계적 방법론을 데이터 과학 안에서 제공합니다.
교육효과 본 교육을 통하여 분석기반의 통계학적 방법론에 대하여 선진 기법들을 통하여 심도 있는 분석 능력을 배양할 수 있음.

교육과정 Data Manipulation and Cleaning in Python
교육내용 파이썬에서 구조화 된 데이터와 구조화되지 않은 데이터를 처리하는 핵심 라이브러리를 구성하는 Pandas, Numpy, Scipy, Matplotlib, Regular expressions, sql, json, xml, check point 및 web scraping과 같은 프로그래밍 관련 기본 주제를 다룹니다.
교육효과 본 교육과정의 목표는 데이터 과학자가 되려는 교육생에게 Python 및 다양한 핵심모듈을 통하여 심도 있는 실무 경험을 익힐 수 있는 유용한 교육 과정

교육과정 Introduction to Data Wrangling
교육내용 대용량의 데이터 셋들은 일반적으로 사용하는 다양한 Excel 또는 유사한 Tool로는 처리가 매우 어렵습니다.
그 이유는 이러한 데이터가 (1)비정규화 (2)비구조화 (3)종류의 다양성 (4)대용량 등에 원인이 있습니다.
교육효과 새로운 오픈 소스 라이브러리로 구축하고 해석하는방법을 제공

교육과정 Introduction to Machine Learning
교육내용 복잡한 ETL 파이프 라인을 구축하여 데이터를 다양한 형식으로 처리하고, 기능 조합 및 파이프 라인과 같은 도구로 모델을 개발하여 중복 작업을 줄이고 프로토 타입 작성 및 개발 속도를 높이기 위해 병렬화와 같은 기법을 연습한다.
교육효과 데이터를 이해하고 이를 통한 알고리즘 등 다양한 함수를 통해 분석을 통한 새로운 통찰력을 얻을 수 있음.

교육과정 Advanced Machine Learning
교육내용 구조화된 데이터에 대한 기계 학습은 중요한 부분이지만, 보다 광범위한 분석 기회를 통해 진보된 기계 학습 기법을
이해하고 구조화 되지 않은 데이터를 다루는 방법을 통해 새로운 분석을 할 수 있음
교육효과 보다 진보된 인공지능으로 가기 위한 앞선 기계학습에 대한 진보된 기술과 알고리즘을 경험할 수 있음.

교육과정 Distributed Computation, Hadoop, and MapReduce
교육내용 분산된 컴퓨팅 환경의 기본 개념을 소개하여, 여러 대의 컴퓨터를 통해서 워크 로드를 분산시켜 처리하는
대용량의 데이터를 처리하는 기법을 학습합니다.
Hadoop, HIVE, Partioning, fault-tolerance, Hadoop Sreaming, mrjob을 분산 머신러닝으로 운영할 수 있음.
교육효과 분산컴퓨팅환경에서의 Hadoop 및 Eco 소프트웨어에 대한 지식을 익힐 수 있음.

교육과정 Distributed Computing with Spark
교육내용 모듈을 통해 Python 또는 Scala API를 사용하여 학습 할 수 있으며 map, flatmap, for comprehension 및 데이터 구조와 같은 스칼라의 기본 사항을 포함하며, 탄력적인 분산 데이터 세트, 메모리 캐싱, 동작, 변환, 튜닝 및 최적화와 같은 Spark의
핵심 개념을 다룹니다.
교육효과 클라우드(AWS및 Google Cloud플랫폼)상에서 대규모 클라우드 기반 실제 데이터 세트를 Spark job을 통해
실행하고 구축하는 능력을 배양함.

교육과정 Data Visualization
교육내용 시각화는 데이터 분석가가 그 이야기를 이해하고 전달할 수 있도록 도와주는 강력한 도구를 제공합니다.
이 모듈에서는 통합적인 접근 방식을 촉진하기 위해 시각적 및 통계적 분석의 편향과 한계를 논의합니다.
교육효과 데이터의 시각화에 대한 다양한 선진 기법들을 체험하고 현업에 돌아가서 실무에 즉시 적용할 수 있는
혜안을 제시합니다.

교육과정 Data Science for Business
교육내용 데이터 과학 의사 결정 전반에 영향을 미치고 데이터 기반 비즈니스 정책의 구현에 영향을 미치는 수많은 주제
(예컨대, 데이터 충실도, 관련성 및 추가 데이터의 가치)를 탐구하게 됩니다.
교육효과 데이터를 기반한 다양한 비즈니스 환경에 적용이 가능하도록 전략적인 요소가 포함되어 있어 빅데이터를 통한 다양한
비즈니스 및 서비스를 창출하려는 CEO, CIO 및 IT현업 실무자들에게 전략적인 통찰력을 제공합니다.

교육과정 Data Manipulation and Wrangling in R
교육내용 R은 일류 통계 옵션 및 다양한 종류의 데이터 과학 응용 프로그램에 적합한 에코 시스템을 포함하여 고유한 기능 세트를 제공합니다.
교육효과 이 모듈을 통하여 학습자는 “R”에 대한 이해 및 실제 빅데이터에서 응용분석이 가능한 실무적인 능력을 배양하게 됩니다.

교육과정 Introduction to Predictive Analytics
교육내용 numpy, scipy, scikit-learn와 같은 오픈 소스 패키지를 활용하여 이론적 개념은 물론 실제 데이터 세트에서 연습하게 됩니다.
교육효과 이 모듈을 통해서 예측분석에 대한 다양한 실제 사례와 적용능력을 배양할 수 있습니다.