하둡(Hadoop)이란?

2016. 5. 4. 11:40

하둡이란?

- 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크

- HDFS로 데이터를 저장하고 맵리듀스로 데이터를 처리

사용하는 이유

- 비용에 대한 부담 없음

- 데이터 복제본을 저장하기 때문에 데이터의 유실/장애가 발생했을 때, 데이터 복구 가능

배경

: 구글이 검색 서비스를 위해 사용하고 있던 분산 파일 시스템인 GFS와 분산 처리 시스템 MapReduce에 대한 논문을 발표하면서 구글의 분산 시스템이 널리 알려지게 되었다.

오픈 소스 검색 엔진인 Nutch를 개발하던 더그 커팅이 이 논문을 접한 수 구현한 소프트웨어가 바로 하둡!

현재 아파치 소프트웨어 재단에 속해 있으며 Hortonworks, Cloudera, MapR이 유명한 회사이다. (실제로 페이스북 하둡 그룹에 가입해있는데 cloudera에 계신 분이 많은 글을 올려주신다. 감사!)

To Data Engineer