나누고 싶은 개발 이야기

Data Engineer로서 기록하고 공유하고 싶은 기술들. 책과 함께 이야기합니다.

Big Data/Hadoop 3

HBase 활용을 위한 기본 개념

이번에는 HBase에 대한 글을 처음으로 쓴다. 필자는 Kafka로 들어온 다양한 데이터를 여러 저장소에 적재하는 기능을 개발하고 있다. 이번에 HBase에 데이터 적재 기능을 추가하게 되었다. 개발을 진행하면서 HBase 활용 측면에서 알아야 하는 기본적인 내용을 정리함으로써 HBase를 도입하려고 하시는 분들에게 참고사항이 되었으면 한다. 1. 아키텍처 먼저 HBase의 아키텍처를 살펴본다. 두 가지 측면으로 나누어서 정리한다. 데이터 구성 HBase 서버 아키텍처 데이터 구성을 알면 HBase로 데이터 적재 시 RowKey, Column Family(이하 컬럼패밀리) 등의 데이터 구조 설계에 도움이 된다. 그리고 HBase의 서버 아키텍처를 알면 클라이언트가 데이터 저장/ 조회할 때의 데이터 흐름을..

Big Data/Hadoop 2021.09.03

Parquet (파케이)

이번 글은 하둡 생태계에서 많이 사용되는 파일 포맷인 Parquet (이하 파케이)에 대해 정리한다. 글의 포함된 설명 중 많은 부분은 하둡 완벽 가이드에서 발췌한 것임을 밝힌다. 파케이는 columnar 저장 포맷이다. 구글에서 발표한 논문 Dremel: Interactive Analysis of Web-Scale Datasets를 토대로 Twitter, Cloudera에서 같이 개발했다. columnar 포맷을 기존에 많이 사용하던 Row 기반 포맷과 비교하면 이해하는데 도움이 된다. 전통적인 row 기반 저장 방식은 A1, B1, C1과 같이 같은 row 값이 연속적으로 저장된다. 반면에 columnar 저장 방식은 A1, A2, A3과 같이 컬럼의 데이터가 연속된 구조로 저장한다. columnar..

Big Data/Hadoop 2020.06.23

[Spring] Hadoop hdfs 파일 업로드

회사에서 서비스를 만들다가 Restful API를 통해 파일을 업로드 받고 HDFS에 저장하는 기능이 필요했다. API 서버는 Spring으로 구현되어 있었기에 Spring에서 Hadoop 관련 repository도 찾아보고 JavaConfig 설정도 해보았는데 이번 포스트에서 간단히 정리해 보고자 한다. 내용은 아래의 순서로 진행하고자 한다. 1. Spring Apache Hadoop 라이브러리 찾기. 2. Hadoop 관련 JavaConfig 추가. 3. Hadoop NameNode HA 구성 맛보기. 4. HDFS에 파일 업로드. 1. Spring apache hadoop 라이브러리 찾기. Spring Data 프로젝트 하위에 Spring for Apache Hadoop이 포함되어 있다. 라이브러리..

Big Data/Hadoop 2019.03.06
반응형