나누고 싶은 개발 이야기

Data Engineer로서 기록하고 공유하고 싶은 기술들. 책과 함께 이야기합니다.

HIVE 2

[spark] hadoop 3 & hive 3 환경 설정

이번 글에서는 hadoop 3 & hive 3 버전에서 동작하는 spark 환경 구축을 설명한다. 최근 hadoop 3 cluster를 구축하는 작업에 참여하고 있는데 spark도 기존과 변경되는 부분이 있어 정리했다. hadoop과 hive의 설치 버전은 다음과 같다. 해당 버전들이 현재 시점(2020-05-25)의 안정화 버전이다. hadoop 3.1.3 hive 3.1.2 spark의 배포버전을 빌드할 때, hadoop/ hive 3 버전으로 변경 되더라도 큰 차이가 없다. spark에서 hive 1.2.1 버전을 default로 해서 빌드되기 때문에 추가 설정 작업이 필요하다. 그래서 spark 빌드 및 배포, hive 관련 옵션 설정을 나누어서 설명을 한다. 1. spark 빌드 및 배포 Bui..

Big Data/Spark 2020.05.25

[Spark] 2.4.0 - bucket pruning

spark의 기능을 대략적으로만 파악하고 넘어가면 공부가 덜 되는 것 같아 각 버전별로 추가된 내용을 분석해 보기로 하였다. 현재(2020-03-10) 기준 가장 최신 버전은 2.4.5인데 2.4.x 버전에서 추가된 기능부터 정리해 보고자 한다. 이번 글에서 정리한 내용은 bucket pruning 이다. Bucket 제목에서 나오는 bucket의 개념부터 살펴보자. 아래 정의는 Hive 문서에서 발췌했다. Buckets (or Clusters): Data in each partition may in turn be divided into Buckets based on the value of a hash function of some column of the Table. For example the pag..

Big Data/Spark 2020.03.10
반응형