spark의 기능을 대략적으로만 파악하고 넘어가면 공부가 덜 되는 것 같아 각 버전별로 추가된 내용을 분석해 보기로 하였다. 현재(2020-03-10) 기준 가장 최신 버전은 2.4.5인데 2.4.x 버전에서 추가된 기능부터 정리해 보고자 한다. 이번 글에서 정리한 내용은 bucket pruning 이다. Bucket 제목에서 나오는 bucket의 개념부터 살펴보자. 아래 정의는 Hive 문서에서 발췌했다. Buckets (or Clusters): Data in each partition may in turn be divided into Buckets based on the value of a hash function of some column of the Table. For example the pag..