이번 글은 스파크 완벽 가이드의 내용을 대부분 발췌한 것이다. DataSet은 구조적 API의 기본 데이터 타입이다. DataFrame은 Row 타입의 DataSet이다. (DataFrame == DataSet[Row]) 도메인별 특정 객체를 효과적으로 지원하기 위해 '인코더 encoder'라 부르는 특수한 개념이 필요하다. 인코더는 도메인별 특정 객체 T를 스파크의 내부 데이터 타입으로 매핑하는 시스템을 의미한다. DataFrame이나 '표준' 구조적 API를 사용한다면 Row 타입을 직렬화된 바이너리 구조로 변환합니다. DataSet을 사용할 시기 DataFrame 기능만으로는 수행할 연산을 표현할 수 없는 경우 성능 저하를 감수하더라도 타입 안정성(type-safe)을 가진 데이터 타입을 사용하고 ..