
1. checkpoints가 필요한 이유Structured Streaming에서 처리한 데이터의 신뢰성과 복구를 보장하기 위해 필요하다. Yarn Cluster의 장애로 인해 정상 동작 중이던 spark streaming이 비정상 종료되었다고 하자. 이 때, 어디부터 데이터 처리를 다시 해야하는지 판단해야 하는데 checkpoints에 기록된 메타 데이터를 확인한다. checkpoints를 지정하는 방법은 아래와 같이 writeStream에서 option으로 지정한다.df.writeStream .option("checkpointLocation", "/Volumes/catalog/schema/volume/path")microBatch 마다 처리한 결과를 해당 디렉토리(혹은 hdfs)에 저장한다.check..