Cloud VisualizerCloud Visualizer
36개 개념
← 전체 목록
🔗

AWS Glue

분석서버리스 데이터 통합(ETL) 서비스

아키텍처 다이어그램

스키마 탐지메타데이터원본 데이터스키마 참조Parquet 변환직접 적재🪣S3 (원본)🕷️크롤러📚데이터 카탈로그🔗ETL 잡🪣S3 (변환)🏢Redshift

점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다

왜 필요한가요?

데이터는 S3에 쌓여도 스키마가 제각각이면 분석 서비스가 일관되게 읽기 어렵습니다. 원본 데이터 탐지와 변환을 맡을 ETL 계층이 필요합니다.

안에서 어떻게 동작하나요?

Glue는 크롤러로 스키마를 탐지해 데이터 카탈로그를 만들고, ETL 잡으로 데이터를 변환해 S3나 Redshift로 보냅니다. Athena와 함께 쓰면 파일 기반 데이터도 SQL로 다루기 쉬워집니다.

무엇과 헷갈리나요?

Glue와 Athena는 둘 다 데이터 레이크와 가까이 있지만 역할이 다릅니다. Glue는 메타데이터와 ETL 준비를 담당하고, Athena는 그 결과를 쿼리하는 데 강합니다.

왜 이런 방식이 등장했나요?

초기 데이터 파이프라인은 배치 스크립트와 테이블 정의가 여러 곳에 흩어져 유지보수가 어려웠습니다. 그래서 스키마 카탈로그와 ETL을 통합해 주는 Glue 같은 서비스가 중요해졌습니다.

언제 쓰나요?

데이터 레이크 정제, 스키마 탐지, 배치 변환, 웨어하우스 적재 준비에 적합합니다. 변환 없이 바로 SQL로 탐색하는 것이 목적이면 맞지 않습니다.

데이터 레이크 구축ETL 파이프라인데이터 카탈로그스키마 진화
Official Docs

더 깊게 보기

현재 페이지의 개념 설명을 본 뒤 공식 문서로 바로 이동합니다.

AWS