← 전체 목록
🌊
Google Cloud Dataflow
분석Apache Beam 기반 스트림/배치 처리
▶아키텍처 다이어그램
📡Pub/Sub
🪣Cloud Storage
🌊Dataflow Job
⚙️Workers
📊BigQuery
📮Dead Letter
📋Logging
Press enter or space to select a node. You can then use the arrow keys to move the node around. Press delete to remove it and escape to cancel.
Press enter or space to select an edge. You can then press delete to remove it or escape to cancel.
점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다
왜 필요한가요?
이벤트 데이터와 배치 데이터가 함께 쌓이면, 수집 형식마다 별도 처리 코드를 유지해야 하는 경우가 많습니다. 파이프라인 규모가 커질수록 워커 운영, 장애 재시도, 지연 데이터 처리도 빠르게 복잡해집니다.
안에서 어떻게 동작하나요?
Dataflow는 Apache Beam으로 정의한 변환 단계를 관리형 워커에 분산 실행합니다. Pub/Sub나 Cloud Storage에서 입력을 받아 윈도우 집계, 필터, 변환을 수행하고, 결과를 BigQuery 같은 싱크로 적재합니다.
무엇과 헷갈리나요?
Dataflow와 BigQuery는 둘 다 데이터 처리에 관여하지만, BigQuery는 이미 적재된 데이터를 SQL로 분석하는 엔진이고 Dataflow는 데이터를 흘러가는 중간에 변환하고 이동시키는 파이프라인 엔진입니다. 저장 후 분석이 핵심이면 BigQuery, 적재 전에 정제·이동이 핵심이면 Dataflow가 중심입니다.
왜 이런 방식이 등장했나요?
예전에는 배치 처리용 시스템과 스트림 처리용 시스템을 따로 운영하는 경우가 흔했습니다. 데이터 소스가 실시간화되면서 하나의 프로그래밍 모델로 두 흐름을 함께 다루려는 요구가 커졌고, Beam/Dataflow 조합이 그 해법으로 자리 잡았습니다.
언제 쓰나요?
대규모 ETL, 스트리밍 집계, 로그 정제 파이프라인에 적합합니다. 소량 데이터를 한두 번 옮기는 간단한 작업에는 개발 비용이 과할 수 있습니다.
실시간 이벤트 처리배치 ETL윈도우 집계데이터 정제
Official Docs
GCP더 깊게 보기
현재 페이지의 개념 설명을 본 뒤 공식 문서로 바로 이동합니다.