👁️

Amazon Rekognition

AI/MLAI 기반 이미지/비디오 분석

Rekognition은 이미지와 비디오에서 객체, 얼굴, 텍스트 같은 시각 정보를 바로 추출하는 분석 API입니다. 일반적인 비전 기능을 모델 학습 없이 호출형 서비스로 제공합니다.

▶아키텍처 다이어그램

📊 데이터 흐름 다이어그램

🪣S3 (이미지)

⚡Lambda

👁️Rekognition

🗄️DynamoDB

📢SNS

👤사용자

점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다

왜 필요한가요?

이미지에서 텍스트나 얼굴을 뽑고 싶은데 그때마다 데이터셋을 모으고 비전 모델을 학습시키는 건 대부분의 제품에 과합니다. 일반적인 시각 분석조차 직접 모델링해야 하면 기능 하나 붙이는 비용이 지나치게 커집니다.

왜 이런 방식이 등장했나요?

커머스 플랫폼이 하루 수십만 장의 상품 이미지를 받는 상황을 생각해 보면, 부적절한 이미지를 사람이 일일이 검수하는 건 물리적으로 불가능합니다. 이미지 분석 모델을 직접 만들려면 수만 장 이상의 라벨링 데이터, GPU 인프라, 전담 ML 엔지니어가 필요했고, 작은 팀에게는 시작 자체가 장벽이었습니다. 얼굴 탐지나 텍스트 추출처럼 이미 보편화된 기능조차 직접 모델링하려면 수개월이 걸렸습니다. 이 병목을 해소하기 위해 일반적인 시각 분석을 사전 학습 모델 기반 API로 제공하는 Rekognition 같은 관리형 서비스가 등장했습니다.

내부적으로 어떻게 동작하나요?

Rekognition에 이미지가 들어오면 사전 학습된 딥러닝 모델이 이미지에서 특징을 추출합니다. 추출된 특징을 객체, 얼굴, 텍스트, 장면, 부적절 콘텐츠 등 카테고리별로 대조해 각각에 신뢰도 점수(Confidence Score)를 매겨 반환합니다. 예를 들어 '사람: 98.7%', '실외: 91.2%' 같은 결과가 나오는 식입니다. 이 신뢰도 임계값을 호출 시점에 조절할 수 있다는 점이 중요합니다. 콘텐츠 모더레이션처럼 놓치면 안 되는 경우에는 임계값을 낮춰 민감하게 잡고, 태깅처럼 오탐이 비용인 경우에는 임계값을 높여 정확도를 우선합니다. 이미지는 S3에 저장된 객체를 참조하거나 바이트로 직접 전달할 수 있고, 분석 결과는 Lambda로 후처리하거나 DynamoDB에 저장하는 패턴이 일반적입니다.

경계와 구분

Rekognition과 SageMaker는 둘 다 이미지를 다룰 수 있지만 접근 방식이 다릅니다. Rekognition은 얼굴, 텍스트, 객체, 부적절 콘텐츠 같은 범용 카테고리를 인식하도록 사전 훈련된 모델을 API로 제공합니다. SageMaker는 팀이 보유한 도메인 데이터로 모델을 직접 학습하는 플랫폼이므로, 해당 영역에서 더 높은 정확도를 낼 수 있지만 데이터 수집과 학습·운영 비용이 따릅니다. 판단 기준은 명확합니다. 얼굴 비교, 텍스트 추출, 콘텐츠 검수처럼 표준적인 시각 분석으로 요건을 충족할 수 있으면 Rekognition이 빠릅니다. 제조 라인의 특수 불량 검출이나 의료 이미지 판독처럼 일반 모델로는 정확도가 부족한 도메인이라면 SageMaker로 직접 학습을 고려해야 합니다.

언제 쓰나요?

프로필 이미지 업로드 시 부적절한 콘텐츠를 자동 차단하는 파이프라인이 대표적입니다. 사용자가 이미지를 올리면 S3에 저장되고, 이벤트가 Lambda를 트리거해 Rekognition에 모더레이션 분석을 요청합니다. 신뢰도 점수가 임계값을 넘으면 이미지를 비공개 처리하고 관리자에게 알림을 보내는 흐름입니다. 미디어 플랫폼에서는 업로드된 영상에서 장면과 인물을 자동 태깅해 검색 가능하게 만드는 데 씁니다. 매일 수천 건의 영상을 사람이 분류하는 대신, Rekognition이 태그를 붙이고 사람은 경계 케이스만 확인하는 구조로 바꾸면 검수 인력을 크게 줄일 수 있습니다. 도메인 특화 모델을 직접 학습해야 하는 경우에는 맞지 않습니다.

콘텐츠 모더레이션얼굴 인식텍스트 추출미디어 분석