AWS, 대규모 데이터 분석 서버리스 옵션 3종 발표
(지디넷코리아=남혁우 기자)아마존웹서비스(AWS)가 AWS 리인벤트 행사를 통해 기본 인프라를 구성, 확장 또는 관리하지 않고도 대규모의 데이터 분석이 가능한 분석 서비스 제품군용 서버리스 옵션 3가지를 새롭게 발표했다고 17일 밝혔다.
신규 아마존 레드시프트(Amazon Redshift)용 서버리스 옵션은 몇 초 이내로 리소스를 자동으로 설정하고 확장하여 고객이 데이터웨어하우스 클러스터를 관리할 필요 없이 페타바이트 규모의 데이터에 대해 고성능 분석 워크로드를 실행할 수 있는 기능을 제공한다.
아마존 아파치 카프카 관리형 스트리밍(Amazon MSK)을 위한 새로운 서버리스 옵션은 리소스를 빠르게 확장하여 실시간 데이터 수집과 스트리밍을 대폭 간소화한다.
아마존 EMR(Amazon EMR)은 기업 고객이 기본 인프라를 프로비저닝, 관리, 확장하지 않고도 아파치 스파크(Apache Spark), 하이브(Hive), 프레스토(Presto)와 같은 오픈소스 빅 데이터 프레임워크를 사용하여 분석 애플리케이션을 실행할 수 있는 서버리스 옵션을 제공한다.
라울 파탁(Rahul Pathak) AWS 분석 담당 부사장은 “워크로드의 모든 측면을 세밀하게 제어하고 싶어하는 고객이 있는 반면 분석 인프라 관리에서 추측 작업을 제거하여 조직이 더 민첩하게 이동하고 분석 사용을 확장할 수 있기를 기대하는 고객들도 있다”며 “AWS는 세 가지 인기 있는 분석 서비스에 대한 서버리스 버전을 제공함으로써 기업 고객이 분석 인프라 관리의 복잡성을 줄일 수 있도록 돕고자 한다”고 말했다.
이어서 “이를 통해 기업 고객은 인프라를 현대화하고 다양한 엔드포인트에서 방대한 양의 데이터를 한층 간편하고 비용 효율적으로 통합할 수 있다”며 “이제 기업 고객은 규모에 관계없이 분석 워크로드를 실행하고 인프라 관리에 대한 부담 없이도 필요로 하는 이용자 및 애플리케이션에 신속하게 통찰력을 제공할 수 있게 되었다”고 전했다.
AWS 고객은 데이터 웨어하우징을 위한 아마존 레드시프트, 실시간 데이터 스트림 처리를 위한 아마존 MSK, 아파치 스파크, 하이브, 프레스토, 기타 오픈 소스 빅데이터 프레임워크 실행을 위한 아마존 EMR을 포함하여 다양한 목적에 맞게 구축된 분석 서비스를 사용하여 데이터 기반 의사 결정을 내린다. 이러한 서비스는 다양한 사용 사례에 대한 강력한 분석 기능을 제공하지만 AWS 분석 서비스의 이점을 활용하면서 기본 클러스터나 서버 관리 방법을 배우는데 시간을 들이고 싶지 않은 고객 또한 있다.
AWS는 인프라 확장 및 관리의 복잡성을 제거하기 위해 2014년 서버리스 이벤트 기반 컴퓨팅 개념을 도입했다. 이후 많은 고객이 서버를 구성, 확장 또는 관리하거나 컴퓨팅 인스턴스를 프로비저닝하거나 애플리케이션의 최대 용량에 적합한 스토리지가 필요 없는 AWS 서버리스 기술을 채택해 왔다.
새롭게 발표된 신규 서버리스 옵션은 이러한 기능을 AWS 분석 엔진으로 확장하여 리소스를 자동으로 추가하거나 제거하여 모든 규모의 데이터 분석 요구 사항을 충족하는 알맞은 용량을 제공한다. 이는 기업 고객이 클러스터를 적절한 크기로 조정하거나 최대 용량을 위해 초과 프로비저닝을 해야 하는 부담을 덜어주므로 시간을 절약하고 비용을 최적화하는 것이 가능하다.
또한 이번 발표를 통해 기업 고객은 서버리스의 자동 프로비저닝, 온디맨드 확장, 사용한 만큼만 지불하는 요금제를 활용하여 비용을 절감하고 보다 많은 사용자에게 분석을 확장함으로써 AWS 분석 서비스를 신속하고 간편하게 시작할 수 있다.
아마존 레드시프트 서버리스를 사용한 서버리스 데이터 웨어하우스: 오늘날 수만 기업 고객이 매일 아마존 레드시프트로 2엑사바이트가 넘는 데이터를 집합적으로 처리하고 있다. 아마존 레드시프트는 다른 엔터프라이즈 클라우드 데이터 웨어하우스 대비 최대 3배 더 우수한 가격 대비 성능과 최대 10배 더 뛰어난 쿼리 성능을 제공하여 고객에게 훨씬 낮은 비용으로 보다 빠른 데이터 분석을 제공한다.
새로운 아마존 레드시프트용 옵션을 사용하면 클러스터를 설정, 관리 또는 확장할 필요 없이 데이터에서 더 쉽게 통찰력을 신속하게 도출하는 것이 가능하다. 현재 자체 아마존 레드시프트 클러스터를 관리하는 고객은 애플리케이션 변경 없이도 아마존 레드시프트 콘솔이나 API(애플리케이션 프로그래밍 인터페이스)를 사용하여 새로운 서버리스 옵션으로 쉽게 이동할 수 있다. 아마존 레드시프트의 새로운 서버리스 옵션에 대한 자세한 내용은 이곳에서 확인할 수 있다.
아마존 MSK 서버리스를 통한 서버리스 데이터 스트리밍: 오늘날 점점 더 많은 기업들이 IoT 디바이스, 웹 사이트 클릭스트림, 데이터베이스 로그, 동적 데이터가 지속적으로 생성되는 기타 여러 소스에서 실시간 데이터 스트림을 캡처 및 분석하기 위해 아파치 카프카를 채택하고 있다.
클러스터를 자동으로 구축, 관리, 확장하는 아마존 MSK 서버리스를 활용하는 고객은 이제 더는 용량 계획이나 예측할 수 없는 워크로드에 대해 걱정할 필요가 없다. 아마존 MSK 서버리스를 시작하려면 아마존 MSK 콘솔에서 클러스터를 생성하고 안전한 비공개 아마존 카프카 엔드포인트를 설정한 다음 신규 또는 기존 아마존 카프카 클라이언트를 이용해 데이터를 스트리밍하기만 하면 된다. 아마존 MSK 서버리스에 대한 자세한 내용은 이곳에서 확인할 수 있다.
아마존 EMR 서버리스를 통한 서버리스 빅 데이터 분석: 수만 명의 고객이 아마존 EMR로 대규모 분산 데이터 처리 작업, 대화형 SQL 쿼리 및 기계 학습 애플리케이션을 위해 아파치 스파크, 하이브, 프레스토처럼 오픈 소스 프레임워크를 실행한다. 고객이 실행을 위한 프레임워크를 지정하기만 하면 아마존 EMR 서버리스는 워크로드 요구 사항 변화에 따라 컴퓨팅 및 메모리 리소스를 프로비저닝, 관리, 확장한다.
또한 기업 고객은 단순히 오픈 소스 프레임워크를 선택하고 아마존 EMR API, AWS 커맨드 라인 인터페이스(AWS CLI, AWS Command Line Interface) 또는 AWS 매니지먼트 콘솔(AWS Management Console)로 작업을 제출함으로써 아마존 EMR 서버리스를 시작할 수 있다. 아마존 EMR 서버리스에 대한 자세한 내용은 이곳 에서 확인할 수 있다.
암 치료제 공급 기업 로슈(Roche)의 수석 클라우드 플랫폼 및 ML 엔지니어인 야닉 미스텔리 박사(Dr. Yannick Misteli)는 “아마존 레드시프트 서버리스는 클러스터를 관리할 필요 없이 데이터를 관리하고 수요를 충족할 수 있는 적절한 양의 용량을 프로비저닝하여 비용을 최적화하는 데 도움이 된다”며 “아마존 레드시프트 서버리스는 운영 부담을 줄이고 비용을 낮추며 로슈의 시장 진출(Go-to-Market) 도메인 확장을 가능케 하며, 이러한 단순화는 로슈의 매끄럽고 신속한 온보딩과 다양한 분석 중심 사용 사례 지원에 기여하는 획기적인 변화”라고 했다.
라이엇 게임즈의 웨슬리 커 수석 데이터 과학자는 “AWS의 아마존 MSK를 활용하여 하루에 약 20테라바이트의 데이터를 수집하고 있기 때문에 데이터 생성 후 쿼리 시간을 줄이는 것이 중요하다”며 “이제는 아마존 MSK를 통해 자체적으로 아파치 카프카를 실행하지 않고도 데이터를 생태계로 스트리밍할 수 있는 메커니즘을 확보하게 되었다”고 말했다.
이어서 “아마존 MSK 서버리스를 사용하면 별도 확장 없이도 수요 변화에 대처할 수 있으므로 운영을 더욱 간소화할 수 있다. 그 결과 우리 개발자들은 아마존 카프카 확장에 대한 부담을 줄이고 전 세계에서 최고의 게임 경험을 제공하는 데 더 집중할 수 있게 되었다”고 덧붙였다.
남혁우 기자(firstblood@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.