[이코노믹리뷰=최진홍 기자] 아마존의 클라우드 서비스 AWS가 22일 국내에서 1시간 가량 서비스 중단이 되는 사태가 벌어졌다. 암호화폐 거래소 업비트, 빗썸, 코인원을 비롯해 소셜커머스 쿠팡, O2O 플랫폼 배달의민족과 야놀자, 여기어때 등 국내를 대표하는 앱 서비스들도 줄줄이 멈췄다.

심지어 금융권 앱 서비스도 멈춰 서울 리전의 문제로 확인된 가운데 일각에서는 ‘외산 서비스의 한계’라는 지적도 나오지만, AWS의 독보적인 기술력을 고려하면 지나치게 배타적인 해석이라는 반론도 나온다. 다만 AWS의 공식 발표가 늦어지는 대목은 문제다.

▲ AWS 리전과 가용영역(주황색), 그리고 추가될 리전(파란색). 출처=AWS

생활밀착형 서비스가 멈췄다

클라우드는 일종의 기반 플랫폼이며, 모든 서비스를 구동할 수 있게 만드는 핵심이다. 최근 업계가 전통적인 데이터 센터 일변도에서 최근 클라우드로의 이행이 빠르게 감지되는 이유다.

실제로 4차 산업혁명의 핵심은 빅데이터의 확보와 운용, 분석, 활용에 있다. 초연결 생태계가 원만하게 유지되려면 방대한 데이터가 추출되어 각 연결의 생태계에 유기적인 영향을 미쳐야 하기 때문이다. 데이터의 확보부터 활용에 이르는 클라우드 플랫폼이 중요한 이유다. 클라우드는 초연결 플랫폼의 전제조건이자, 실질적인 비즈니스 모델을 끌어내는 핵심이다.

아마존의 클라우드 서비스인 AWS는 글로벌 시장 1위를 달리고 있다. 컴퓨팅, 스토리지, 네트워킹, 데이터베이스, 분석, 애플리케이션 서비스, 배치, 관리, 개발자, 모바일 서비스, 사물인터넷(IoT), 인공지능(AI), 증강과 가상현실, 보안, 하이브리드와 엔터프라이즈 애플리케이션에 걸친 125여개의 서비스를 제공하고 있다. 한국을 비롯해 미국, 브라질, 유럽, 일본, 싱가포르, 호주, 인도, 중국 등에 위치한 전 세계 18개의 리전(Region)과, 1개의 로컬 리전(Local Region), 그리고 55개의 가용 영역(Availability Zone)을 통해 제공되고 있으며 2011년 80 건 이상, 2012년 160건, 2013년 280건, 2014년 516건, 2015년 722건의 주요 서비스와 기능을 발표했으며 2016년에는 1017건, 2017년에는 1430개의 새로운 서비스와 기능을 출시했다.

AWS의 기술력에는 이견의 여지가 없지만, 22일 서울 리전 서버에 문제가 생겨 이를 이용하는 기업의 서비스가 먹통이 되는 충격적인 사태가 발생했다. 오전 9시 경 시작된 서버 마비는 약 1시간 이어졌으며 쿠팡과 암호화폐 거래소를 비롯해 많은 앱 서비스들이 멈추고 말았다.

AWS는 공식적인 발표를 하지 않고 있으나, 업계에서는 서울 리전 DNS 오류 가능성에 주목하고 있다. AWS EC2 서울 리전 내부에서 DNS 변환이 실패했고, 그 장애가 모든 파생 서비스로 연쇄작용을 일으켰을 가능성이 높다는 뜻이다. 이번 서버 마비 사태가 국내에만 집중된 이유다.

▲ 클라우드의 중요성이 부각되고 있다. 출처=갈무리

막을 수 없었나?

AWS 자체에서 문제가 발생하면 AWS의 서비스를 이용하는 기업들은 이번 서버 마비 사태의 영향을 피할 길이 없다. AWS를 활용하는 서비스 관계자는 “클라우드에 문제가 생기면 모든 서비스가 정상적으로 작동하지 않는다”면서 “서비스 기업이 문제를 해결할 수 있는 방법은 없다”고 말했다. 클라우드의 존재의의와 인프라 지속 가능성에 대한 논의가 필요해질 전망이다.

다만 멀티리전 이중화를 하면 AWS 쇼크를 막을 수 있다. 이번 사태가 서울 리전에서 발생했기 때문에, 만약 서울 리전을 활용하면서 다른 지역의 리전을 공동으로 사용했다면 서비스 먹통 현상을 피할 수 있다는 뜻이다.

문제는 멀티리전 이중화의 유지비용이다. 하나의 리전, 특히 국내의 경우 서울 리전을 사용하는 경우와 서울은 물론 다른 지역의 리전을 동시에 사용하는 것은 비용 차이가 크다. AWS가 큰 문제를 일으키지 않은 상태에서 국내 기업이 서울 리전 외 추가 리전을 활용, 멀티리전 이중화를 선택하기는 현실적으로 어렵다는 말이 나온다.

멀티리전 이중화도 100% 보안책이 아니라는 말도 나온다. 웹툰 플랫폼 레진 코믹스의 경우 서울 리전을 포함해 다른 지역 리전을 동시에 사용하는 멀티리전 이중화를 택했으나 22일 오전 서비스를 일시 중단했다. 멀티리전 이중화도 상황에 따라 완벽한 대책이 아니라는 뜻이다. 레진코믹스는 오전 “임시 방식을 통해 이용이 가능하도록 한 상태이지만 완벽한 해결상태가 아니기에 불편함이 있으실 수 있으며 앱 서비스는 이용이 가능하지 않습니다”는 공지를 내보냈다.

하이브리드 클라우드에 대한 논의도 나오고 있다. 기업이 시작부터 하이브리드 클라우드에 집중했다면 이번 사태의 후폭풍을 피할 수 있기 때문이다. 그러나 아직 클라우드 업계에서는 하이브리드 클라우드 방식에 대한 이견이 존재하며, 역시 비용과 인프라 구축 등의 문제로 논의할 시간이 필요하다는 말이 나오고 있다.

▲ 레진코믹스의 공지. 출처=갈무리

AWS의 후속조치는 문제없나?

AWS가 서버 다운 후 보여준 후속조치를 두고 업계에서는 ‘아쉽다’는 반응이 나오고 있다. 사태가 벌어진 후 이를 수습하는 과정에서 일부 미진한 모습을 보였기 때문이다.

소통의 문제다. AWS는 서버 이상을 감지한 직후 AWS를 이용하는 기업들에게 제대로 공지를 하지 않은 것으로 확인됐다. 암호화폐 거래소 업비트는 “현재 서버 장애(아마존 내부 DNS 이슈)로 인해 업비트 서비스를 일시적으로 이용하실 수 없습니다”라면서 “사전에 아마존으로 부터 관련 안내를 받지 못한 상황이었기 때문에 업비트 서비스에 장애가 발생한 뒤 아마존과 연락을 통해서 내용 확인을 할 수 있었습니다”라는 공지를 냈다.

AWS와 사전교감이 없었다는 뜻이다.

사태가 일단락 된 후, 문제의 정확한 원인에 시선이 집중되는 상황에서 AWS가 침묵하고 있는 대목도 문제다. 이번 사태의 배후에 해커가 있다는 등, AWS의 침묵이 길어질수록 업계의 오해만 커지는 상황이다. AWS 코리아는 “명확한 사고 원인을 파악하고 있으며, 곧 입장이 정리될 것”이라고 말했다.

▲ AWS 쇼크가 발생했다. 출처=AWS

이 참에 AWS 밀어내자?

이번 사태는 AWS가 국내 인터넷 사업 대부분에 큰 영향을 미치고 있다는 점을 보여줬다. 이런 상태에서 AWS가 서버 사고를 일으키자 업계 일각에서는 “외국기업인 AWS 의존은 위험하다는 것이 증명됐다”는 말이 나오고 있다. AWS도 곤혹스럽다. 국내 민간 시장을 넘어 공공 시장 개척을 위해 속도를 내던 상황에서 이번 사태가 대형 악재로 불거졌기 때문이다.

업계에서는 그러나 냉정한 상황 판단이 필요하다는 말이 나온다. 일부 국내 클라우드 기업들이 워크로드 이중화 등 다양한 안전장치를 갖추고 있는 것은 사실이며, AWS가 미국 기업이기 때문에 핵심적인 클라우드 인프라를 100% 의존하는 것은 지적도 타당하지만 문제는 현실성이다. 구글 클라우드처럼 서울에 리전이 없는 상태라면 모르지만, AWS는 서울 리전을 통해 착실하게 시장의 선택을 얻어왔기 때문에 그 저력을 무시한다면 오히려 지나친 ICT 배타주의로 흐를 수 있다는 경고가 나온다.

글로벌 OTT 서비스 넷플릭스가 국내 콘텐츠 사업의 해외 판로에 도움이 되는 것처럼, AWS를 활용하는 기업들은 리전이 설치된 세계 어디에서도 비슷한 서비스를 제공할 수 있는 저력도 가질 수 있다. AWS의 다양한 강점을 무시하고 ‘이번 기회에 미국 기업 AWS를 배척하자’는 의식이 팽배해지는 것은 국내 IT 산업계에도 부정적인 영향을 미칠 가능성이 높다는 말이 나온다.

업계 관계자는 “AWS가 서버 이상 사태 자체에 대해서는 책임을 통감해야 한다”면서 “이상현상을 감지하고 최선을 다해 복구를 마치는 한편 비교적 단기간인 1시간 만에 문제를 해결하는 등, AWS의 위기관리 능력도 여전하다는 점도 증명됐다”고 말했다.