이건상 콘텐츠웨이브 팀장이 <디지털데일리>를 만나 온라인동영상서비스(OTT) 특화 옵저버빌리티 전략을 이야기하고 있다.
[사진=GS네오텍] [디지털데일리 김보민기자] 언제 어디서나 영화, 드라마, 예능 프로그램을 볼 수 있는 온라인동영상서비스(OTT)는 '연중무휴'가 곧 경쟁력이다.
사람이 밀집한 출퇴근길 지하철부터 잠들기 전 홀로 누운 침대까지, OTT는 시간과 장소를 가리지 않고 늘 재생돼야 하는 서비스다.
그러나 인기 콘텐츠가 공개되는 날에는 이러한 기본 가치를 구현하기가 까다로워진다.
유명 아이돌이 신곡을 공개하는 생중계 콘서트라면 난도는 더 높아진다.
단순히 사용자가 많이 몰릴 때뿐만 아니라 트래픽 등 시스템상 변화가 가장 많이 생길 때 서비스가 멈출 위험도 있다.
토종 OTT '웨이브' 운영사 콘텐츠웨이브는 연중무휴를 현실화하기 위해 서비스 모니터링과 위험관리를 담당하는 SRE(사이트신뢰성엔지니어링)를 강화했다.
그 결과 무장애 365일 을 달성하는 쾌거도 이뤘다.
비결은 무엇일까. 웨이브는 글로벌 모니터링 플랫폼 '데이터독(Datadog)'을 도입한 이후, 내부 옵저버빌리티 판도가 달라졌다고 이야기했다.
옵저버빌리티는 모니터링뿐만 아니라 서비스와 시스템 내부에 무슨 일이 일어나고 있는지 파악하도록 돕는 체계다.
문제 징후를 감지해 원인을 파악하고 장애를 막는 데 특화돼 있다.
<디지털데일리>는 콘텐츠웨이브 서비스모니터링 & 리스크팀(Service Monitoring & Risk Team)을 이끄는 이건상 팀장을 만나 OTT 환경에 필요한 옵저버빌리티 전략과 데이터독 강점을 들어봤다.
Q. 웨이브 SRE는 어떻게 탄생했나. A. 4년 전만 하더라도 장애가 참 많았다.
그땐 사업이 활발히 운영되던 시점이라 예기치 못한 시점에 수시로 배포가 진행되거나 검증 절차를 통제하지 못하던 경우도 있었다.
문제점을 포착해 관리를 시작하자 장애가 많이 줄었고, 관제와 모니터링까지 강화하면서 장애가 계속 줄어들었다.
그리고 관제팀이 탄생한 이후 무장애 365일을 처음 달성했다.
서비스가 죽지 않고 365일 동안 쭉 이어져 왔다는 것 자체가 상징적인 일이다.
하지만 그럼에도 자잘한 일은 계속 일어났고, 줄여보려 했지만 쉽지 않았다.
또 한 번 체제와 구조를 바꿔야 한다는 고민이 커졌고, 그 결과 2024년 SRE를 만들기 시작했다.
웨이브 SRE 도메인은 서비스 신뢰성을 확보해 고객 경험을 보장하는 미션을 수행하고 있다.
실시간 모니터링을 통해 장애 예방과 선제적 대응을 하고, 장애가 발생할 경우 신속한 복구로 고객 영향을 최소화하고 있다.
포스트모템(장애가 난 뒤 원인과 재발 방지책을 마련하는 과정)을 통한 서비스 개선에도 집중하고 있다.
Q. OTT서비스 특성상 신경 쓰는 부분이 있나. A. 예측 불가능한 트래픽을 대응하는 것이 중요하다.
인기 드라마나 뮤직어워드를 중계할 때 트래픽이 평소 대비 5배 이상 급증하는데, 이때 단 1분의 버퍼링도 고객 이탈로 직결된다.
스마트폰, 태블릿, PC, 스마트TV 등 다양한 디바이스에서 동시에 끊김 없는 스트리밍을 보장해야 한다.
보통은 '사용자가 많이 몰릴 때'가 위험하다고 생각하는데, 시스템적으로 보면 그렇지 않다.
결국 '변화가 가장 많을 때'가 위험하다.
예를 들어, 1분당 1만명씩 천천히 늘어나 100만명까지 올라가는 것은 전혀 부담이 없지만, 10만명이 한번에 들어오면 이야기가 달라진다.
똑같은 방식으로 10만명이 갑자기 빠져나가는 것도 위험하다.
이러한 부분을 명확하게 파악해내는 것이 어렵다.
때문에 이를 예측하는 작업이 필요하다.
정보기술(IT) 회사는 쿠버네티스 환경을 갖추고 있는데, 자연적으로 시스템이 늘어나고 줄어들곤 한다.
그 정도 숫자는 어려움이 없지만, 특히 생중계(라이브)의 경우에는 확실히 예측이 어렵다.
웨이브는 에러버짓(Error Budget) 관리를 통해 서비스수준목표(SLO) 99.95%를 유지하면서, 동시에 신규 서비스 출시와 혁신을 지속할 균형을 추구하고 있다.
◎에러버짓 : 서비스가 정해둔 SLO안에서 '얼마나 오류가 나도 괜찮은지' 정해둔 허용치. Q. 그만큼 옵저버빌리티 도입이 중요했을 것 같다.
다양한 기업 중 데이터독을 택한 이유는. A. 멀티클라우드 친화성, 확장성, 보안 통합, 비용 효율성, 표준화 가능성 등 5가지 기준을 두고 고민했다.
웨이브는 애저(Azure), 아마존웹서비스(AWS), 구글클라우드플랫폼(GCP)를 동시에 운영하는 멀티클라우드 환경을 갖고 있다.
기존에는 자빅스(Zabbix), 그라파나(Grafana), 센트리(Sentry), ELK 등 10여개 도구가 파편화돼 있었고 이로 인한 부서 간 정보 불일치로 소통은 물론 협력도 어려웠다.
데이터독은 멀티클라우드 환경을 진짜로 통합할 수 있었다.
단일 대시보드에서 Azure, AWS, GCP의 모든 인프라, 애플리케이션, 로그를 실시간으로 볼 수 있다는 것은 다른 솔루션과 비교할 수 없는 강점이었다.
보안 요구사항을 충족한다는 점도 결정적이었다.
보안정보및이벤트관리(SIEM), 클라우드워크로드보안(CWS), 클라우드보안태세관리(CSPM)을 통합 제공해 모니터링과 보안을 단일 플랫폼에서 관리할 수 있었다.
총소유비율(TCO) 측면에서도 압도적이었다.
초기 라이선스 비용은 있었지만 10개 도구 관리 비용, 중복 로그 스토리지 비용, 인력 운영 비용을 종합하면 오히려 비용을 절감할 수 있었다.
구글 SRE가 제안하는 '4가지 황금 신호(4 Golden Signals)'를 바로 적용할 수 있는 표준화된 프레임워크를 제공한 점도 중요했다.
◎구글 '4가지 황금신호' : 응답 시간, 트래픽, 오류율, 리소스 포화도를 포함한 지표. 모니터링과 옵저버빌리티의 기본 뼈대로 여겨진다.
Q. 데이터독 도입 전에는 어떤 한계가 있었나. A. 과거에는 인기 콘텐츠를 공개하는 시점마다 극도로 긴장된 상황을 겪어야 했다.
모든 직원이 밤 9시부터 서비스에 직접 접속해 모니터링하는 전사 동원 체계에 있었고, 시스템 증설 결정도 지표화하긴 했지만 여러 도구에 데이터가 분산돼 있어 베테랑 엔지니어 몇 명의 경험과 '감'에 의존할 수밖에 없었다.
한 쪽에서는 실시간으로 중앙처리장치(CPU)와 메모리를 보며 쿠버네티스 파드(Pod)를 수동 증설하고, 다른 곳에서는 애플리케이션프로그래밍인터페이스(API) 응답 속도와 화면 로딩 시간을 감으로 판단했다.
담당자가 로그를 감시하며 API 응답 시간을 측정하려 했지만 트래픽 폭증 시 초당 수만 건 로그가 실시간으로 쏟아져 핵심 문제를 찾는 것은 거의 불가능했다.
같은 시간에도 누군가는 느리고, 누군가는 괜찮다는 주관적 상황이 엇갈리면서 정작 어디가 병목인지 진단하는 것조차 쉽지 않았다.
Q. 도입 이후에는 어떤 변화가 생겼나. A. 경험에 의존한 수동적인 대응에서 데이터에 기반한 선제적 준비 체계로 전환할 수 있었다.
인기 콘텐츠 시청자 수와 시스템 부하 수준의 상관관계를 정량적으로 분석할 수 있게 됐다.
단일 대시보드에서 동시접속자수(CCU), 콘텐츠별 시청률, 시스템 리소스를 시간 축으로 볼 수도 있었다.
"이 드라마가 공개되면 CCU 15만일 때 시스템 자원 부하 수준과 가용 수준은?"이라고 물을 때 데이터를 확보할 수 있게 된 것이다.
데이터독은 모든 데이터를 한 곳에 모으고 상관관계를 자동 분석하기 때문에 누구나 데이터 기반 의사결정을 할 수 있다.
전사 동원 모니터링도 사라졌다.
수십 명이 밤 9시에 접속해 "느린 것 같다, 괜찮은 것 같다"고 주관적으로 판단하던 시대는 끝났다.
이제 SRE 당직 2~3명 만이 단일 통합 대시보드를 보면 된다.
모든 지표가 정량화돼 객관적으로 표시되고, 정교해진 모니터링 체계가 시스템 모든 계층을 자동 추적한다.
상관관계까지 분석하기 때문에 소수 인원으로 전체 서비스를 파악하고 대응할 수 있게 됐다.
Q. 구글 황금 지표 외 추가로 검토 중인 것이 있나. A. 버퍼링 비율(RUM으로 실제 사용자 경험 측정)과 디바이스별 성능(스마트TV·모바일·PC 각각 모니터링)이 있다.
가장 중요한 것은 응답 시간, 트래픽, 오류율, 리소스 포화도를 비롯한 모든 지표가 하나의 대시보드에서 상관관계를 가지고 표시된다는 점이다.
오류율이 증가하면 어떤 API, 클라우드 리전에서 어떤 배포 이후 발생했는지 즉시 드릴다운(Drill Down) 할 수 있다.
[사진=GS네오텍] Q. 데이터독 도입 과정에서 파트너사 GS네오텍은 어떤 도움을 줬나. A. GS네오텍은 단순한 리세일즈가 아닌 기술 파트너로서 웨이브의 여정을 함께 걸었다.
웨이브에 맞는 기술지원으로 완성도 높은 모니터링을 시작할 수 있었다.
특히 멀티클라우드 환경에서 에이전트 설치와 로그 수집 설정이 복잡했는데, 클라우드별 최적 구성을 안내해 시행착오를 최소화했다.
개념검증(PoC) 과정을 2개월 만에 완성했다.
사실 데이터독을 도입할 때 비용에 대한 우려가 없던 것은 아니다.
GS네오텍은 로그 샘플링 전략, 매트릭 수집 최적화 등 절감 방법을 컨설팅해 비용 효율화 방법을 제안했다.
도입 후에도 정기적인 리뷰 미팅을 통해 신규 기능 소개, 버전 업그레이드 지원, 트러블슈팅을 지원받고 있다.
최근에는 데이터독 신규 기능 '클라우드 비용 관리(Cloud Cost Management)'를 도입해 핀옵스(FinOps) 체계를 구축하는 과정에서도 GS네오텍 안내를 받고 있다.
이러한 지원이 없었다면 데이터독 도입 투자수익률(ROI)를 2년 미만으로 달성하기 어려웠을 것이다.
Q. 2026년이 다가오고 있다.
옵저버빌리티 영역에 더 강화하고 싶은 부분이 있다면. A. 인공지능(AI) 예측적 운영을 구현하고자 한다.
현재는 반응적 모니터링으로, 문제가 발생하면 빠르게 대응하도록 체제를 강화하고 있지만 앞으로는 예측 운영으로 전환하고 싶다.
데이터독의 '워치독(Watchdog)'과 머신러닝(ML) 기능을 고도화하고자 한다.
또한 인프라와 애플리케이션 중심에서 RUM(Real User Monitoring)을 확대해 실제 사용자들이 느끼는 경험을 정량화하고싶다.
지역, 디바이스, 네트워크별 사용자경험(UX) 분석을 세분화하고 싶다.
멀티클라우드 환경에서 비용을 최적화하는 것 또한 영원한 과제다.
데이터독 클라우드비용관리(CCM)를 활용해 비용 효율화를 강화하려 한다.
데브섹옵스(DevSecOps)의 '보안'도 강화하고 싶다.
현재 SIEM, CWS, CSPM을 사용 중이지만 나아가 애플리케이션보안모니터링(ASM)으로 런타임 보안 위협을 실시간 차단하고, 정적코드분석(SCA)을 확대하고자 한다.
공급망 보안, 컴플라이언스 자동화도 숙제다.
웨이브는 데이터독, GS네오텍과 함께 단순 모니터링을 넘어 진정한 옵저버빌리티 문화를 정착해 고객이 언제 어디서나 끊김 없는 콘텐츠를 즐길 수 있도록 하겠다.
무장애 365일…웨이브는 어떻게