AIOps를 통해 트러블슈팅하기

IT의 궁극적인 목표는 가능한 최고의 사용자 경험을 제공하는 동시에 조직이 최선을 다하도록 돕는 것입니다.
따라서 매년 IT팀은 비전과 전략을 지원하는 작업에 집중하고 있습니다.

그러나 2021년 Aruba에서 실시한 설문조사에 따르면, 응답자들은 여전히 단순 문제 해결과 같은 일상적인 작업에 자신의 시간 절반 이상을 보내고 있다고 합니다. 그 중 44%는 데이터 수집과 문제 원인 분석과 같은 트러블슈팅이 대부분의 시간을 차지한다고 합니다.
이러한 곳에 시간을 허비하기 때문에 필요한 것을 하기에 시간이 부족하고 효과적이지도 못한 상황입니다.

좀 더 예를 들어 아래 두 가지 시나리오를 비교해보겠습니다.

  1. 관리자가 전통적으로 문제를 해결하는 방법 vs AI 및 자동화를 사용하여 문제를 해결하는 현대적인 방법
  2. AIOps가 가장 중요한 비즈니스 이니셔티브에 집중하도록 돕는 방법

기존 방식으로 트러블 슈팅하기

“사용자가 보고한 Wi-Fi 이슈를 네트워크 관리자는 어떻게 해결할까요?”

문제를 해결하기 위해서 먼저 데이터에서부터 시작합니다.

  1. 사용자로부터 아래 데이터를 수집
    • 이슈의 종류: 연결(Connectivity) 이슈? 성능 이슈? 단일 vs 여러 애플리케이션? 등등..
    • 문제 있는 사용자 정보: 특정 한 명에게서만 발생? 여러 명에게서 발생? 특정 장소? 모든 곳에서?
    • 언제 이슈가 발생했는지: 방금 발생? 며칠 전부터? 굉장히 오래전부터?
    • 네트워크의 데이터 활용: 최근 변경사항이 있는지? 로그는 있는지?
  2. 우선 정보가 수집 되면, 트러블 슈팅을 시작
  3. OSI 모델을 염두에 두고 각 계층에서 수집한 데이터를 분석하면서 각 계층을 차례대로 확인
    • Layer 1: Packet Snipper나 Spectrum Analyzer와 같은 도구를 사용하여 무선상의 패킷을 캡쳐하고 스펙트럼을 분석합니다. 관리자가 현장에서 분석을 수행해야 하는데 만약, 글로벌 환경이라면 원격에서 이러한 작업을 수행하기 어렵습니다.
    • Layer 2: 포트 미러링을 사용하여 모든 트래픽을 Lab으로 보냅니다. 포트상의 오류라든가 Port Flapping과 같은 문제들을 확인할 수 있습니다. 하지만 원격에서 트래픽을 미러링하여 보내는 것은 굉장한 부담입니다.
    • Layer 3/4: 라우팅 관련된 다음 Layer로 이동하려면 관리자가 ping, trace route 등의 명령어를 사용하여 Authentication(인증), Reachability(도달성), Availability(가용성) 관련 테스트를 수행하고, 문제의 원인이 될 수도 있는 라우팅 프로토콜이나 IP주소 스키마와 관련된 구성 변경을 확인해야 합니다.
    • Layer 7: 관리자는 tcpdump와 같은 명령을 사용하여 심층 패킷 검사를 수행하고 nslookup 명령을 통해 DNS 관련 문제를 식별하거나, 아니면 다른 프로토콜과 관련된 문제를 식별하기 위해 많은 테스트를 수행해야 합니다. 뿐만 아니라 TCP 데이터 덤프를 살펴보고 분석하기 때문에 문제 해결에 많은 시간이 소요됩니다.
  4. 이러한 프로세스는 관리자가 문제 원인을 찾거나 제조사 또는 관련된 부서에서 에스컬레이션하여 도움을 요청할 때까지 계속될 수 밖에 없습니다.

트러블 슈팅의 프로세스는 아래 다이어그램과 같이 진행됩니다. 이런 환경에서 이슈를 해결하기 위해서는 문제가 발생한 위치와 시스템에 자동화가 추가되었는지 여부에 따라 적게는 30분에서부터 5시간 이상도 걸릴 수 있습니다.

Wi-Fi troubleshooting workflow

이렇게 문제 해결하기 위한 기존의 방식들은 시간과 노력, 리소스 낭비를 초래합니다. 그렇다면 AIOps를 활용한 트러블 슈팅은 어떻게 다른지 한 번 살펴볼까요?

Aruba AIOps를 사용하여 트러블 슈팅하기

  1. 5천5만개 이상의 클라이언트 단말과 Aruba Central에서 관리하는 100만개 이상의 네트워크 장치로부터 여러 텔레메트리 정보를 자동으로 수집합니다. 즉, 수십 억개 이상의 기록을 분석한다는 것을 의미합니다.
  2. 머신 러닝 학습 모델은 정상 작동하는 환경의 데이터를 기반으로 네트워크 기준선(Baseline)을 만들고 현재 상황과 비교하여 이상 징후를 찾습니다. Network Insight는 연결 상태, 인증, DNS나 DHCP 장애, 무선 네트워크 커버리지, 케이블 파손 등과 같은 유선과 무선, WAN과 관련된 문제를 찾아냅니다.
    현재 Aruba Central에서는 다양한 이슈사항에 대한 인사이트를 보여주고 있습니다.
  3. 이러한 인사이트는 발견된 각 문제의 시간, 사이트, 네트워크 장치 유형, 클라이언트 단말 등 전반적인 영향을 고려합니다.
  4. 수집된 기록 데이터를 기반으로 문제 해결 방법에 대한 권장 사항을 제공합니다.
  5. 이를 통해 트러블 슈팅 시간을 최대 90%까지 줄일 수 있습니다.

Aruba의 AIOps는 여기서 끝이 아닙니다. 목표는 관리자 인지하거나 네트워크 사용자에게 영향을 미치기 전에 모든 문제를 식별하는 것입니다. Aruba는 관리자를 대신하여 수동적인 개입 없이 스스로 문제를 해결하도록 지원하고 있습니다.

Aruba의 AIOps와 관련하여 보다 자세한 정보는 아래 사이트에서 확인 가능합니다.
https://www.arubanetworks.com/solutions/aiops/

Aruba Central에 연결되는 고객의 수는 점점 늘어나고 있습니다. 또한 엣지 영역에서 생성되는 데이터 역시 기하급수적으로 늘어나고 있습니다. 데이터의 양과 질 모두 늘어남에 따라 Aruba의 AIOps의 능력과 정확도는 크게 증가하고 발전해 나갈 것입니다.

Leave a Reply

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.