데이터센터 설계는 서버의 NIC 카드부터 시작해 업링크와 스위치까지 여러 겹의 중복성(Redundancy)을 포함합니다.
이러한 Redundancy는 필수적이지만, 동시에 네트워크 루프(Loop), 브로드캐스트 스톰, 네트워크 중단의 위험을 높입니다.
오늘은 이러한 위험을 막고 고성능의 중복 L2 데이터센터를 구축하기 위한 핵심 기술들을 배워보겠습니다.
1. 통합 코어(Collapsed Core) L2 데이터센터의 구조
데이터센터는 고가용성을 위해 스위치와 링크의 중복성을 요구하며, 이로 인해 물리적인 연결 구조는 복잡해집니다.
통합 코어 L2 토폴로지에서 VSX(Virtual Switching eXtension)와 LAG(Link Aggregation Group) 기술이 이 복잡성을 단순화하는 핵심 역할을 합니다.
VSX와 LAG를 통한 단순화
- VSX: 한 쌍의 스위치가 Layer 2에서 단일 스위치처럼 작동하여 장치들을 하나의 논리적 엔티티로 통합합니다.
- LAG (Link Aggregation Group): 여러 물리적 링크를 하나의 논리적 링크로 묶습니다.
이러한 기술 조합의 이점은 다음과 같습니다.
- 고가용성 확보: 스위치나 케이블 하나에 장애가 발생하더라도, 네트워크에 접근할 수 있는 활성 경로를 유지합니다.
- 성능 향상: 여러 링크와 장치에 걸쳐 동시에 부하 분산(Load Balancing)을 허용하여 네트워크 성능이 향상됩니다.
- 논리적 토폴로지 단순화: 관리가 쉽고 오류 가능성이 줄어듭니다.

루프 방지 기술이 여전히 필요한 이유
VSX와 LAG 덕분에 네트워크가 단순해졌지만, 스패닝 트리 프로토콜(STP), 루프 보호(Loop-protect) 기술은 여전히 필요합니다.
케이블을 잘못 연결하거나 구성 오류 또는 외부 장치적인 문제 때문에 여전히 루프 방지 기술이 필요하게 됩니다.
2. 중복 서버 연결 옵션
서버를 네트워크에 연결할 때 링크 중복성과 성능을 고려해야 합니다.

| 연결 옵션 | 설명 | 중복성(Redundancy) | 권장 사항 |
| 싱글-홈드 서버 | 액세스 스위치에 단일 연결 | 없음 | 권장되지 않음 |
| 듀얼-홈드 스탠바이 NIC | NIC 티밍: 하나만 활성, 나머지는 대기 상태. | 링크 장애 시 대기 링크가 활성화됨. | |
| 듀얼-홈드 액티브/액티브 링크 | NIC 티밍: 두 개 이상의 연결을 동시에 사용 (부하 분산). | 중복성과 더 나은 성능을 제공. | 가장 권장되는 방식 (서버를 서로 다른 스위치에 연결하여 스위치 장애에 대비) |
블레이드 서버

블레이드 서버는 HPE Synergy와 같이 표준 NIC 대신에 내장 스위치를 사용하는 시스템을 말합니다.
이 스위치들은 단일 바이패스 역할을 하거나 고급 구성 및 기능을 제공할 수 있습니다.
Redundancy를 위해 내부 스위치를 Stacking하여 LAG를 구성하는 것이 좋습니다.
3. 링크 어그리게이션 그룹 (LAG) 상세
LAG는 대역폭을 늘리기 위해 여러 포트를 하나의 가상 링크로 묶는 방법입니다.

| LAG 유형 | 작동 방식 | 특징 및 권장 사항 |
| 정적(Static) LAG | 장치 간에 제어 정보 교환 없이 독립적으로 구성. | 권장되지 않음. 피어의 잘못된 구성을 감지하지 못해 임시 루프나 예상치 못한 동작을 유발할 수 있습니다. |
| 동적(Dynamic) LAG (LACP) | 802.3ad 표준. LACP Data Units를 교환하며 LAG를 설정/유지. | 권장되는 방식. 링크 장애를 감지하고, 포트 멤버가 같은 장치에 연결되었는지 확인하여 네트워크 문제 발생을 방지합니다. |
LACP Data Unit 메시지에는 다음 내용이 포함됩니다.
- System ID: 스위치 식별을 위한 고유 ID
- Operational Key: LAG를 식별하기 위한 고유값
LAG 인터페이스 요구 사항
동일한 LAG에 매핑되는 인터페이스는 다음 항목이 일치해야 합니다.
- 이중화 모드 (Duplex mode)
- 링크 속도 (Link speed)
- 미디어 (Media)
일치하지 않는 인터페이스를 LAG에 매핑하려고 하면 AOS-CX는 경고를 표시합니다.
예를 들어, 속도가 10Gb/s인 인터페이스 5는 기본 속도가 1Gb/s인 LAG10에 추가할 수 없습니다.AOS-CX에서 각 링크 집계 그룹은 최대 8개의 개별 포트를 가질 수 있습니다.
show capacities명령을 사용하여 스위치 용량을 확인하세요.
부하 분산 알고리즘 (Load Balancing Algorithm)
스위치는 해시 알고리즘을 사용하여 여러 물리적 인터페이스에 트래픽 부하를 분산합니다.
해시 알고리즘: 입력(x)을 넣으면 출력(y)을 얻지만, 출력을 보고 입력을 추론할 수 없는 단방향 함수(one-way function)입니다.
동일한 입력에는 항상 동일한 결과가 나옵니다.
입력값: 스위치는 패킷 헤더 정보를 해시 함수의 입력값으로 사용합니다.
- Layer 4 TCP/UDP 포트
- Layer 3 소스 및 목적지 IP 주소
- Layer 2 소스 및 목적지 MAC 주소

작동: 스위치는 해시 알고리즘을 통해 얻은 결과에 따라 해당 패킷이 사용할 멤버 포트를 결정합니다.
특정 출발지-목적지 조합을 가진 모든 패킷은 항상 동일한 물리적 포트를 사용하게 됩니다.
4. 루프 방지 및 STP 최적화
VSX와 LAG가 논리적 토폴로지를 단순화하더라도, 네트워크는 여전히 케이블링 오류나 잘못된 구성으로부터 보호되어야 합니다.
STP (Spanning Tree Protocol) 작동 개요

STP는 중복성을 유지하면서 루프가 없는 네트워크를 구축하고 유지하기 위해 개발되었습니다.
- 작동 방식: STP는 중복 링크를 자동으로 비활성화하여 루프 없는 토폴로지를 생성하고, MAC 테이블 불안정성을 방지합니다.
- 컨버전스: STP는 장애 발생 시 새로운 활성 링크 토폴로지를 향해 컨버전스합니다. 컨버전스란 네트워크 장치들이 새로운 네트워크 경로에 대해 모두 합의하는 것을 의미합니다.
- 루트 브리지: STP 도메인에서 하나의 스위치가 루트 브리지(Root Bridge)로 선출되며, 모든 경로는 이 루트 브리지로부터 성장합니다.
STP의 진화
| STP 버전 | 특징 | 주요 단점 및 발전 내용 |
| 802.1d (오리지널 STP) | 타이머 기반. 루트 스위치만 2초마다 “헬로” 패킷 발생. | 느림. 기본 Max Age 타이머(20초), Forward Delay 타이머(15초)로 컨버전스가 오래 걸림. 현재는 구식으로 사용 권장 안 함. |
| RSTP (Rapid STP) | 1998년 개발. 모든 스위치가 헬로 패킷을 발생시켜 진정한 킵얼라이브 메커니즘 제공. | 빠름. 초 단위로 응답 가능. 느린 타이머(Max Age, Forward Delay)가 필요 없음. |
| MSTP (Multiple STP, 802.1s) | RSTP를 향상시켜 다수의 루프 없는 토폴로지 인스턴스를 구축. | 최적 경로 및 로드 밸런싱을 가능하게 함. |
💡 AOS-CX 스위치에서는 MSTP가 기본으로 실행되며, 별도의 설정이 없으면 RSTP처럼 동작합니다.
MSTP 상세: 공통 vs. 다중 인스턴스

공통 스패닝 트리 (CST): 네트워크 전체에 하나의 STP 인스턴스만 정의합니다 (VLAN은 고려하지 않음).
- 단점: 로드 밸런싱이 안 됨, 차선책 경로(sub-optimal pathing), 낮은 링크 활용률.
다중 스패닝 트리 (MSTP): VLAN 트래픽을 분산하기 위해 여러 인스턴스를 구축합니다. 다른 VLAN은 다른 루트 브리지를 가지도록 설정하여 링크를 교대로 활성/대기로 사용해 리소스를 더 잘 활용합니다.
VSX/LAG 환경에서의 단일 인스턴스 MSTP
VSX와 LAG를 사용하면 모든 스위치와 연결이 이미 활성 상태입니다.
- 다중 인스턴스를 생성하는 복잡한 설정은 이득이 없습니다.
- 모든 트래픽은 동일한 링크를 사용하고 동일한 루트 브리지로 수렴할 것이기 때문에, 단일 인스턴스로 루프 방지만 하는 것이 가장 효율적입니다.
5. STP 보호 기능: 네트워크 보안 및 안정성 확보
STP 구성을 간섭이나 잘못된 장치로부터 보호하기 위한 보안 메커니즘입니다.

Root-guard (루트 가드)
- 목적: 현재 활성 토폴로지를 보호합니다.
- 작동: 다른 스위치가 현재 루트 브리지보다 더 나은 정보(우월한 BPDU)를 전파하여 루트 브리지 선택을 교체하는 것을 방지합니다.
- 적용 위치: 코어 스위치가 루트 역할을 하도록 기대되므로, 액세스 스위치나 서버 포트와 같이 루트 선출이 예상되지 않는 포트에 구성해야 합니다.
BPDU-Guard (BPDU 가드)
- 목적: 스푸핑(Spoofed)된 BPDU 패킷이 네트워크로 유입되는 것을 방지하여 활성 토폴로지를 보호합니다.
- 적용 위치: STP를 실행하지 않는 엣지 포트 (최종 사용자 장치에 연결된 포트)에 적용됩니다.
- 작동: 보호된 포트에서 STP BPDU 패킷이 수신되면, BPDU 가드는 해당 포트를 비활성화하고 경고를 보냅니다.
이는 실수로 연결된 스위치나 악의적인 공격으로부터 네트워크를 보호합니다.
⚠️ 주의: HPE Synergy와 같은 블레이드 서버에는 스위치가 내장되어 있어 BPDU를 생성할 수 있습니다.
Loop-guard (루프 가드)를 이러한 포트에 활성화하면 스위치 포트가 비활성화되어 서버에 접근할 수 없게 될 수 있으니 주의해야 합니다.지금은 BPDU-guard 설명 섹션에 Loop-guard를 언급하고 있으나, 일반적으로 BPDU-guard가 적용됩니다.
다만 블레이드 서버의 특수성을 인지해야 합니다.
Edge-port (관리 엣지 포트)
- 목적: 네트워크 엣지 포트가 STP에 완전히 참여하는 것을 방지하여 클라이언트 온보딩 문제를 해결합니다.
- 문제점: 포트가 전체 STP 프로세스에 참여하면 DHCP 할당 타임아웃이나 IP 주소 할당 지연, 클라이언트 인증 문제가 발생할 수 있습니다.
- 해결:
spanning-tree port-type admin-edge명령어를 사용하여 포트를 STP 관리 엣지 포트로 설정합니다.
이 명령은 장치 온보딩 시 포트의 STP 상호작용 참여를 제거하여 더 빠른 온보딩을 가능하게 합니다.
이번에는 데이터센터의 고가용성(High Availability)을 확보하는 동시에 안정성을 유지하는 방법을 다루었습니다.
VSX와 LAG 기술은 스위치 및 링크 중복성을 제공하면서도 복잡한 물리적 토폴로지를 단순하고 효율적인 논리적 구조로 변환하는 핵심 역할을 합니다. 그 외에도 서버를 어떻게 연결할 것인지, 네트워크 루프를 방지하기 위한 방법 등도 살펴봤습니다.
이 기술들의 조합은 데이터센터의 가용성을 높이기 위해 구성한 이중화 환경을 고성능 및 무중단 운영 환경으로 최적화할 것입니다.


