200Gbps RoCEv2 Traffic Handling
초고속 네트워크로 AI Training 최적화하기: Netitest의 접근
Netitest는 AI 학습 환경에서 네트워크 자원 성능 평가를 위한 테스트 솔루션 개발 시, 요구되는 초고대역폭과 저지연(low latency) 특성을 충족시키기 위해 Napatech NT400D11 SmartNIC (2 x 100G)와 Link-Capture™ Software를 채택하여 200G의 전송 처리량(throughput)과 10나노초의 정밀한 지연 시간 측정 정확도를 확보했습니다. 이를 통해 RoCE v2 스위치 및 RDMA 네트워크 카드에 대한 고성능 트래픽 흐름 시뮬레이션을 통해 대역폭과 지연 시간을 정확하게 측정하고, 궁극적으로 AI 학습 네트워크의 철저한 평가 및 최적화를 가능하게 했습니다.
AI 학습의 과제
AI Training 환경에서 네트워크 리소스를 관리하고 지연 시간을 최소화하기 위해 다음과 같은 과제가 있었습니다
- Bandwidth Optimization: 200G RoCE v2 (RDMA over Converged Ethernet version 2) 트래픽을 시뮬레이션하고 평가하여 고속 네트워크 스위치의 성능 분석.
- Latency Measurement: 10 nanoseconds 수준의 정밀한 지연 시간 측정.
- RDMA Efficiency Testing: Read/Write 작업을 활용하여 RDMA Network Cards의 Throughput 및 Latency 성능 테스트.
기술적 솔루션: Napatech NT400D11 SmartNIC
Netitest는 이러한 AI 학습의 과제들을 해결하기 위해 Napatech NT400D11 2 x 100G SmartNIC와 Link-Capture™ Software를 자사의 Supernova Physical Tester에 통합했습니다. 이 솔루션은 AI 학습 환경의 네트워크 환경 테스트에 요구되는 엄격한 국제 표준을 충족하며, 다음과 같은 특징을 보장합니다.
- 제로 패킷 손실 (Zero packet loss)
- 초저 지연 시간 (Ultra-low latency)
- 높은 처리량 (High throughput)
기술적 솔루션: Napatech NT400D11 SmartNIC
Netitest는 Napatech NT400D11 SmartNIC (2 x 100G)과 Link-Capture™ Software를 통합하여 초고속 네트워크 환경을 구축했습니다. 이 솔루션의 주요 기술적 특징은 다음과 같습니다:
- Dual-Port 100G Capability: 초고속 데이터 트래픽을 안정적으로 처리하며 국제 표준을 충족.
- Zero Packet Loss: 데이터 손실 없이 정확한 테스트 결과를 제공.
- Precise Time Synchronization: 10 nanoseconds 수준의 정확한 타임스탬프로 전송 및 수신 시간 측정.
RoCE v2 및 RDMA Testing에서의 성능
Netitest는 RoCE v2 트래픽 시뮬레이션과 RDMA Networking 시나리오를 성공적으로 구현하여 다음과 같은 성과를 얻었습니다:
- Traffic Simulation: RoCE v2 트래픽을 통한 대역폭 효율성 테스트.
- RDMA Operations: High-Throughput Read/Write 테스트를 통해 RDMA Cards의 병목 현상 파악 및 자원 최적화.
Napatech NT400D11 SmartNIC과 Link-Capture™ Software의 도입으로 Netitest는 초저지연(10 nanoseconds)과 높은 Throughput을 구현했으며, 안정적인 테스트 프레임워크를 제공하여 AI Training 환경에서 네트워크 병목 현상을 크게 줄였습니다.