프로젝트 사례를 통한 AWS에서의 CS-MIG 활용

전 세계 클라우드 인프라 시장에서 AWS가 30%의 점유율로 선두를 달리고 있으며, Azure(20%)와 Google Cloud(13%)가 뒤따르는 현재 상황은 클라우드 시장의 치열한 경쟁 구도를 보여줍니다. 이러한 클라우드 확산과 함께 기업들의 디지털 혁신 역시 가속화되고 있습니다. 특히 데이터 마이그레이션은 기업의 핵심 전략으로 자리잡으며, 관련 시장 규모도 폭발적인 성장세를 보이고 있습니다. 클라우드 마이그레이션 서비스 시장은 2024년 5,419억 달러에서 2025년 6,511억 달러로 확대될 것으로 전망되며, 2033년까지 연평균 16.78%의 높은 성장률을 기록할 것으로 예상됩니다. 이는 단순한 수치상의 증가를 넘어, 데이터 전환 분야가 차세대 비즈니스의 핵심 동력으로 부상하고 있음을 의미합니다.

이러한 상황 속에서 현재 국내외 기업들은 비용 효율성을 위해 고가의 해외 솔루션에서 국산 대안으로 전환하는 경향을 보이고 있으며, 서비스 중단 시간을 최소화하며 온프레미스에서 클라우드나 오픈소스 DBMS로 안정적으로 이전하는 이기종 데이터베이스 간 호환성 확보가 핵심 과제로 부각되고 있습니다. 이런 배경 하에서 AWS 기반의 다양한 마이그레이션 솔루션들이 시장의 다양한 요구사항을 만족시키는 필수 도구로 인정받고 있는 실정입니다.

이에 본 글에서는 실제 프로젝트 사례를 통해 AWS 환경에서 CS-MIG를 활용한 데이터 전환의 실용성과 효과를 살펴보고자 합니다.

1. 프로젝트 개요: 대용량 이기종 DB 통합 전환의 도전

총 1.5TB 이상의 대용량 데이터를 포함한 ASIS 환경에서(4개의 MySQL RDS와 1개의 PostgreSQL로 구성) TOBE 환경인 단일 AWS RDS PostgreSQL로 통합하는 프로젝트를 진행했습니다. 이번 프로젝트의 핵심 과제는 단순한 테이블 복사가 아닌, 비즈니스 요구사항에 따른 복잡한 조인 룰과 데이터 변환 로직을 적용하는 것이었습니다. 각 소스 데이터베이스마다 서로 다른 스키마 구조와 데이터 타입을 가지고 있어, 표준화된 TOBE 구조로의 매핑이 필요했습니다. 특히 여러 테이블에 분산된 고객 정보와 그에 관련된 속성 데이터를 통합하여 정규화된 형태로 재구성하는 작업이 포함되었습니다. AWS DMS로는 이러한 복잡한 조인과 변환 로직을 처리할 수 없어, 커스텀 전환툴의 필요성이 명확했습니다. 프로젝트 성공을 위해서는 데이터 정합성 보장과 함께 온프레미스 시스템의 다운타임을 최소화하기 위해 정해진 전환 일정 내에서의 완료가 필수적이었고, CS-MIG가 데이터 전환의 핵심 툴로써 활용되었습니다.

<개략적인 전환 구성도>

2. CS-MIG의 고성능 병렬 처리 및 메모리 최적화 아키텍처

프로젝트의 첫 번째 필수 조건인 정해진 시간 내 데이터 전환 완료를 위해, CS-MIG는 EC2 c4.4xlarge의 16개 vCPU와 30GB 메모리를 최대한 활용하는 병렬 처리 아키텍처를 구축하여 1TB 이상의 대용량 데이터를 4시간 안에 성공적으로 전환했습니다. 본 프로젝트는 분산되어 있는 고객 정보를 통합된 하나의 데이터 플랫폼으로 구축하는 목표에 따라, 다수의 ASIS 테이블을 하나의 TOBE 테이블로 매핑하는 복잡한 변환 로직이 핵심이었습니다. 이러한 프로젝트 특성상 동시다발적으로 수행되는 복수의 데이터 전환 작업을 한정된 시간 내에 완료하기 위해, CS-MIG는 총 16개의 Executor 워커 스레드를 동적으로 운용하는 멀티프로세싱 아키텍처를 구현했습니다. 따라서, 전환 담당자는 ASIS 테이블 간의 조인 관계와 데이터 의존성을 사전 분석하여 각 워커에 최적화된 작업 단위를 배치할 수 있으며, 이를 통해 CPU 집약적 작업과 I/O 집약적 작업을 균형있게 분산시켜 시스템 리소스의 효율적 활용이 가능했습니다. 이러한 워커 레벨의 세밀한 제어권은 전환 사용자로 하여금 실시간 성능 모니터링을 통해 병목 지점을 즉시 식별하고 워크로드 재분산을 통한 성능 튜닝이 가능하다는 큰 장점을 제공했습니다.

더욱 중요한 것은 복잡한 조인 연산 수행 시 CS-MIG가 제공하는 고급 임시 데이터 관리 기능입니다. CS-MIG는 Apache Spark 기반 아키텍처를 활용하여 다중 테이블 조인과 집계 연산 과정에서 생성되는 중간 결과셋을 각 Executor의 로컬 디스크에 임시 파일 형태로 효율적으로 관리합니다. 특히 메모리 한계 도달 시 일반적인 OS 스와핑과 달리, Apache Spark의 Spill-to-Disk 메커니즘을 통해 Kryo직렬화를 적용하여 중간 결과 데이터의 크기를 50-70% 압축함으로써 디스크 I/O 성능을 대폭 향상시킬 수 있었습니다. 본 프로젝트에서는 300GB의 전용 서버 스토리지 공간을 임시 데이터 영역으로 확보하여, 일련적으로 발생하는 1TB 규모의 대용량 조인 연산에서 중간 데이터셋을 메모리 부족 없이 안정적으로 버퍼링했습니다. 따라서 CS-MIG는 이러한 고도화된 메모리 관리 체계를 통해 여러 테이블을 하나로 통합하는 복잡한 비즈니스 로직이 포함된 ETL 프로세스에서도 성능 저하나 시스템 불안정 없이 일관되고 예측 가능한 처리 성능을 달성할 수 있습니다.

3. 사용자 친화적 매핑 설정과 맞춤형 데이터 선별이관

이기종 DB 이관에서 CS-MIG의 가장 큰 장점은 사용자가 직관적으로 테이블 및 컬럼매핑을 설정할 수 있다는 점입니다. 본 프로젝트에서의 예시로, TOBE 측 PostgreSQL에 적절히 설계된 테이블 구조가 있다면, CS-MIG 사용자는 GUI 기반의 매핑 인터페이스를 통해 MySQL의 소스 컬럼을 PostgreSQL의 타겟 컬럼에 클릭 방식으로 간편하게 연결할 수 있습니다. 이때 MySQL의 VARCHAR(255)가 PostgreSQL의 TEXT로, DATETIME이 TIMESTAMP로 자동 변환되는 등 이기종 간 데이터 타입 차이는 툴이 지능적으로 처리하여 사용자가 복잡한 변환 로직을 신경 쓸 필요가 없습니다. 더 나아가 커스텀 이관 기능을 통해 필요한 컬럼만 선별하거나 WHERE 조건을 설정하여 특정 기간의 데이터, 활성 사용자 데이터 등 비즈니스에 필요한 데이터만 효율적으로 가져올 수 있어 이관 시간과 스토리지 비용을 크게 절약했습니다. 예를 들어, 로직 개발시에는 전체 1TB 중에서 최근 1년간의 유효 고객 데이터만 선별 이관하여 실제 처리량을 10% 이하로 줄이는 등 맞춤형 최적화가 가능했습니다. 이러한 유연하고 직관적인 매핑 설정과 선별적 이관 기능이 복잡한 이기종 DB 통합 프로젝트에서 CS-MIG가 큰 역할을 하였습니다.

4. 직관적 워크플로우 기반 작업 관리 및 실시간 모니터링 체계

CS-MIG의 가장 큰 사용성 장점은 데이터 전환 작업을 워크플로우 형태로 구성하여 단위별 작업들을 논리적으로 연결하고, 클릭 한 번으로 완성된 하나의 통합 작업을 실행할 수 있다는 점입니다. GUI 기반의 드래그앤드롭 방식으로 복잡한 쉘 스크립트 작성 없이도 누구나 직관적으로 데이터 전환 스케줄링 작업을 생성할 수 있어, 기술적 진입 장벽을 대폭 낮췄습니다. 특히 실시간 모니터링 대시보드를 통해 각 테이블별 이관 진행률, 처리 속도, 에러 발생 현황을 시각적으로 추적할 수 있어 1TB 규모의 대용량 전환 작업에서도 현재 상황을 한눈에 파악할 수 있었습니다. 로우 카운트 비교 기능을 통한 건수 검증은 물론, 표 형태의 직관적인 UI 요소들이 진행 상황과 에러 발생을 즉시 식별 가능하게 했습니다. 다만 현재 버전에서는 GUI 방식의 워크플로우 구성 특성상 단위별 작업이 100개 이상으로 늘어날 경우 초기 설정에 시간이 소요되는 한계점도 존재했습니다. 그럼에도 불구하고 한눈에 들어오는 대시보드의 직관적인 모니터링 기능과 에러 상황의 신속한 파악 능력은 정해진 전환 일정 내에서 안정적이고 매끄러운 전환 완수라는 프로젝트 목표 달성에 결정적인 역할을 했습니다.

5. 마치며

본 프로젝트를 통해 CS-MIG는 AWS DMS로는 처리할 수 없는 복잡한 조인 로직과 데이터 변환을 포함한 1TB 규모의 이기종 DB 통합 이관을 성공적으로 완수했습니다. Apache Spark 기반의 고성능 병렬 처리와 직관적인 GUI 환경, 실시간 모니터링 체계를 통해 기술적 복잡성과 운영 효율성을 모두 확보할 수 있었습니다. 향후 대용량 이기종 데이터베이스 통합 프로젝트에서 CS-MIG와 같은 전문화된 전환툴의 활용은 비용 절감과 프로젝트 성공률 향상을 위한 필수 요소로 자리잡을 것으로 기대됩니다.

참고문헌

Statista. “The Big Three Stay Ahead in Ever-Growing Cloud Market”. By Felix Richter
Global Growth Insights. “클라우드 마이그레이션 서비스 시장규모, 점유율, 성장 및 산업분석, 유형, 응용 프로그램(대기업, 중소기업(SMES)) 및 지역 통찰력 및 2033년 예측)
데이터넷 . “대용량 DB 다운타임 최소화 위한 마이그레이션 전략”
Blog. “Understanding Memory Spills in Apache Spark” by Shanoj