제2편. AI와 공공기관 보안체계 전환 ― 데이터 분류와 통제 전략

지난 글에서 공공기관의 생성형 AI 도입과 함께 국가정보원의 새로운 보안체계전환인 N2SF(National Network Security Framework) 가이드라인과 제로트러스트 정책을 고려해야 한다는 점을 살펴보았습니다.

이번 글에서는

2025년 9월 30일, 국가정보원은 N2SF 보안 가이드라인 정식판(1.0)을 공식 발표하였는데요. 이번 글에서는 데이터 전문가 관점에서 정식 가이드라인에 담긴 데이터 보안 전략을 구체적으로 살펴보고자 합니다.

by (주)씨에스리 전혜경부대표(정보관리기술사/컴퓨터시스템응용기술사, hgchon@cslee.co.kr)


1. 생성형 AI 데이터 흐름의 이해

1). 생성형 AI의 데이터 처리 경로

생성형 AI 서비스에서 데이터는 다음과 같은 경로를 거칩니다.

[사용자 프롬프트 입력] → [AI 모델 처리] → [외부 API 호출] → [응답 생성] → [결과 반환]

이 과정에서 각 단계마다 데이터 유출 위험이 존재합니다. 공공기관에서 생성형 AI를 활용할 때 발생할 수 있는 주요 데이터 유형은 다음과 같습니다.

데이터 유형예시보안 등급
행정정보내부 보고서, 업무 문서, 정책 자료민감(S) ~ 기밀(C)
개인정보주민등록번호, 연락처, 주소민감(S)
기밀문서국가안보 관련 문서, 계약서기밀(C)
공개정보보도자료, 공고문, 통계 자료공개(O)

2). 데이터 유출 시나리오와 위협 벡터

생성형 AI 환경에서 발생할 수 있는 주요 보안 위협은 다음과 같습니다.

프롬프트 인젝션(Prompt Injection)

프롬프트 인젝션은 공격자가 악의적인 입력을 통해 AI 시스템을 조작하여 민감한 데이터를 유출하거나 잘못된 정보를 생성하도록 만드는 공격입니다. 2024년에는 Morris-II 웜 공격, GitHub Copilot 및 Cursor 편집기 백도어 사건 등이 발생하면서 AI 생태계 전반을 타깃으로 하는 복합적 위협으로 확산되고 있습니다.

데이터 유출 경로

  • 학습 데이터 내 민감정보 노출
  • 대화 기록 유출
  • 프롬프트를 통한 우회적 정보 탈취
  • API 권한 미흡으로 인한 비인가 접근

2. N2SF 기반 데이터 분류 체계

2). 국가정보원 데이터 등급 분류 기준

N2SF 가이드라인 1.0에서는 업무정보의 중요도에 따라 기밀(Classified), 민감(Sensitive), 공개(Open)로 구분하고, 여기에 맞춰 적용되는 280여 개 보안 통제 항목을 제시하고 있습니다.

데이터 등급 분류 기준표

등급정의적용 대상보안 통제 수준
기밀(C, Classified)국가안보, 공공의 안전 및 이익에 직접적 영향을 미치는 정보국방/외교 기밀, 주요 정책 결정 문서최고 수준 (물리적 격리 + 강화된 접근통제)
민감(S, Sensitive)유출 시 국민 또는 조직에 피해를 줄 수 있는 정보개인정보, 내부 업무 문서, 계약 정보중간 수준 (논리적 격리 + 암호화)
공개(O, Open)일반에 공개 가능한 정보보도자료, 공개 통계, 공고문기본 수준 (접근 통제)

2). 생성형 AI 입력 데이터의 등급 판정 절차

그렇다면 N2SF 적용절차는 준비, C/S/O 등급분류, 위협식별, 보안대책 수립, 적절성 평가 및 조정 단계를 거칩니다.

데이터 등급 판정 프로세스

[1단계: 준비] – 기관 업무정보 및 정보서비스 현황 식별 – N2SF 적용 계획 수립 [2단계: 등급 분류] – 정보공개법 등 관련 법령 기준 검토 – 비공개 정보를 C/S로 분류 – 나머지는 O 등급 부여 [3단계: 위협 식별] – 정보시스템 서비스 환경 모델링 – 위협 요소 식별 및 보안 대책 대상 선정 [4단계: 보안대책 수립] – 등급별 보안통제 항목 선택 적용 – 280여 개 통제 항목 중 필요 항목 구현 [5단계: 적절성 평가] – 국가정보원 보안성 검토 – 보안 수준 조정

3). 망별 처리 가능 데이터 범위

단말로 내·외부에서 업무 및 인터넷을 이용하고, 데이터 라벨링 기반 통제를 적용하며, 업무 시스템 및 정보에 C/S/O 등급을 라벨링함으로써 외부 전송 시 등급별 정책에 따라 자료 유출을 통제할 수 있습니다.

망 구분처리 가능 등급생성형 AI 활용비고
업무망(내부망)C, S, O제한적 허용 (Private AI 또는 RBI 기술 활용)데이터 라벨링 기반 통제 필수
인터넷망O허용일반 상용 AI 서비스 이용 가능
DMZS, O조건부 허용API Gateway 통한 통제

3. 제로트러스트 원칙의 데이터 접근 통제

1). “절대 신뢰하지 말고, 항상 검증하라”의 데이터 적용

제로 트러스트는 네트워크 내부의 모든 사용자에게 암묵적인 신뢰를 부여하는 것이 아니라 ‘절대 신뢰하지 않고 항상 확인’한다는 원칙에 따라 작동합니다.

데이터 접근 시 제로트러스트 검증 절차

[사용자] → [인증(MFA 인증)] → [디바이스 검증(보안상태 확인)] → [정책 평가(등급별 정책 책적용)] → [최소권한 부여(필요한 권한만)] → [데이터 접근(실시간 모니터링)]

2). 사용자/서비스 단위 최소권한 접근 통제

내부 시스템 접속 시 제로 트러스트 기반으로 보안 요구사항 준수 여부를 지속 확인하며, 단말의 보안수준이 일정 수준 미달 시 전산망 접속을 차단합니다.

최소권한 원칙 적용 예시

사용자 역할C 등급 접근S 등급 접근O 등급 접근생성형 AI 사용
일반 직원X읽기 전용읽기/쓰기O 등급만
팀장급읽기 전용읽기/쓰기읽기/쓰기S 등급 (Private AI)
보안관리자읽기/쓰기읽기/쓰기읽기/쓰기모든 등급 (감사 로그)

3). 데이터 접근 시 실시간 정책 평가 체계

N2SF 환경에서는 데이터에 접근할 때마다 다음 요소를 실시간으로 평가합니다.

실시간 정책 평가 요소

  1. 신원 인증: 사용자가 누구인가?
  2. 디바이스 상태: 보안 패치가 최신인가? 악성코드가 없는가?
  3. 위치 정보: 어디에서 접속하는가?
  4. 데이터 민감도: 접근하려는 데이터의 등급은?
  5. 시간대: 정상 업무 시간인가?
  6. 행위 패턴: 평소와 다른 이상 행동은 없는가?

4. 데이터 라이프사이클별 보안 전략

1). 수집 단계: 입력 데이터 검증 및 필터링

생성형 AI에 데이터를 입력하기 전 반드시 검증 절차를 거쳐야 합니다.

프롬프트 입력 검증 체계

[사용자 프롬프트] → [민감정보 탐지 필터] → [등급 분류 엔진] → [정책 검증]

  • 민감정보 탐지 필터: 주민번호, 계좌번호, 비밀번호 패턴 탐지, 정규식 기반 자동 마스킹
  • 등급 분류 엔진: 입력 내용 자동 분석 및 C/S/O 등급 부여
  • 정책 검증 : 해당 등급의 AI 서비스 사용 권한 확인(허용 시: AI 전송, 불허 시: 차단 및 로그 기록)

가능하다면, 프롬프트 보안 솔루션과 데이터 정제 솔루션을 복합적으로 탑재하여 악의적 프롬프트 명령이나 불안전한 출력, 민감정보 노출을 방지할 것을 권장합니다.

2). 처리 단계: 암호화 및 비식별화 처리

데이터 처리 단계 보안 통제

보안 기법적용 시점대상 데이터목적
암호화 (AES-256)저장 및 전송 시C, S 등급기밀성 확보
비식별화AI 학습 데이터 생성 시개인정보 포함 데이터프라이버시 보호
토큰화민감정보 처리 시주민번호, 계좌번호 등원본 데이터 분리 보관
해싱검색/조회 시인증 정보원본 복구 불가

3). 저장 단계: 데이터 보관 정책

N2SF 기반 데이터 저장 전략

N2SF 가이드라인에서는 데이터 등급에 따라 저장 위치를 차등화하도록 권고합니다.

데이터 등급저장 위치백업 주기보관 기간암호화
C (기밀)On-premise (전용망)일 1회영구필수 (국산 암호)
S (민감)Private Cloud(국내)일 1회법정 기간필수
O (공개)Public Cloud 가능주 1회1년선택

클라우드 환경에서의 고려사항

생성형 AI를 클라우드에서 활용할 경우 다음을 반드시 확인해야 합니다.

C/S 등급 데이터를 생성형 AI로 처리해야 할 경우, Private AI를 내부에 구축하여 데이터가 외부로 유출되지 않도록 해야 합니다.

[체크리스트] □ 데이터 저장 위치가 국내인가? (C/S 등급) □ 클라우드 사업자가 CSAP(클라우드보안인증) 인증을 받았는가? □ AI 학습에 데이터가 사용되지 않도록 설정되어 있는가? □ 데이터 삭제 요청 시 완전 삭제가 보장되는가? □ 데이터 주권 관련 조항이 계약서에 명시되어 있는가?

보관 기간 산정 기준

공공기관의 데이터 보관 기간은 다음 법령을 준수해야 합니다.

데이터 유형관련 법령보관 기간
행정정보공공기록물관리법5년~영구 (중요도별)
개인정보개인정보보호법목적 달성 시까지
계약 문서상법, 국가계약법5년~10년
AI 처리 로그정보통신망법3년

4). 전송 단계: 망간 연계 시 보안 통제

생성형 AI를 업무망에서 안전하게 활용하기 위해서는 망간 데이터 전송 시 보안 통제가 필수적입니다. N2SF에서는 다음과 같은 기술과 정책을 활용합니다.

. CDS 솔루션을 활용한 망간 데이터 전송 통제 방안

[업무망 (C/S 등급)] [CDS(크로스 도메인 솔루션)] [DMZ 또는 인터넷망 (O 등급)]

이 중 CDS에서 하는 역할은 데이터 등급 검증, 전송 승인 정책 적용, 내용 검사 (DLP) 등을 진행합니다.

②. 원격 브라우저 격리(RBI) 기술 활용

RBI 기술은 사용자와 외부 서비스 사이에 격리된 환경을 두어 악성코드나 데이터 유출을 차단하는 기술입니다.

한전KDN 적용 사례

  • 에너지 부문 공공 클라우드(K-ECP)에서 RBI 기술 활용
  • 업무망에서 외부 AI 서비스 접속 가능
  • 네트워크 통신 내 악성코드 실시간 검사
  • 데이터 다운로드 차단으로 정보 유출 방지

③. API Gateway를 통한 통제

외부 AI 서비스를 API로 연계할 경우 API Gateway를 통해 트래픽을 통제합니다.

특허청 적용 사례

  • 물리적 망 분리된 업무 단말에서 외부 생성형 AI 이용
  • 외부 인터넷 접속 가능
  • 특허 관련 업무 서비스 제공
  • API Gateway를 통한 데이터 송수신 통제
통제 항목구현 방안
인증/인가OAuth 2.0, API Key 관리
요청 제한Rate Limiting (시간당 요청 수 제한)
데이터 검증입력값 검증, 민감정보 필터링
로그 기록모든 API 호출 이력 저장
암호화TLS 1.3 이상 적용

④. 폐기 단계: 학습 이력 및 로그 삭제 정책

생성형 AI 사용 후 데이터 흔적을 완전히 제거하는 것이 중요합니다.

데이터 폐기 정책

항목보존 기간폐기 방법비고
프롬프트 입력 기록90일완전 삭제 (7회 덮어쓰기)C/S 등급
AI 응답 결과30일논리적 삭제O 등급
접근 로그3년암호화 보관 후 폐기모든 등급
학습 데이터즉시 삭제물리적 파기Private AI만 해당

5. 실무 적용 체크리스트

다음은 공공기관에서 생성형 AI 도입 시 데이터 보안 관점에서 점검해야 할 사항입니다.

1). 데이터 분류 및 라벨링 절차

데이터 분류는 N2SF 적용의 첫 단계이자 가장 중요한 과정이므로 체계적으로 접근해야 하며, 데이터 값 중심의 데이터 관리체계 구축이 필요합니다.

(생성형AI 데이터 분류/관리를 위한 데이터 관리체계는 다음 글에서 상세하게 알아보겠습니다.)

데이터 분류 및 라벨링 절차

1. 보유 데이터 목록 작성(전사 데이터 자산 식별)

2. 각 데이터에 C/S/O 등급 부여

3. 데이터 라벨링 자동화 시스템 구축(가능하다면)

4. 정기적 재분류 주기 설정 (활용 모니터링 및 재분류 주기 설정)

5. 등급 변경 시 승인 프로세스 마련

2). AI 서비스 구축 유별 데이터 처리 범위 정의

생성형 AI 서비스 유형에 따라 처리 가능한 데이터 등급과 통제 방안을 명확히 정의해야 합니다.

AI 서비스 유형별 허용 데이터

AI서비스 유형에 따라 허용되는 데이터와 구축/운영비용이 달라지게되므로, 구축하는 서비스의 특성과 예산 등을 고려하여 구축유형을 고려해야 합니다. 다만, AI서비스 유형에 따라 보안위험이 달라지기때문에 그에 따른 보안 통제와 구현 기술을 고려하면 되겠습니다.

AI 서비스 유형허용 등급접속 환경통제 방안구현 기술비고
상용 AI (ChatGPT, Claude 등)O만 허용인터넷망프롬프트 필터링DLP, 키워드 차단학습 기록 삭제 설정 필수
Private AI (자체 구축)C, S, O업무망 내부데이터 라벨링 통제등급별 접근제어가장 안전, 비용 高
RBI 기반 AI 접속S, O업무망 → 외부원격 브라우저 격리RBI 솔루션데이터 다운로드 차단
API 연계 AIO (일부 S 가능)API Gateway트래픽 모니터링API 보안 게이트웨이계약서 검토 필수
온디바이스 AIC, S, O로컬 단말오프라인 처리Edge AI네트워크 미연결

(참고) Private AI 구축시, 응답 성능의 문제로 현재는 오픈소스 LLM 커스터마이징 방법이 주로 활용되거나 비용 효용성을 위해 sLLM을 서비스별로 구축하는 것이 흐름이니 참고하시기바랍니다.

구축 옵션비용성능보안적합 대상
완전 자체 구축매우 높음높음최고대형 중앙부처
국산 LLM 활용높음중간높음중견 공공기관
오픈소스 LLM 커스터마이징중간중간중간지자체

이 외에도 생성형 AI 환경에서는 보안관점에서 실시간 모니터링과 신속한 대응이 필수이니 이 부분도 고려하시기 바랍니다.


마지막으로 정리하면,

2025년 9월 공개된 N2SF 가이드라인 1.0은 공공기관이 생성형 AI를 안전하게 활용할 수 있는 구체적인 로드맵을 제시하고 있습니다. 특히 데이터 라벨링 기반 통제, 제로트러스트 원칙 은 데이터 보안의 핵심 요소입니다.

생성형AI 활용을 위해 우리 데이터 전문가들은 아래 사항을 중점적으로 고려해서 대비해야할 것입니다

생성형AI시대, 데이터 관리 고려사항

  1. 데이터 중심 사고: 네트워크가 아닌 데이터를 보호 대상의 중심에 둔다
  2. 등급별 차등 통제: 모든 데이터를 동일하게 취급하지 않는다
  3. 실시간 검증: 한 번 인증으로 끝나지 않고 지속적으로 검증한다
  4. 최소권한 원칙: 필요한 만큼만 접근을 허용한다
  5. 데이터 저장: 민감 데이터는 반드시 통제 가능한 환경에 보관한다

다음 글에서는 생성형AI를 위한 데이터 거버넌스와 관리 체계에 대해 다루겠습니다.


참고문헌

  • 국가정보원, 「N2SF 보안 가이드라인 1.0」, 2025.9.30
  • 과학기술정보통신부·한국인터넷진흥원, 「제로트러스트 가이드라인 2.0」, 2024.12
  • OWASP, “LLM Top 10 Security Risks”, 2024
  • 한국인터넷진흥원(KISA), 「챗GPT 등 생성형 AI 활용 보안 가이드라인」, 2023.6