데이터 품질은 점검이 아니라 설계다.
차세대 프로젝트 경험 기반 재구성 사례 차세대 프로젝트에서 품질대상을 선별해 규칙 세팅과 진단을 수행하며 전반적인 데이터 품질의 개념과 경험을 기반으로 구성한 사례로 품질 진단 방식에 대해서 공유합니다. 제가 경험한 프로젝트는 전환과 초기 적재 대상을 기준으로 품질 진단을 했으며, 일반적으로 일시적 … 더 보기
차세대 프로젝트 경험 기반 재구성 사례 차세대 프로젝트에서 품질대상을 선별해 규칙 세팅과 진단을 수행하며 전반적인 데이터 품질의 개념과 경험을 기반으로 구성한 사례로 품질 진단 방식에 대해서 공유합니다. 제가 경험한 프로젝트는 전환과 초기 적재 대상을 기준으로 품질 진단을 했으며, 일반적으로 일시적 … 더 보기
들어가며 “ChatGPT에게 보고서 초안을 작성해달라고 했더니 정말 잘 써주더라.” 2023년 이후 우리가 흔히 하는 이야기입니다. 생성형 AI는 사용자가 요청하면 뛰어난 결과물을 만들어냅니다. 하지만 여기엔 전제 조건이 있습니다. 바로 먼저 요청해야 한다는 것입니다. 우리는 Siri에게 “내일 날씨 어때?”라고 물어보고, Alexa에게 “거실 … 더 보기
GKE(Google Kubernetes Engine)에서는 Pod에서 전송되는 패킷의 소스 IP를 노드 IP로 변경하여 전송이 가능합니다. 이와 같이 목적지 IP를 변경하는 기술을 SNAT (Source NAT)라 하며, 노드 내 iptables의 Masquerade 규칙에 따라 결정됩니다. 1. GKE의 기본 SNAT 기능에 따른 SNAT 동작 GKE의 SNAT … 더 보기
1. 시작하며: ‘코드를 고쳤는데 왜 반영이 안 되지?’ 오랜만에 R 코드를 수정했을 때의 이야기입니다. 한글 인코딩 오류가 발생했는데 Java 코드 수정만으로는 해결되지 않는 상황이었습니다. 그래서 R 코드도 확인해 보고자 .R 파일을 열어 코드를 일부 수정하고 로그 출력을 추가했습니다. 이후 서비스를 … 더 보기
1. 네트워크 분석이란? 네트워크는 상호 연결된 개체들, 그룹, 또는 시스템 간 관계 구조를 말합니다. 우리의 현실 세계는 사람, 조직, 사물 등이 끊임없이 연결되며, 이 관계 속 연결망이 하나의 네트워크로 이루어져 있습니다. 우리의 현실 세계는 어떤 네트워크로 대상 간 관계를 이루고 … 더 보기
공공데이터는 오늘날 서비스 개발, 데이터 분석, 그리고 AI 프로젝트에서 빠지지 않는 핵심 키워드입니다. 정부·지자체·공공기관이 보유한 다양한 데이터를 적극적으로 개방하면서, 이를 기반으로 새로운 서비스를 만들거나 비즈니스와 정책 분석에 활용하는 사례가 꾸준히 증가하고 있습니다. 이 글에서는 공공데이터의 개념부터 개방 방식, 활용 사례, … 더 보기
최근 기업과 공공기관에서 생성형 AI 도입이 활발하다. 그러나 범용 대규모 언어모델(LLM, Large Language Model)을 그대로 업무에 활용하는 데에는 몇 가지 현실적 한계가 존재한다. 범용 LLM은 방대한 데이터를 학습했기 때문에, 법률·조세·의료 같은 전문 분야에서는 원하는 답변을 얻기 어렵고, 수십~수천억 개 파라미터로 … 더 보기
1. 서론 대규모 언어 모델(LLM)은 강력한 생성 능력을 갖추고 있지만, 실제 업무 환경이 요구하는 최신성, 근거 기반의 정확성, 응답의 일관성이라는 세 가지 조건을 단독으로는 충분히 만족시키기 어렵습니니다. 문서와 규정은 수시로 변경되며, 답변에는 명확한 출처와 시점이 요구되고, 각 조직마다 고유한 맥락과 … 더 보기
“사자 그림을 그려줘” 라고 요청하면 멋진 사자를 그려주지만, “정면을 응시하는 사자를 그려줘”라고 하면 여전히 옆모습이나 뒷모습의 사자가 나오는 경우가 많습니다. Stable Diffusion을 사용해보신 분이라면 이런 답답함을 경험해보셨을 겁니다. 원하는 자세, 구도, 레이아웃을 텍스트로 설명하는 것은 생각보다 훨씬 어렵고, 결국 수십 … 더 보기