-
목차
AI 모델을 효과적으로 학습시키기 위해서는 무엇보다 고품질의 학습 데이터셋이 필수적입니다. 하지만 데이터를 직접 수집하고 정제하는 과정은 시간과 노력이 많이 들며, 초보자에게는 복잡하게 느껴질 수 있습니다.
이런 상황에서 공공데이터는 훌륭한 출발점이 될 수 있습니다. 정부, 지자체, 공공기관이 공개한 방대한 양의 데이터를 활용하면 비용 부담 없이 AI 학습에 필요한 다양한 유형의 데이터를 확보할 수 있습니다.
1. AI 학습에 적합한 공공데이터 유형 파악하기
공공데이터는 그 목적에 따라 다양한 형태로 존재합니다. AI 학습에 적합한 데이터를 고르기 위해서는 먼저 사용하려는 모델의 목적과 데이터 유형을 정확히 이해해야 합니다.
예를 들어, 자연어 처리(NLP) 모델을 학습하려면 텍스트 데이터가 필요하고, 컴퓨터 비전 모델이라면 이미지 또는 동영상 데이터가 필요합니다. 아래는 AI 학습용으로 활용 가능한 대표적인 공공데이터 유형입니다:
- ① 텍스트: 행정 문서, 뉴스 기사, 민원 접수 내역, 국회 회의록
- ② 이미지: 교통 CCTV, 의료 진단 영상(익명화), 지리 정보 이미지
- ③ 음성: 상담 센터 녹취 데이터, 한국어 발화 데이터
- ④ 구조화된 표 데이터: 통계청 조사 결과, 질병코드 목록, 산업 재해 이력
데이터 유형을 정했다면, 공공데이터 포털, AI Hub, 국립국어원, 통계청, 과학기술정보통신부 등의 공식 사이트를 통해 라이선스를 확인한 후 데이터를 다운로드합니다. CC BY 또는 공공누리 1~2유형이면 상업적 활용도 가능합니다.
2. 수집한 데이터의 필터링 및 구조 설계
데이터를 확보한 후에는 모델 학습에 맞게 구조를 재정비해야 합니다. 공공데이터는 보통 비정형적으로 제공되기 때문에 필요한 열 추출, 중복 제거, 결측값 처리 등의 과정이 필수입니다.
예를 들어, 민원 데이터를 활용해 감성 분석 모델을 만들고자 한다면 다음과 같은 방식으로 데이터 구조를 정리할 수 있습니다:
감성 분석용 민원 텍스트 정리 예시 민원 내용 감성 라벨 서비스가 친절해서 만족스럽습니다. 긍정 응대가 느려서 화가 납니다. 부정 중요한 것은 데이터를 정리할 때 AI 모델이 이해할 수 있는 형태로 일관되게 구조화해야 한다는 점입니다. 가능하면
.csv
,.json
,.txt
등 일반적인 포맷을 사용하고, 필드명(열 이름)은 영어로 구성하는 것이 좋습니다.3. 전처리와 라벨링: 학습 정확도에 결정적 역할
AI 학습용 데이터에서 가장 시간이 많이 걸리는 단계는 바로 전처리(Preprocessing)와 라벨링(Labeling)입니다. 이 과정에서 데이터의 품질이 결정되고, 모델 학습 결과 역시 이 품질에 따라 큰 차이를 보입니다.
텍스트 데이터의 경우 전처리 예시는 다음과 같습니다:
- 특수문자 제거, 소문자 통일
- 불용어(stop words) 제거
- 띄어쓰기 보정 및 문장 정제
이미지 데이터는 다음과 같은 처리 작업이 필요합니다:
- 사이즈 일괄화 (예: 256x256)
- 노이즈 제거 및 밝기 정규화
- 필요 시 윤곽선 추출 등 전처리 후 저장
라벨링은 데이터를 분류 가능한 형태로 만드는 과정입니다. 예를 들어, 민원 내용을 긍정/부정/중립으로 분류하거나, 이미지를 '고양이/강아지/사람'으로 태깅하는 방식입니다.
이때 클래스 간 데이터 수를 균형 있게 맞추는 작업도 매우 중요하며, 가능하면 Label Studio, Prodigy, Doccano 등 라벨링 툴을 활용하면 정확도와 작업 효율을 높일 수 있습니다.
4. 실전 예제를 통한 데이터 정제 전략
실제 AI 프로젝트에서는 공공데이터를 그대로 활용하는 것이 아니라 프로젝트 목적에 맞게 커스터마이징하는 전략이 필요합니다. 아래는 예시입니다:
프로젝트 목적: 공공기관 민원 데이터를 기반으로 민원 응대 자동화 AI 구축 사용 데이터: 공공데이터포털 → 2021년 국민신문고 민원 접수 내역 전처리 방법:
- 엑셀 파일에서 '민원 내용', '처리 결과', '날짜'만 추출
- 동일 문구 중복 제거 (e.g. 자동 생성된 회신 메시지)
- 텍스트 정규화: 맞춤법 검사기 API 적용
- 카테고리 분류: 민원 유형별 '행정/교통/환경/복지'로 라벨 부여
최종적으로는 학습 모델별로 요구하는 형식에 맞게
train.json
,valid.json
,test.json
세트를 만들고, 전체 데이터의 70/15/15 비율로 나누는 것이 일반적입니다.이처럼 공공데이터를 가공하는 데 있어 중요한 점은 데이터의 정합성과 균형을 유지하는 것이며, 실제 업무나 사용 사례에서 적용 가능한 수준까지 정제하는 데 중점을 두어야 합니다.
결론적으로, 공공데이터는 비용 부담 없이 AI 모델을 훈련시킬 수 있는 강력한 자원이지만, 정제와 전처리의 품질에 따라 모델 성능이 좌우된다는 점을 항상 염두에 두고 접근해야 합니다.
'공공데이터 활용법 & 데이터 시각화 입문' 카테고리의 다른 글
디지털 헬스케어와 공공보건 데이터의 융합 사례 (0) 2025.06.09 공공데이터로 보는 전기차 확산 트렌드 (3) 2025.06.08 산업별 일자리 데이터로 직업 변화 예측하기 (2) 2025.06.06 공공데이터 기반 청년 정책 분석 콘텐츠 만들기 (1) 2025.06.05 국세청 API로 사업자 업종 현황 분석하기 (2) 2025.06.04