데이터 분석에서 가장 중요한 단계는 의외로 ‘분석’ 그 자체가 아닙니다. 분석을 하기 전에 반드시 거쳐야 하는, 정제와 전처리 단계가 전체 과정의 70% 이상을 차지한다고 해도 과언이 아닙니다. 특히 공공데이터는 그 출처가 다양하고 포맷이 불균형한 경우가 많기 때문에 실전 활용을 위해서는 반드시 데이터를 ‘깨끗한 상태’로 만들어야 합니다. 많은 초보 분석가들이 ‘공공데이터포털’이나 ‘서울열린데이터광장’ 등에서 데이터를 수집한 후, 바로 시각화나 통계 분석에 들어가려 하지만, 그러한 접근은 오히려 오해를 낳거나 잘못된 인사이트를 도출할 수 있습니다. 결측치, 이상치, 불필요한 컬럼, 중복 행 등을 먼저 정리해야 신뢰도 높은 결과를 만들 수 있습니다. 이 글에서는 실전 공공데이터를 활용해 정제 및 전처리 과..