데이터 종류 및 구조 정리
개요
이 노트는 지방세 세수 예측 프로젝트에 사용되는 데이터의 종류와 구조에 대해 설명합니다.
데이터 종류
- 지방세 수입 실적: 1994년부터 2022년까지의 지방세 수입 실적 데이터.
data/processed/actual_revenue_1994-2022.pkl파일에 저장됨. - 당초예산: 2018년부터 2022년까지의 지방세 순계 당초예산 데이터.
results/budget.xlsx파일에 저장됨.
데이터 분류
두 데이터 모두 6가지 유형으로 분류됩니다.
- 광역단위(본청+기초) 지역의 지역별 지방세
- 본청(광역시)의 지방세
- 기초자치단체의 지방세
- 광역단위 지역별 세목별 지방세
- 본청의 세목별 지방세
- 기초자치단체의 세목별 지방세
지역별 지방세
- df_index = 0: 본청과 기초(합계) / 지방세 합계
- df_index = 1: 본청 / 지방세 합계
- df_index = 2: 기초 / 지방세 합계
- index1과 index2는 기초와 본청으로 기초와 본청을 합해야 해당 지역의 지방세 합과 같음ㄷㄷ
지역별 세목별 지방세
- df_index = 3: 본청과 기초(합계) / 세목별
- df_index = 4: 본청 / 세목별
- df_index = 5: 기초 / 세목별
- index4와 index5는 기초와 본청으로 기초와 본청을 합해야 해당 지역의 지방세 합과 같음
데이터 구조
- 지방세 수입 실적 데이터는
pickle파일로 저장되며,pandasDataFrame 형태로 로드됩니다. 주요 컬럼은 다음과 같습니다.지역명: 광역시도 또는 기초자치단체 이름PRD_DE: 연도DT: 지방세 수입C1_NM: 지역 구분 (광역시, 기초 등)C2_NM: 세목UNIT_NM: 단위area01: 지역 구분 (본청, 기초, 합계, 기타)
- 당초예산 데이터는
xlsx파일로 저장되며,pandasDataFrame 형태로 로드됩니다. 주요 컬럼은 다음과 같습니다.model_params: “당초예산”으로 고정df_index: 데이터 유형 인덱스 (0~5)region: 지역 이름tax_type: 세목 (“지방세” 또는 개별 세목)pred_year: 예측 연도predicted: 당초예산 금액
추가 정보
- 데이터 전처리 과정은 preprocessing 노트를 참고하세요.

