데이터 종류 및 구조 정리

개요

이 노트는 지방세 세수 예측 프로젝트에 사용되는 데이터의 종류와 구조에 대해 설명합니다.

데이터 종류

  • 지방세 수입 실적: 1994년부터 2022년까지의 지방세 수입 실적 데이터. data/processed/actual_revenue_1994-2022.pkl 파일에 저장됨.
  • 당초예산: 2018년부터 2022년까지의 지방세 순계 당초예산 데이터. results/budget.xlsx 파일에 저장됨.

데이터 분류

두 데이터 모두 6가지 유형으로 분류됩니다.

  1. 광역단위(본청+기초) 지역의 지역별 지방세
  2. 본청(광역시)의 지방세
  3. 기초자치단체의 지방세
  4. 광역단위 지역별 세목별 지방세
  5. 본청의 세목별 지방세
  6. 기초자치단체의 세목별 지방세

지역별 지방세

  • df_index = 0: 본청과 기초(합계) / 지방세 합계
  • df_index = 1: 본청 / 지방세 합계
  • df_index = 2: 기초 / 지방세 합계
    • index1과 index2는 기초와 본청으로 기초와 본청을 합해야 해당 지역의 지방세 합과 같음ㄷㄷ

지역별 세목별 지방세

  • df_index = 3: 본청과 기초(합계) / 세목별
  • df_index = 4: 본청 / 세목별
  • df_index = 5: 기초 / 세목별
    • index4와 index5는 기초와 본청으로 기초와 본청을 합해야 해당 지역의 지방세 합과 같음

데이터 구조

  • 지방세 수입 실적 데이터는 pickle 파일로 저장되며, pandas DataFrame 형태로 로드됩니다. 주요 컬럼은 다음과 같습니다.
    • 지역명: 광역시도 또는 기초자치단체 이름
    • PRD_DE: 연도
    • DT: 지방세 수입
    • C1_NM: 지역 구분 (광역시, 기초 등)
    • C2_NM: 세목
    • UNIT_NM: 단위
    • area01: 지역 구분 (본청, 기초, 합계, 기타)
  • 당초예산 데이터는 xlsx 파일로 저장되며, pandas DataFrame 형태로 로드됩니다. 주요 컬럼은 다음과 같습니다.
    • model_params: “당초예산”으로 고정
    • df_index: 데이터 유형 인덱스 (0~5)
    • region: 지역 이름
    • tax_type: 세목 (“지방세” 또는 개별 세목)
    • pred_year: 예측 연도
    • predicted: 당초예산 금액

추가 정보

  • 데이터 전처리 과정은 preprocessing 노트를 참고하세요.