Predictive Model for Extinction Risk Areas with Machine Learning

Jungyeon Kim; Myungsik Do

doi:10.7470/jkst.2026.44.3.350

Preview

Article

Journal of Korean Society of Transportation. 30 June 2026. 350-362
https://doi.org/10.7470/jkst.2026.44.3.350

Predictive Model for Extinction Risk Areas with Machine Learning

머신러닝 기법을 이용한 소멸위험지역 예측모델 구축

Jungyeon KIM¹

Myungsik DO²^*

김 정연¹

도 명식²^*

¹Master’s Degree, Department in Urban Engineering, Hanbat National University, Daejeon 34158, Korea

²Professor, Department in Urban Engineering, Hanbat National University, Daejeon 34158, Korea

¹국립한밭대학교 도시공학과 석사연구원

²국립한밭대학교 도시공학과 교수

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

This study aims to build a machine learning-based predictive model to identify regions in South Korea at risk of local extinction. A Random Forest algorithm was applied to data from 232 cities, counties, and districts across the country. The dependent variable, the local extinction risk index, was calculated by averaging three existing indices related to regional population decline. To ensure a comprehensive analysis, 17 independent variables were selected from six domains: population, economy and finance, housing and households, transportation, environment and health care. The dataset was divided into training and testing subsets, and hyperparameters were optimized Using 5-fold cross-validation. The model showed strong predictive performance, with an R² of 0.94 and a MAPE of 7.76%, indicating reliable generalizability. Variable importance analysis revealed that the percentage of elderly population, OD traffic volume, and GRDP were the most influential factors in predicting extinction risk. Furthermore, time-series prediction results from 2025 to 2050 showed a gradual expansion of extinction risk, particularly among small and mid-sized cities outside the capital region. By 2050, over half of the regions were predicted to fall into high-risk categories. The consistency between actual and predicted values, with differences generally within ±1 risk stage, further supported the model’s external validity. These findings suggest that the proposed model can serve as a valuable tool for supporting long-term regional policy planning. However, a limitation of this study is that only six variables were available for future projections, excluding other potentially influential factors such as social or institutional elements. Future research should consider expanding the range of forecastable variables to enhance the model’s comprehensiveness and accuracy.

Keywords

extinction risk factors

extinction risk index

future projections

machine learning

random forest

본 연구는 한국의 지방소멸위험에 처한 지역을 식별하기 위한 머신러닝 기반 예측 모델을 구축하는 것을 목표로 하며, 전국 232개 시군구를 대상으로 랜덤포레스트(Random Forest) 알고리즘을 적용하였다. 종속변수인 지방소멸위험지수는 지역 인구 감소와 관련된 세 가지 기존 지수를 활용하였으며, 인구, 경제·재정, 주택·가구, 교통, 환경, 보건, 의료 여섯 가지 분야에서 총 17개 독립변수를 이용하였다. 데이터 셋은 훈련데이트와 테스트 데이트로 나누어졌으며 하이퍼파라미터는 5겹 교차검증을 통해 최적화하였다. 그 결과, 모델의 R²값은 0.94, MAPE 값은 7.76%로 모델의 일반화 능력이 신뢰할 수 있다. 변수별 중요도 분석 결과, 고령인구비율, OD통행량, GRDP가 소멸위험예측에 가장 큰 영향을 미치는 변수로 나타났다. 또한 2025년부터 2050년까지의 시계열 예측 결과, 특히 수도권 외 중소도시에서 소멸위험지역이 확산되는 경향을 보였으며, 2050년에는 절반 이상의 지역이 고위험지역으로 분류될 것으로 예측되었다. 본 연구의 성과는 장기적인 지역 정책 계획수립에 중요한 도구로 활용될 수 있을 것으로 기대된다. 그러나 장래예측 가능한 변수들이 일부에 국한되어 있으며, 사회적 또는 제도적 요인과 같은 다른 잠재적으로 영향력 있는 요소들을 충분히 반영하지 못한 점은 한계로 남아있다.

키워드

소멸위험요인

소멸위험지수

장래예측

머신러닝

랜덤포레스트

MAIN

서론
선행연구 검토
연구방법론
1. 자료의 특성
2. 머신러닝(Machine Learning)
3. 랜덤포레스트(Random Forest)
지역소멸위험 인자선정과 예측모형
1. 종속변수 설정
2. Feature Importance
3. 지방소멸 장래 예측
결론

서론

전 세계적으로 저출산과 고령화가 심화되면서 인구 감소와 저성장 시대로의 전환이 예상되며, 이에 따라 국토교통 전반에서 다양한 변화가 이루어질 것으로 전망된다. 국내 역시 1970년 이후 지속적인 출산율 저하와 고령화가 진행되어, 2024년 기준 합계출산율은 0.75명으로 최저치를 기록하고 있으며, 고령인구는 전체 인구의 19.2%에 이르고 있다. 이는 2030년에는 25.3%까지 확대될 것으로 보이며, 우리나라는 초고령사회에 진입할 것으로 전망된다(Statistics Korea, 2024). 이러한 구조적 변화는 지방의 인구 유출과 쇠퇴를 가속화시키고 있으며, 일부 지역은 소멸 가능성까지 거론되는 등 지방소멸 위기가 국가적 차원의 문제로 확산될 우려가 있다.

지방소멸은 단순한 인구 감소를 넘어 지역 경제 기반의 붕괴, 사회서비스 접근성 저하, 지역 불균형 심화 등 다양한 부작용을 수반하며, 국토의 효율적 이용과 지속가능성을 위협하는 핵심 이슈로 대두되고 있다. 이에 따라 정부와 지방자치단체는 청년 유입 촉진, 출산 장려, 지역 일자리 창출 등 다양한 정책을 시행해 왔으나, 이러한 대응이 단기적 처방에 머무르는 경우도 적지 않으며, 지역별 여건에 따른 실효성에는 한계가 존재하는 것으로 보인다. 따라서 보다 실질적인 지역 활력 회복을 위해서는 지역 특성과 장기적인 인구 변화 흐름을 반영한 중장기 전략 마련이 병행되어야 할 것이다.

한편, 지방소멸에 대한 기존 연구들 역시 단순 인구 지표 중심의 정적 통계 분석에 의존하거나, 특정 시점에 국한된 단편적 분석에 머무르는 경우가 많았다. 그러나 지방소멸은 인구뿐만 아니라 경제, 교통, 환경 등 다양한 요인이 복합적으로 작용하는 다차원적 문제이므로, 보다 정교하고 예측 기반의 접근이 필요하다. 이러한 배경 속에서 인공지능 및 머신러닝 기법은 변수 간의 비선형적 상호작용을 반영하고, 예측 정확도를 제고할 수 있는 대안으로 주목받고 있다. 미래예측 등 특히 정책 수립에 필요한 실증적 근거를 제시할 수 있다는 점에서 머신러닝은 복잡한 구조를 가진 다변량 데이터를 효과적으로 처리할 수 있으며 지방소멸 대응 전략 마련에 활용도가 높을 것으로 기대된다.

이에 본 연구는 머신러닝 기반의 예측모형을 활용하여 지방소멸위험지역의 장래 변화 양상을 예측할 수 있는 분석 체계를 구축하고자 한다. 특히 랜덤 포레스트 알고리즘을 중심으로 다양한 독립변수를 고려하여 소멸위험의 주요 원인을 규명하고, 예측 결과를 기반으로 향후 지방소멸 위험지역의 공간적 확산 양상과 정책적 개입의 필요성을 제시함으로써, 실효성 있는 지역 맞춤형 전략 수립에 기여하고자 한다.

선행연구 검토

국내외에서는 인구 감소와 관련된 다양한 연구가 활발히 수행되어 왔으며, 주요 연구 주제로는 지방소멸 개념이 다뤄져 왔다. 지방소멸은 젊은 여성 인구의 수도권 유출로 인한 인구 감소를 경고하는 개념으로, Masuda(2014)는 일본 내 지방의 쇠퇴 현상을 설명하는 과정에서 이를 정의하였다. 유사한 국내연구로 Lee(2018)는 고령화가 심화되는 상황에서 가임여성 인구가 지역에 정주하지 않을 경우 사회 유지가 어렵다고 보았으며, 20~39세 여성 인구와 65세 이상 고령 인구의 상대 비율을 활용해 지방소멸위험지수를 개발하고 소멸위험지역을 예측하였다.

Won et al.(2020)는 출산연령, 평균수명 등 현실적 요소를 반영해 기존 마스다 지수를 한국 실정에 맞게 조정한 지방소멸위험지수를 제안하였으며, 지역 낙인 효과를 완화하려는 의도도 내포하였으며, Heo et al.(2022)는 Masuda의 지방소멸 개념을 국내 상황에 맞게 확장하여, 한국의 경제구조와 인구 이동 특성을 반영한 K-지방소멸위험지수를 개발하고, 이를 기반으로 정책 과제를 제시하였다. 한편 Lee(2021)은 인구이동이 지방소멸위험에 미치는 영향에 주목하여, 인구이동의 결정 요인으로 주택, 교통시설, 환경 등을 설정하고 이들 요인 간의 관계를 분석하였다. 더불어 문화 인프라의 구축과 교육, 일자리 등 제도적 네트워크 형성이 소멸 대응에 효과적임을 강조하였다. 지방소멸과 관련하여 인구 측면 이외에 교통, 환경 등의 변수를 고려한 연구로 Lim and Hong(2019)은 전국 148개 시·군을 대상으로 대중교통 운영 여건을 진단하고, 교통수단 이용실태 조사를 통해 지역 간 연계성과 접근성을 평가한 바 있다. Yoo et al.(2021)은 머신러닝 기법을 활용하여 한국의 지방소멸 요인을 탐색하고, 기존 지방소멸지수의 한계를 보완한 개선 소멸지수를 제시하였다. 다양한 지역 특성 변수를 입력 변수로 설정하고, 변수 간 비선형적 관계를 고려할 수 있는 머신러닝 분석을 통해 지방소멸에 영향을 미치는 주요 요인을 도출하였다. 이는 지방소멸을 단일 요인이나 선형 관계로 설명하기보다는, 복합적인 지역 특성의 상호작용 결과로 이해해야 함을 시사한다.

국외의 연구를 살펴보면, Loras-Gimeno et al.(2025)은 농촌 인구감소 대응 정책에 관하여 200년 이후 66편을 검토한 결과, 농촌 인구감소 대응 문헌은 분절적이고 비교·일반화 가능성이 약하다는 것을 인식하고, 인구 감소에는 사회·재정·부문(산업)·인프라 정책이 영향을 미치지만, 단일 정책만으로는 효과가 부족해 복합적 정책 패키지의 필요성을 제시하였다. Viñas(2019)은 스페인 칸타브리아 사례에서 농촌 인구감소가 시·공간적으로 이질적이며, 산악 지자체는 중반 이전부터 감소가 시작되어 1960년대 정점을 거친 뒤 21세기 초까지 완화되었을 뿐 지속됨을 밝혔다. 대도시 및 인접 지역을 제외하면 산악 지역에서 실질적 소멸 수준의 감소가 확인되었으며, 이는 남유럽의 유사한 장기적 농촌 인구감소 과정을 해석하는데 유의한 시사점을 제공한 바 있다. 한편, Reades et al.(2019)는 기계학습을 활용하여 젠트리피케이션과 같은 복잡한 사회공간적 변화를 정량적으로 모델링하고, 과거 지역 변화 패턴을 기반으로 미래에 변화 가능성이 높은 지역을 예측할 수 있음을 보여준다. 특히 런던 지역의 인구조사 자료를 활용한 실증 분석을 통해 지역의 상승·하락 가능성을 전망하며, 도시 변화 이해에 있어 기계학습 기반 정량적 접근의 유효성을 강조한다.

이와 같이 선행연구들은 지방소멸을 단순한 인구감소의 문제가 아닌 인구구조, 경제여건 등 복합적인 요인들이 얽힌 지역 구조의 변화로 인식하고, 이에 대한 실증적 분석과 정책적 대응을 시도하고 있다. 최근에는 이러한 복합적 요인을 보다 유연하게 반영하기 위해 머신러닝 기법을 활용한 데이터 기반 분석도 점차 확대되고 있다. 본 연구 또한 이러한 흐름을 바탕으로 소멸위험지수를 활용한 정량적 분석과 함께 지역 간 불균형 문제를 진단하고자 한다.

연구방법론

1. 자료의 특성

본 연구는 전국 232개 시·군·구를 분석 대상으로 공간적 범위를 설정하였다. 시간적 범위는 2021년부터 2022년 자료를 기반으로 하였다. 본 연구는 단순히 인구 및 경제 지표에 국한하지 않고, 다양한 기초통계자료와 교통 현황 데이터를 함께 고려함으로써 보다 다양한 관점에서 지방소멸 위험을 예측하고자 하였다. 지방소멸은 단일 요인에 의해 발생하기보다 인구감소, 고령화, 경제력 약화, 생활기반 붕괴 등 복합적인 요인이 상호작용하며 나타나는 현상이다. 따라서 본 연구에서는 소멸위험에 영향을 미치는 다양한 요인을 포괄적으로 고려하고자 하였으며 선행연구에서 자주 활용된 변수들과 이론적 타당성을 바탕으로 인구, 경제 및 재정, 가구 및 주택, 교통, 환경의 6개 분야에서 각각 대표성 있는 17개의 변수를 활용하였다(Table 1 참조).

Table 1.

Independent variable

Category	Variable	Unit	Calculation formula	Source	Year
Demographics	Population growth rate	%	(Populationₜ-Populationₜ₋₁)/Populationₜ₋₁×100	Statistics Korea	2022
	Floating population	Persons	Registered population + nonresident population + registered foreigners	Ministry of the Interior and Safety, Ministry of Justice	2021- 2022
	Cude birth rate	%	Number of live births per 1,000 people	Vital Statistics Survey, Statistics Korea	2022
	Elderly population rate	%	(Populationaged 70 and over /Total population)×100	Ministry of the Interior and Safety	2022
Economy/ Finance	Fiscal independence rate	%	[(Local taxes + Nontax revenues) /Local government budget]×100	Ministry of the Interior and Safety (Fiscal Policy Division)	2022
	Grdp	Trillion KRW	Regional equivalent of GDP	Statistics Korea	2021
	Employment growth rate	%	(Employment Rateₜ-Employment Rateₜ₋₁)	Statistics Korea	2021- 2022
	Number of employees	Per1,000 persons	Employees(regular+temporary+others)in enterprises with 1 employee and over	Ministry of Employment and Labor, Business Labor Survey	2022
Housing	Apartment ration	%	(Number of apartments/Total number of housing units)×100	Housing Census, Statistics Korea	2022
Housing	Housing vacancy rate	%	(Number of vacant houses/Total number of housing units)×100	Population and Housing Census, Statistics Korea	2022
Transportation	Origin- destination traffic volume	10,000 trips/day	Total inbound+outbound traffic volume	KTDB (National Transport DataBase)	2022
	Distance to high-speed train station	km	Road distance to the nearest high-speed or semi-high-speed rail station	National Geographic Information Institute	2022
	Distance to the major airport	km	Road distance to the nearest major airport with 500,000 annual passengers and above	Korea Aviation Portal	2022
	Distance to expressway interchange	km	Road distance to the nearest expressway interchange	Korea Expressway Corporation	2022
Environment	Energy consumption	Thousand toe (ktoe)	Total use of oil, gas, electricity, heat, renewable, and other energy sources across all sectors (industry,transport,residential,etc.)	KESIS (Korea Energy Statistical Information System)	2022
Environment	NO₂	ppm	Nitrogen Dioxide Comcentration	Ministry of Environment	2022
Healthcare+	Hospital beds per 1,000 people	Per1,000 persons	(Total Hospital Beds/Resident Registration Population) × 1,000	Health Insurance Review, Assessment Service	2022

이 중 시계열 예측이 가능한 변수를 중심으로 예측모델에 적용하였으며, 구체적으로는 인구변수 3개(인구증가율, 조출생률, 고령인구 비율)와 교통변수 3개(유출·유입 통행량, 고속철도 도달거리, 고속도로 나들목 도달거리)를 중심으로 예측에 활용하였다. 다만 예측모형의 학습 단계에서는 Table 1에 제시된 모든 변수를 활용하였으며, 장래 예측 단계에서만 시계열 전망치가 제공되는 해당 변수들의 값만을 연도별로 변화시켜 조건부 예측을 수행하였다. 이때 장래 예측은 2025, 2030, 2035, 2040, 2045, 2050년으로 총 6개년 단위의 전망치를 활용하였다. 활용데이터의 객관성 확보를 위해 미래 예측 모델에 적용한 시계열 데이터의 경우, 공공기관의 포털에서 제공하는 DataBase를 활용하였음을 밝힌다. 이러한 분석을 통해 지방소멸에 영향을 미치는 핵심 요인을 도출하고, 이들이 지역별로 미치는 차별적 영향을 규명하고자 하였으며, 이를 바탕으로 지역의 회복력 강화를 위한 정책적 방향을 제시하고자 하였다. 나아가 본 연구는 단순한 현상 분석에 그치지 않고, 장래의 소멸위험 단계를 사전에 예측함으로써, 지역사회의 지속가능한 성장과 균형발전을 위한 전략 마련에 기여할 수 있을 것으로 기대된다.

2. 머신러닝(Machine Learning)

머신러닝(Machine Learning)은 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 그리고 강화학습(Reinforcement Learning)의 세 가지 방식으로 구분된다. 본 연구에서는 훈련 데이터와 목표값(target value)을 설정한 후, 이를 기반으로 모델을 학습하여 미래 데이터를 예측하는 모형을 구축하는 것을 목표로 하였으며, 이에 따라 지도학습 방식을 채택하였다. 지도학습은 입력 데이터를 통해 목표값을 예측하는 방식으로, 크게 분류(classification)와 회귀(regression)로 나뉜다. 머신러닝 기법 중 지방소멸위험지역 예측모형 선정하기 위해 본 연구는 단순한 예측 성능뿐만 아니라 변수 해석력, 일반화 가능성, 과적합에 대한 안정성을 종합적으로 고려하였다. 이에 결정나무 기반 앙상블 모형인 랜덤 포레스트(Random Forest, RF)와 그래디언트 부스팅 머신(Gradient Boosting Machine, GBM)을 비교 검토하였다. 랜덤 포레스트는 다수의 의사결정나무를 독립적으로 학습시켜 예측값을 평균함으로써 과적합을 효과적으로 억제하고, 다중공선성의 영향을 상대적으로 적게 받는 안정적인 특성을 가진다. 반면 그래디언트 부스팅은 예측 성능을 반복적으로 개선할 수 있으나 매개변수 설정에 민감하고 과적합 발생 가능성이 높다는 한계가 있다(Ka, 2023).

Table 2는 실제 본 연구 데이터에 적용한 결과로 그래디언트 부스팅 모형은 훈련 데이터에 대해서는 높은 예측 성능을 보였으나 검증 과정에서 과적합 현상이 반복적으로 관찰되었다. 반면 랜덤 포레스트 모형은 훈련 및 검증 데이터 간 성능 편차가 상대적으로 작아 보다 안정적인 일반화 성능을 나타냈으며, 하이퍼파라미터 최적화를 통해 추가적인 성능 개선 가능성도 확인되었다. 이러한 비교 결과를 종합하여 본 연구에서는 해석 가능성과 일반화 성능을 동시에 확보할 수 있는 랜덤 포레스트 모형을 최종 분석 모형으로 선정하였다.

Table 2.

GBM and RF 5-fold cross validation

Model	GBM					RF
R²	Average cross-fold R²: 0.8561					Average cross-fold R²: 0.8364
5-fold R²	0.50	0.49	0.85	0.90	0.92	0.81	0.76	0.87	0.86	0.89

3. 랜덤포레스트(Random Forest)

랜덤 포레스트는 다수의 의사결정나무를 결합하여 분류 및 회귀 문제에서의 예측 성능을 향상시키는 앙상블 기법이다. 각 트리는 독립적으로 데이터를 학습하며, 규칙 노드는 특정 조건에 따라 데이터를 분류하고, 리프 노드는 최종 예측값을 도출한다. 랜덤 포레스트는 특히 부트스트랩(Bootstrap) 방식을 사용하여 원본 데이터를 반복적으로 샘플링함으로써 데이터를 효과적으로 활용하고 예측의 안정성과 정확도를 높인다(Hong, 2021; Marcelino et al., 2019).

구체적으로 회귀트리(Regression Tree)는 연속형 종속변수를 예측하기 위해 사용되는 트리 기반의 모델로, 설명변수 공간을 여러 구간으로 분할하는 과정을 통해 예측을 수행한다(Figure 1 참조). 이때 각 설명변수 $X_{p} (p = 1, 2, . . ., P)$ 를 기준으로 전체 데이터를 중첩되지 않는 복수의 영역 $R_{j} (b = 1, 2, . . ., J)$ 로 나눈다. 이후 각 영역에 포함된 관측값들은 해당 영역 내의 평균값을 예측값으로 할당하며, 이러한 분할은 잔차제곱합(RSS: Residual Sum of Squares)을 최소화하는 방향으로 진행된다(James et al., 2013). 여기서 $y_{i}$ 는 $i$ 번째 관측치의 실제값이며, $\hat{y_{R j}}$ 는 $j$ 번째 영역 $R_{j}$ 에 포함된 관측치들의 평균 반응값으로 Equation 1로 정의된다.

(1)

\sum_{j = 1}^{J} \sum_{i \in R_{j}} {(y_{i} - \hat{y_{R j}})}^{2}

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F1.jpg

Figure 1

Random forest algorithm

이후 반복적으로 샘플링 된 부트스트랩이 총 B개의 데이터 세트를 각각의 샘플에 대해 독립적인 회귀트리 모델을 학습시키고, 이들의 예측 결과를 평균하여 최종 예측값을 도출하는 방법이 사용된다. 이 방식은 배깅(Bagging, Bootstrap Aggregating)이라 불리며, 모델의 분산을 줄이고 예측의 안정성을 높이는 데 효과적인 기법으로 알려져 있다. 개별 모형의 결과를 하나로 종합(Aggregation)하여 최종 예측 모형을 만드는 앙상블 모형인 것이다(James et al., 2013).

랜덤 포레스트의 주요 특징은 여러 개의 트리가 독립적으로 예측을 수행한다는 것이며 크게 분류모델과 회귀모델로 나뉘는데, 각 트리의 결과를 종합하는 방식에 있어서 분류 문제에서는 보팅(voting)에 따라 최종 예측값을 결정하고, 회귀 문제에서는 모든 트리의 예측값 평균을 최종 예측값으로 사용한다(Hong, 2021). 각 트리의 예측을 집계한 값을 $\hat{f} (x)$ 로 정의하며, 최종 예측값은 Equations 2, 3과 같다.

(2)

\hat{f} (x) = M o d e \hat{f} (x)

(3)

\hat{f} (x) = \frac{1}{B} \sum_{b = 1}^{B} \hat{f} (x)

본 연구에서는 랜덤 포레스트 알고리즘을 scikit-learn을 활용하여 구현하였으며, 이를 위해 랜덤 포레스트의 성능을 결정하는 하이퍼파라미터 값들을 설정하였다(Pedregosa et al., 2011).

랜덤 포레스트 알고리즘에서 모델 성능을 결정하는 주요 하이퍼파라미터는 다음과 같이 구분된다. Table 3에서 알 수 있는 바와 같이, 첫 번째는 의사결정나무의 개수를 결정하는 트리 수(n_estimators)이며, 이는 전체 포레스트를 구성하는 나무의 수를 의미한다. 일반적으로 트리의 수를 늘릴수록 예측 성능이 향상되지만, 일정 수준 이상의 나무 개수에서는 성능 향상이 미미해지고 계산 시간이 크게 증가하는 문제가 발생한다(Breiman, 2001). 따라서 모델 성능과 계산 효율성을 동시에 고려하여 적절한 나무의 개수를 설정하는 것이 중요하다.

두 번째 주요 하이퍼파라미터는 노드 분할 시 고려할 특성 수(max_features)로, 작은 값을 사용할수록 트리 간 상관성이 낮아져 분산은 줄지만 편향이 커질 수 있다. 반대로 값이 크면 편향은 줄지만 분산이 커질 수 있다. 또한 min_samples_split을 작게 하고 max_depth을 제한하지 않으면 트리가 과도하게 복잡해져 계산비용이 증가할 수 있으므로, 교차 검증을 통해 적절한 하이퍼파라미터를 설정하는 것이 중요하다.

Table 3.

Hyperparameters of the random forest algorithm

Hyperparameters	Details
n_estimators	Number of trees in the forest
max_features	Number of features to consider when looking for the best split
min_samples_split	Minimum number of samples required to split an internal node
max_depth	Maximum depth of the tree
min_samples_leaf	Minimum number of samples required to be at a leaf node

본 연구에서는 모델 성능 최적화를 위해 GridSearchCV를 적용하여 하이퍼파라미터를 체계적으로 탐색하고, 교차검증으로 각 조합의 성능을 일관되게 평가하였다. GridSearchCV는 사용자가 지정한 후보값의 모든 조합을 교차검증으로 검토해 최적 조합을 도출하는 기법으로, 데이터 규모가 크지 않거나 정밀한 성능 개선이 중요한 상황에서 특히 유효한 방법이다. 다만, 탐색 차원이 커질수록 계산 비용이 급증하는 단점이 존재한다(Müller and Guido, 2016).

그리드 서치의 개념은 미리 정한격자(grid)에 따라 탐색 범위를 규칙적으로 살피므로 성능에 큰 영향을 미치는 주요 하이퍼파라미터의 최적값을 명확하게 특정할 수 있다는 장점이 있으므로, 핵심 하이퍼파라미터를 중심으로 탐색 공간을 설계하고, GridSearchCV로 최적값을 결정하였다.

지역소멸위험 인자선정과 예측모형

1. 종속변수 설정

본 절에서는 먼저 전국 232개의 기초자치단체를 대상으로 현재의 지방소멸 수준을 정하기 위해 기존의 선행연구들을 바탕으로 지방소멸 단계를 설정하였다. 사용된 지방소멸지수는 Figure 2에서 알 수 있는 바와 같이, Masuda (2014)의 지방소멸위험지수, Won et al.(2020)의 개선된 지방소멸위험지수, Heo et al.(2022)의 K-지방소멸지수 등 세 가지 주요 지표를 활용하였다. 이들 지표는 각각 지방소멸의 특성을 다른 관점에서 반영하고 있으며, 모두 국내 지방소멸 현상을 분석하는 데 있어 높은 타당성과 신뢰도를 확보하고 있다는 공통점을 지니고 있기 때문이며, 객관성을 확보한다는 측면에서도 의미가 있다. 특히 세 지표의 값을 평균화하는 방식으로 하나의 통합된 지수를 산출하였는데, 이는 단일 지표에 의존하기보다는 서로 상이한 기준을 바탕으로 구성된 세 지표의 정보를 통합하여 우리나라의 지방소멸 위험 수준을 보다 균형 있고 대표성 있게 반영할 수 있을 것이라는 판단하였기 때문이다. 또한 본 통합 지수는 지방소멸 개념의 재정의를 목적으로 하기보다는, 예측모형 구축을 위한 실증적 종속변수로 활용하는 데 그 목적이 있다.

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F2.jpg

Figure 2

Types of extinction risk index

2. Feature Importance

GridSearchCV를 통해 도출된 초매개변수를 기반으로 랜덤 포레스트 모델을 구축하였으며, 이를 통해 변수 중요도(feature importance)를 분석하였다. 분석 결과, 예측 모델에서 가장 큰 영향을 미친 변수는 고령인구비율(X4), 유출유입통행량(X11), GRDP(X6)로 나타났으며, 이 외에도 재정자립도(X5), 종사자수(X8), 생활인구(X2), 아파트비율(X9) 등 다양한 변수들이 일정 수준 이상의 영향을 보였다(Figure 3 참조).

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F3.jpg

Figure 3

Variable importance in the random forest model

이러한 결과는 소멸위험지역을 설명함에 있어 인구 구조, 경제·재정 지표, 주거 및 교통 요소들이 복합적으로 작용함을 시사한다. 특히 인구 및 고령화 지표 외에도 교통 접근성과 재정적 자립능력이 소멸위험과 밀접한 관련이 있음을 확인할 수 있다.

모델의 예측 성능을 정량적으로 평가하기 위해 K-fold 교차검증을 적용하였으며, 이를 통해 산출된 R²(결정계수), MSE(평균제곱오차), RMSE(평균제곱근오차), MAE(평균절대오차), MAPE(평균절대백분율오차) 등 총 다섯 가지 지표를 활용하였다. 이러한 결과는 일반적인 머신러닝 모델 평가 기준에서 우수한 성능을 나타낸다고 판단할 수 있다. 특히 R² 값이 0.9 이상으로 모델의 설명력이 매우 높았으며, MSE·RMSE·MAE 값이 0에 가까울수록 모델의 예측 정확도가 높다는 점에서 본 모델은 소멸위험지역 예측에 있어 신뢰성 있는 성능을 보였다고 할 수 있다. 또한, MAPE 값이 7.756%로 10% 이하로 나타나 우수한 예측력을 입증하였다(Table 4 참조).

결론적으로, 제안된 랜덤 포레스트 기반 예측 모형은 평가 지표 전반에서 높은 성능을 나타내며, 지방소멸위험지역의 식별 및 예측에 있어 효과적으로 활용될 수 있는 가능성을 보여준다.

Table 4.

Model performance metrics based on 5-Fold cross-validation

Metric	R²(R-squared)	MSE	RMSE	MAE	MAPE
Value	0.936	0.008	0.089	0.064	7.756%

3. 지방소멸 장래 예측

본 연구에서는 지방소멸위험지수(Masuda, 2014), 개선된 지방소멸위험지수(Won et al., 2020), K-지방소멸지수(Heo et al., 2022) 등 국내외 선행연구에서 제시된 대표적인 세 가지 소멸지수를 활용하였다. 이들 지수 모두에서 공통적으로 소멸위험지수가 1.5 이상인 경우 소멸위험이 매우 낮은 지역으로 분류하고 있어, 본 연구 역시 이를 반영하여 1.5 이상인 지역을 ‘소멸위험 매우 낮음’ 단계로 설정하였다. 1.5 이하에 해당하는 지역은 2022년 기준 전국 232개 시·군·구 중 소멸위험지수가 가장 낮은 지역의 값을 기준으로 하여 1.5까지의 범위를 4분위로 등분하였다. 그 결과, Table 5에서와 같이, 지방소멸위험지수를 기반으로 총 5단계(0단계: 소멸 고위험, 1단계: 소멸위험 진입, 2단계: 소멸주의, 3단계: 소멸위험 보통, 4단계: 소멸위험 매우 낮음)로 지역을 구분하였다. 이러한 단계 구분은 장래 연도별로 예측된 소멸위험지수 값을 동일한 기준에 적용한 결과로, 과거 지수의 단순 추세 연장이 아닌 모형 기반 예측 결과에 따른 상대적 위험 수준을 의미한다.

Table 5.

Defined stages and ranges of the extinction risk index

Level		Extinction risk index
4	Very low	≥ 1.5
3	Low	1.161-1.5
2	Moderate	0.823-1.161
1	High	0.484-0.823
0	Very high	< 0.484

Figure 4에는 전국 232개 시군구를 대상으로 통합 소멸지수의 예측값과 실제값을 비교한 것이다. IQR(Interquartile Range) 기준에 따라 예측 오차가 상·하위 13개 지역에 해당하는 사례를 추출하고, 이 중 단계가 변화한 지역과 그렇지 않은 지역을 구분하여 분석을 수행하였다. 그 결과, 전체 232개 지역 중 203개 지역(약 87.5%)에서 실제 단계와 예측 단계가 높은 수준의 일치도를 보였다. 한편, 단계가 변경된 지역 대부분은 실제 지수가 단계 경계값 인근에 위치해 있었으며, 미세한 수치 차이에도 불구하고 예측 단계가 달라지는 현상이 일부 나타났다. 이는 모델의 오류라기 보다는 단계 구간의 민감도에 기인한 결과로 해석할 수 있다.

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F4.jpg

Figure 4

Actual vs. predicted attrition risk stage comparison and change analysis results

2022년부터 2050년까지 전국 232개 시군구의 지방소멸위험단계를 예측한 결과, 시간의 흐름에 따라 소멸위험은 점진적이고 구조적인 확산 양상을 보이는 것으로 나타났다. Figure 5에는 2022년, 2035년, 2050년을 기준으로 각 연도별 소멸위험단계를 시각화한 것으로, 시간이 지남에 따라 고위험지역(0~1단계)이 점차 확대되고, 반대로 소멸위험이 낮은 지역(3~4단계)은 줄어드는 공간적 추세를 명확히 보여준다. 한편, 소멸위험이 낮은 지역(저위험 단계, 녹색 계열)은 2040년 이후 사라질 것으로 예상되었으며, 해당 지역은 소멸위험 중간 단계인 Moderate 범주에 속하게 됨을 확인하였다. 즉, 시간의 경과에 따라 소멸위험으로부터 안전한 지역은 거의 사라지며, 고 위험지역의 수는 증가하지만 주민의 수는 인구의 자연감소와 지역 간 이동 등의 영향으로 거의 변화가 없는 것으로 나타났다. 따라서 중간 위험 단계에 해당하는 지역의 비중이 점진적으로 확대되는 양상을 보였다.

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F5.jpg

Figure 5

Comparative extinction risk index and population exposure by year

이러한 양상은 Figure 6에서도 시계열적으로 확인할 수 있다. 전체 시군구의 소멸위험 단계를 연도별 누적 백분율로 나타낸 결과, 소멸위험이 낮은 지역의 비율은 지속적으로 감소하고, 고위험지역의 비중은 점차 확대되는 경향을 보였다. 특히 2040년 이후에는 전국 대부분의 지역이 소멸위험주의(2단계)이하로 분류되며, 소멸위험이 매우낮은 지역(4단계)은 사실상 사라지는 것으로 예측되었다.

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F6.jpg

Figure 6

Cumulative change in local extinction risk index (2022–2050)

이러한 시계열적 변화는 지방소멸이 단기적인 현상이 아닌 장기적이고 누적적인 인구 구조 변화의 결과임을 시사하며, 조기 대응의 중요성을 강조한다. 특히 2025~2030년은 소멸위험 확산의 전환점으로 판단되며 이 시기를 중심으로 인프라 확충, 정주환경 개선 등이 병행된다면 이후 확산을 억제할 수 있을 것으로 기대된다.

2022년과 2050년의 소멸위험지역 현황을 권역별로 비교한 결과, 소멸위험지역은 전반적으로 증가하는 추세를 보였다. Figure 7에서는 권역별로 2022년 대비 2050년에 소멸지역으로 분류되는 시군구 수의 변화를 보여준다. 수도권은 전반적으로 안정적인 양상을 보이는 반면, 광주·울산광역시는 현재 소멸지역이 존재하지 않던 지역에서 2040년에는 소멸위험지역이 발생할 것으로 예측되어, 수도권도 소멸지역에서 예외가 아님을 시사한다. 또한 비수도권 대부분의 시·도에서 소멸지역 수가 2050년까지 계속해서 증가하는 것으로 나타났으며, 이는 시군구 단위를 넘어 권역 또는 광역 차원에서의 대응 전략 수립이 필요하다.

https://cdn.apub.kr/journalsite/sites/kst/2026-044-03/N0210440303/images/kst_2026_443_350_F7.jpg

Figure 7

Counts of depopulation-prone areas by province: 2022 vs. 2050

이와 같은 양상은 소멸위험이 단순히 농촌이나 고령화 지역의 문제가 아닌, 국토 전반의 공간구조 재편과 직결된 전국적 문제임을 시사한다. 또한 예측 결과는 지역 간 불균형뿐 아니라, 지역 내부 격차의 심화 가능성까지도 내포하고 있다. 수도권을 제외한 대부분의 광역자치단체에서 소멸위험지역이 확대되는 가운데, 같은 시도 내에서도 인구·재정·교통 여건에 따라 소멸위험 단계가 뚜렷하게 분화되는 양상을 확인할 수 있었다. 이러한 상황은 단일한 국가 정책만으로는 대응이 어렵고, 각 지역별 특성과 맥락을 반영한 다층적이고 분권적인 대응체계가 필요함을 시사한다. 특히 지방소멸이 구조적이고 누적적인 성격을 갖고 있는 만큼, 단기적 인센티브 중심의 대응보다는 인구 유지 기반 마련, 일자리 창출, 교육·복지·교통 인프라 확충 등 정주여건 전반에 걸친 개선 노력이 뒷받침되어야 한다. 단기적 대응을 넘어서는 중장기적 관점에서의 대응이 요구되며, 지역 간 경쟁이 아닌 협력적 네트워크를 바탕으로 한 생활권 단위의 연계 전략이 필요하며, 장기적인 국토 균형발전 계획 속에서 지방소멸 대응이 통합적으로 논의되어야 할 시점이다.

결론

본 연구는 전국 232개 시·군·구를 대상으로 지방소멸위험지역을 예측하고, 주요 영향을 미치는 요인을 규명하기 위해 머신러닝 기반의 분석모형을 구축하였다. 분석 결과, 본 연구는 기존의 정적 통계 분석에 비해 보다 유연하고 정교한 머신러닝 기반 예측모형을 통해 지방소멸위험지역을 효과적으로 예측하였으며, 변수별 영향력 분석을 통해 지역소멸에 영향을 미치는 핵심 요인을 규명하였다. 이러한 접근은 지방소멸이라는 복합적 문제에 대한 과학적이고 실증적인 대응전략 수립에 기여할 수 있으며, 향후 국가 차원의 장기적 정책 수립과 지역 맞춤형 대응방안 마련을 위한 기초자료로 활용될 수 있을 것이다. 나아가 지방소멸 대응은 단순히 위험지역을 식별하는 데 그치지 않고, 실제 주민의 삶의 질과 연계된 생활서비스 접근성을 제고하는 방향으로 확장되어야 한다. 이를 위해 기존의 행정구역 중심의 획일적인 권역 구분에서 벗어나, 의료·교육·교통·문화 등 주요 생활서비스가 실질적으로 제공될 수 있는 범위를 고려한 ‘생활서비스 권역(Living Service Region)’ 개념의 도입이 필요하다. 이러한 권역 설정은 인구 구조 변화와 지역 특성을 반영하여, 생활권 단위의 균형 있는 정책 배분과 인프라 재정비를 가능하게 함으로써, 지방소멸의 실질적 대응 기반을 보다 정밀하게 마련할 수 있을 것이다. 다만 본 연구는 장래 예측이 가능한 자료의 한계로 인해 인구 및 교통 관련 6개 변수(인구증가율, 조출생률, 고령인구비율, 유출입 통행량, 고속철도 도달거리, 고속도로 IC 도달거리)를 중심으로 분석을 수행하였으며, 경제·환경·복지 등 장래 예측이 어려운 요인들을 충분히 반영하지 못한 한계가 존재한다. 또한 예측 모델의 특성상 행정구역의 변동이나 예상치 못한 정책 변화, 외부 충격(예: 팬데믹, 대규모 인프라 개발 등)을 사전에 고려하기 어렵다는 점도 본 연구의 제약으로 작용한다. 더불어 본 연구에서는 인접 시군구 간 상호작용으로 인해 발생할 수 있는 공간적 자기상관성을 명시적으로 반영하지 못하였으며, 랜덤포레스트 모형의 변수중요도 역시 각 변수의 상대적 기여도를 제시하는 데 그쳐 종속변수에 대한 영향의 방향성이나 민감도를 직접적으로 해석하는 데에는 한계가 있다. 이러한 점을 고려할 때, 향후 연구에서는 장기 시계열 자료의 확충과 함께 공간적 특성을 반영한 분석 기법을 적용하고, SHAP과 같은 설명가능한 인공지능(XAI) 기법을 활용하여 변수별 영향의 방향성과 크기를 보다 정밀하게 분석할 필요가 있다. 이를 통해 예측 결과에 대한 해석력을 제고하고, 정책적 활용 가능성을 한층 강화할 수 있을 것으로 기대된다.

알림

본 논문은 대한교통학회 제93회 학술발표회(2025.9.26)에서 발표된 내용을 수정·보완하여 작성된 것입니다.

References

Breiman L. (2001), Random Forests, Machine Learning, 45(1), 5-32.

10.1023/A:1010933404324

Heo M. G., Lee S. H., Kim Y. S., Yoo I. S., Cho S. M., Kim J. Y., Cho S. G. (2022) Managing Population Decline in South Korea in an Era of Rural Decay Through Building a Virtuous Cycle of Regional Economy, Research Report, National Research Council for Economics, Humanities and Social Sciences, 22-44. (in Korean)

Hong J. U. (2021), A Mass Appraisal Model on Residential Property with Random Forest Algorithm, Journal of Real Estate Analysis, 7(1), 1-28.

10.30902/jrea.2021.7.1.1

James G., Witten D., Hastie T., Tibshirani R. (2013), An Introduction to Statistical Learning with Applications in R, New York: Springer.

10.1007/978-1-4614-7138-7

Ka S. J. (2023), Predictive Model for Resolving Public Conflicts Using Machine Learning Technique, The Korean Journal of Public Administration, 32(4), 225-251.

10.22897/KIPAJN.2023.32.4.008

Lee D. J. (2021), Factors Influencing Local Extinction: Focusing on 17 Metropolitan/Provincial Governments, Public Administration Journal, 33, 1-24. (in Korean)

Lee S. H. (2018), In-depth Analysis of Korea’s Local Extinction: Trends from 2013 to 2018 and Inter-regional Migration Outside the Capital Area, Employment Trend Brief, 2-21, Sejong: Korea Employment Information Service (KEIS). (in Korean)

Lim S. H., Hong S. J. (2019), Revitalizing Demand-Responding Mobility Service in Declining Local Cities, KOTI Basic Research Report, Sejong: Korea Transport Institute.

Loras-Gimeno D., Díaz-Lanchas J., Gómez-Bengoechea G. (2025), Rural Depopulation in the 21st Century: A Systematic Review of Policy Assessments, Regional Science Policy & Practice, 100176.

10.1016/j.rspp.2025.100176

Marcelino P., de Lurdes Antunes M., Fortunato E., Gomes M. C. (2019), Machine Learning Approach for Pavement Performance Prediction, International Journal of Pavement Engineering, 22(3), 341-354.

10.1080/10298436.2019.1609673

Masuda H. (2014), Local Extinction; Chuokoron-ShinSha, Tokyo.

Müller A. C., Guido S. (2016), Model Evaluation and Improvement, Introduction to Machine Learning with Python, 1, 262-263.

Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O. et. al. (2011), Scikit-learn: Machine learning in Python, Journal of Machine Learning Research, 12, 2825-2830.

Reades J., De Souza J., Hubbard P. (2019), Understanding Urban Gentrification Through Machine Learning, Urban Studies, 56(5), 922-942.

10.1177/0042098018789054

Statistics Korea (2024), 2024 Statistics on the Aged, Press Release, September 26, Retrieved from: https://kostat.go.kr/(Accessed: 26 September 2024).

Viñas C. D. (2019), Depopulation Processes in European Rural Areas: A case study of Cantabria (Spain), European Countryside, 11(3), 341-369.

10.2478/euco-2019-0021

Won G. H., Chae S. J., Seol Y. H. (2020), Is the Criterion for the Local Extinction Risk Index Appropriate?, Chungbuk FOCUS, 1-26. (in Korean)

Yoo H. B., Tak K. J., Mun J. S. (2021), Study on the Factors and Overcoming Methods of Extinction of Provinces in Korea: The Exploration with Machine Learning methods, The Korean Journal of Local Government Studies, 24(4), 443-476.

10.20484/klog.24.4.18

Journal of Korean Society of Transportation ISSN:1229-1366(Print) 2234-4217(Online) 대한교통학회지

Preview

Predictive Model for Extinction Risk Areas with Machine Learning

ABSTRACT

MAIN

Table 1.

Independent variable

Table 2.

GBM and RF 5-fold cross validation

(1)

Figure 1

Random forest algorithm

(2)

(3)

Table 3.

Hyperparameters of the random forest algorithm

Figure 2

Types of extinction risk index

Figure 3

Variable importance in the random forest model

Table 4.

Model performance metrics based on 5-Fold cross-validation

Table 5.

Defined stages and ranges of the extinction risk index

Figure 4

Actual vs. predicted attrition risk stage comparison and change analysis results

Figure 5

Comparative extinction risk index and population exposure by year

Figure 6

Cumulative change in local extinction risk index (2022–2050)

Figure 7

Counts of depopulation-prone areas by province: 2022 vs. 2050

알림

References