Analyzing the Associations between the Fatal Accidents of Older Adult Drivers and Road Environments in Seoul,  Korea: Focusing on Non-linear Relationships and Interaction Effects Using Machine Learning

Jeonghun Moon; Jinjoo Jang; Sugie Lee

doi:10.7470/jkst.2025.43.2.161

Preview

Article

Journal of Korean Society of Transportation. 30 April 2025. 161-180
https://doi.org/10.7470/jkst.2025.43.2.161

Analyzing the Associations between the Fatal Accidents of Older Adult Drivers and Road Environments in Seoul, Korea: Focusing on Non-linear Relationships and Interaction Effects Using Machine Learning

서울시 고령 운전자의 중상 및 사망사고와 도로 환경의 연관성 분석: 기계학습을 활용한 비선형성과 상호작용 효과를 중심으로

Jeonghun MOON¹

Jinjoo JANG¹

Sugie LEE²^*

문 정훈¹

장 진주¹

이 수기²^*

¹Master’s Degree, Department of Urban Planning and Engineering, Hanyang University, Seoul 04763, Korea

²Professor, Department of Urban Planning and Engineering, Hanyang University, Seoul 04763, Korea

¹한양대학교 도시공학과 석사과정

²한양대학교 도시공학과 교수

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

This study analyzes traffic accident data from the TAAS (2017-2019) to examine non-linear relationships and interaction effects between road environmental factors and fatal accidents involving older adult drivers in Seoul. Machine learning-based tree ensemble algorithms and the SHAP method were used to provide insights integrating theoretical perspectives. The main findings are as follows: First, the XGBoost model performed best in predicting accidents for both older adult drivers and non-older adult drivers, with significant improvement observed for non-older adult drivers using the SMOTE technique. Second, for older adult drivers, road network characteristics and complex environments (intersection count, commercial facility density) were key factors, while non-older adult drivers showed more flexibility, reducing the importance of these factors. Green space proportion was found to lower accident probability for older adult drivers. Third, non-linear patterns were observed in variables such as Closeness, commercial facility density, and openness, with accident probability rising sharply beyond certain thresholds. Finally, interaction effects based on Attention Restoration Theory indicated that in areas with high commercial facility density or enclosed environments, an optimal green space ratio reduced accident probability. These results suggest that green spaces can enhance attention and reduce accidents for older adult drivers in complex environments. This study informs road environment design and traffic policy development to reduce older adult drivers accidents, highlighting the need for tailored safety strategies based on non-linear patterns and interactions.

Keywords

ensemble algorithms

fatal accidents

interaction effects

non-linear relationships

older adult drivers

본 연구는 2017년부터 2019년까지의 TAAS 교통사고 데이터를 활용하여 서울시 고령 운전자의 중상 및 사망사고 발생과 도로 환경적 요소 간의 비선형 관계 및 상호작용 효과를 탐구하였다. 이를 위해 기계학습 기반의 트리 앙상블 알고리즘과 SHAP 기법을 적용하고, 이론적 관점을 결합하여 심층적인 통찰을 도출하였다. 주요 연구 결과는 다음과 같다. 첫째, XGBoost 모형은 고령 및 비고령 운전자의 교통사고 예측에서 가장 우수한 성능을 보였으며, 특히 비고령 운전자의 예측에서는 SMOTE 기법을 활용한 성능 개선이 관찰되었다. 둘째, 고령 운전자의 사고 예측에서는 도로 네트워크의 구조적 특성과 복잡한 도로 환경(교차로 수, 상업시설 밀도)이 중요한 변수로 작용하는 반면, 비고령 운전자는 도로 환경에 더 유연하게 반응하여 해당 변수들의 중요도가 낮음을 확인하였다. 특히, 녹지 비율은 고령 운전자의 사고 확률을 저감시키는 중요한 요소로 나타났다. 셋째, SER 이론을 바탕으로 도로 환경과 사고 확률 간의 비선형 관계를 분석한 결과, Closeness, 상업시설 밀도, 개방감 등에서 비선형적 패턴이 발견되었으며, 특정 임계치를 초과할 경우 사고 확률이 급격히 증가하는 경향이 나타났다. 마지막으로, ART 이론을 기반으로 녹지 비율과 도로 환경 요소 간의 상호작용 효과를 분석한 결과, 상업시설 밀도가 높은 지역이나 폐쇄적인 도로 환경에서 적정 녹지 비율이 조성되면 사고 확률이 감소하는 경향을 보였다. 이러한 결과는 고령 운전자가 복잡한 도로 환경에서 자연적 요소인 녹지를 통해 주의 회복을 돕고, 사고를 예방할 수 있음을 시사한다. 본 연구는 고령 운전자의 사고를 줄이기 위한 도로 환경 설계 및 교통 관리 정책 수립에 유용한 정보를 제공하며, 특히 비선형적 사고 예측 패턴과 상호작용 효과 분석을 기반으로 한 맞춤형 교통 안전 전략의 필요성을 강조한다.

키워드

앙상블 알고리즘

중상 및 사망사고

상호작용 효과

비선형 관계

고령 운전자

MAIN

서론
선행연구 검토
1. 교통사고 발생과 도로 환경적 요인
2. 교통사고 분석 방법론
3. 선행연구의 한계 및 연구의 차별성
연구 방법론
1. 연구 지역 소개 및 분석 과정
2. 데이터 수집 및 활용변수
3. 데이터 전처리 및 기술 통계분석
4. 기계학습을 활용한 사고 예측 모형 개발 및 성능평가
5. Shapley Additive exPlanations(SHAP)
분석 결과 및 논의
1. 최적 모형 선정
2. 특성 중요도 분석
3. 비선형 관계 분석
4. 상호작용 효과 분석
결론
1. 연구의 종합
2. 연구의 한계점 및 향후 연구

서론

고령화의 가속화로 인해 고령 운전자의 교통사고가 중대한 사회적 문제로 부각되고 있다. 고령 운전자는 반응 속도와 시각 및 청각 등 감각 기능 저화를 포함한 신체적 변화로 인해 심각한 사고(Fatal Accident)에 연루될 확률이 다른 연령층에 비해 상대적으로 높다(Ali et al., 2023; Park et al., 2023). 최근 교통사고 통계에 따르면 65세 이상의 고령 운전자의 중상 및 사망사고율은 0.16%로, 비고령 운전자의 사고율인 0.079%보다 두 배 이상 높은 것으로 보고되었다(TAAS, 2023). 이는 심각한 사고 전반에서 고령 운전자의 높은 사고 위험성을 방증하며, 이에 따라 고령 운전자를 대상으로 한 중상 및 사망사고 발생 요인에 대한 심층적 분석이 요구된다.

특히 도로 환경과 고령 운전자의 교통사고 발생 간의 관계는 이론적 근거를 바탕으로 한 실증적 분석이 요구되며, 이를 통해 도로 설계와 교통안전 정책에 중요한 시사점을 제공할 수 있다. Theeuwes의 ‘자가 설명 도로 이론’(Self-Explaining Roads, SER)은 도로 환경이 운전자의 기대에 부합하도록 설계될 때, 안전한 운전 행동을 유도하며 적정 속도를 유지하게 되어 교통사고의 위험을 감소시킬 수 있다고 설명한다. 이러한 이론은 도로 설계가 운전 행동에 미치는 영향을 설명하는 중요한 근거를 제공한다. 한편 Beck et al.(2013)과 Day et al.(2012)의 연구는 운전 중 경험하는 스트레스가 심각한 교통사고로 이어질 가능성이 높다는 점을 강조하며, 이러한 스트레스 요인을 경감시키는 자연환경의 역할에 주목한다. 환경심리학의 ‘주의 회복 이론’(Attention Restoration Theory, ART)에 따르면, 자연환경은 고갈된 주의 자원을 회복시키고 인지적 스트레스를 완화하는 데 기여할 수 있다. 이는 도로 주변의 자연적 요소가 운전자의 주의력을 회복시키고 사고 심각도를 낮추는 데 중요한 역할을 할 수 있음을 시사한다.

교통사고는 단일 요인이 아니라 다수의 복합적 요인들이 상호작용하며 발생하기 때문에 사고의 심각도와 관련된 변수들 간에는 선형적인 관계를 넘어서 비선형적 관계와 복잡적 상호작용이 존재할 가능성이 크다(Ahmed et al., 2023). 그러나 기존 연구에서는 이러한 복잡성을 충분히 반영하지 못한 한계가 있었다(Ahmed et al., 2023). 따라서 본 연구는 기계학습을 활용한 비선형 모델링과 변수 간 상호작용 분석을 활용하여 정교한 사고 예측 모형을 제시하고자 한다. 이러한 맥락에서 본 연구의 목적은 다음과 같이 두 가지로 요약될 수 있다. 첫째, SER 이론을 기반으로, 고령 운전자가 사고 위험을 낮출 수 있는 도로 환경의 임계 구간을 규명하고자 한다. 여기서 임계 구간은 도로 환경이 고령 운전자의 행동과 기대에 적합하게 설계된 조건을 의미하며, 이를 통해 사고 감소에 기여할 수 있는 구체적인 설계 요소를 제시하고자 한다. 둘째, ART 이론을 기반으로 고령 운전자가 자연환경에서 경험하는 주의 회복 효과를 탐구한다. 이를 통해 고령과 비고령 그룹 간 사고 예방 효과에서 자연환경 특성과 다른 도로 환경 요소 간의 상호작용을 비교 분석하고자 한다.

선행연구 검토

1. 교통사고 발생과 도로 환경적 요인

먼저, 도로 환경은 도로의 물리적 특성뿐만 아니라 주변 건축물, 녹지 공간, 보행로, 교차로 및 토지이용 패턴 등 다양한 요소들이 복합적으로 상호작용하여 형성되는 종합적인 환경을 의미한다. 선행연구에서는 이러한 도로 환경적 요인과 교통사고 발생 및 사고의 심각도 간의 관계를 분석하기 위해 여러 변수를 활용한 바 있다. 주요 변수로는 토지이용 요인(상업, 주거, 업무 지역 밀도), 물리적 환경 요인(교차로, 버스 정류장, 지하철 역 수 등), 그리고 통제 요인(교통량, 도로 폭, 인구 수 등)이 있다. 특히 사고 심각도 분석에서는 통행 속도가 사고의 심각도와 밀접한 연관이 있기 때문에 이를 중요한 통제 변수로 활용하였다(Yoon et al., 2016). 물리적 환경 요인 중 교차로의 복잡한 교통패턴과 상업지역의 높은 교통량은 고령 운전자의 인지적 부담을 증가시켜 사고 발생 및 사고 심각도와 높은 연관성을 보여왔다(Cicchino and McCartt, 2015; Clarke et al., 2010; Lee and Gim, 2019; Oh et al., 2015; Pulugurtha et al., 2013). 또한, Lee and Gim(2019)은 고령 운전자가 주행 속도, 도로 유형 등 다양한 환경적 요인의 영향을 민감하게 받아 도로 환경에 대한 심리적 부담이 상대적으로 높다고 언급하고 있다.

그러나 교통사고 분석에서 가용 데이터의 한계로 인해 운전자의 위험 요소를 하나의 데이터셋에서 포괄적으로 평가하는 데 제약이 있으며(Alshehri et al., 2024), 이에 따라 기존 연구들에서는 분석에 사용된 변수의 차별성이 부족한 경향이 있다. 이러한 한계를 극복하기 위한 노력으로, 최근 몇 년 간 컴퓨터 비전 기술이 교통 연구에서 중요한 도구로 떠오르고 있다. 특히 Street View Imagery(SVI)는 도시의 물리적 환경을 정량적으로 분석하는 데 유용한 데이터 소스로 주목받고 있다. SVI를 활용하면 운전자의 시점과 유사한 각에서 녹지 비율, 하늘 비율, 밀폐된 거리 환경 등과 같은 도로 환경 변수들을 정량화하여 분석할 수 있다(Park and Lee, 2024; Harvey and Aultman-Hall, 2015). 이러한 접근은 기존의 데이터 수집 방법으로는 포착하기 어려운 미세한 도로 환경의 차이를 반영할 수 있으며, 교통사고 발생에 미치는 영향을 보다 정교하게 분석할 수 있는 가능성을 제시한다. 따라서 본 연구에서는 기존의 도로 환경 변수들을 바탕으로, SVI를 활용하여 더욱 세밀한 도로 환경 요소를 정량화하여 종합적인 변수를 구축하고자 한다.

2. 교통사고 분석 방법론

교통사고 분석 중 전통적인 통계적 분석 방법론은 종속변수의 형태에 따라 적합한 분석 기법을 선택하는 것이 중요하다. 예를 들어, 이산형 변수는 사고 빈도 분석에 사용되며, 푸아송(Poisson) 회귀나 음이항(Negative Binomial) 회귀모델이 일반적으로 활용된다(Park and Lee, 2016). 미시적 사고 분석에서는 0값이 과도하게 나타날 경우, 0과잉(Zero-inflated) 푸아송이나 음이항 모형을 적용되기도 한다(Kweon and Lee, 2024; Lim et al., 2012). 순서형 변수는 사고의 심각도나 피해 정도를 분석하는 데 사용되며, 순서형 프로빗(Ordered Probit)이나 순서형 로짓(Ordered Logit) 모형이 주로 사용된다(Han and Park, 2011; Lee et al., 2020). 또한, 이진형 변수는 사고 발생 여부를 분석하는 데 활용되며, 로지스틱 회귀모형(Logistic Regression)을 일반적으로 적용한다(Kim et al., 2022). 이러한 전통적인 통계모형은 결과 해석이 직관적이고 명확한 장점이 있다. 그러나 변수 분포와 독립변수 간 관계에 대한 특정 가정을 필요로 하며, 가정이 위반될 경우 모수 추정에 문제가 생길 수 있다(Yang et al., 2021; Wen et al., 2021).

반면, 기계학습 방법은 변수의 분포나 변수 간 관계에 대한 명확한 가정에 의존하지 않기 때문에 비선형성과 변수 간의 복잡한 상호작용을 더 잘 포착할 수 있다(Yue, 2024). 또한, 결측치나 이상치가 포함된 불완전한 데이터에 대해서도 유연하게 대응할 수 있어, 데이터의 불완전성에 대해 더 높은 강건성을 보인다. Nassiri et al.(2023)은 Random Forest, XGBoost, CatBoost, LightGBM과 같은 앙상블 학습 알고리즘이 비선형 종속성을 고려할 수 있어, 전통적인 통계모형보다 사고 예측 성능이 우수하다고 제안하였다. 하지만 이러한 모델들은 예측 정확도에 중점을 두고 있기 때문에 결과를 심층적으로 이해하는 데 한계가 있다. 이에 따라 최근에는 기계학습의 발전으로 모델 예측 결과를 해석할 수 있는 기법들이 등장하였으며, 그중 하나가 Shapley Additive Explanations(SHAP) 기법이다. 이는 비선형 관계와 변수 간의 상호작용 효과를 식별할 수 있는 방법으로 주목받고 있으며(Xiao et al., 2021), 이를 정량적으로 평가하여 구체적인 도시 계획 및 교통안전 정책 제안에 활용되고 있다(Kim and Lee, 2023).

종합적인 도로 환경을 구축하는 과정에서 다중공선성(Multicollinearity) 문제에 직면할 수 있으며, 이로 인해 전통적인 통계기법 적용에 한계가 있을 수 있다. 본 연구의 주요 목적은 사고 발생과 도로 환경 요소 간의 비선형 관계와 변수 간 상호작용을 규명하는 것이므로, 이러한 복잡성을 반영할 수 있는 기계학습 기반 분석 방법론이 적합하다고 판단하였다. 이에 따라, 사고 예측 성능이 우수하고 비선형 관계를 고려할 수 있는 앙상블 학습 알고리즘(Random Forest, XGBoost, CatBoost, LightGBM)을 활용하였다. 또한, 변수 간 복잡한 상호작용을 모델링할 수 있는 SHAP 기법을 결합하여 도로 환경 요인의 영향력에 대한 구체적이고 직관적인 해석을 제공하고자 하였다.

3. 선행연구의 한계 및 연구의 차별성

기존 연구들은 교통사고 데이터의 가용성 한계로 인해 변수 선택의 제약이 있었으며, 이는 도로 환경의 복합적 특성을 반영한 변수 설정이 부족하였다. 또한, 교통사고 발생과 도로 환경 간의 관계를 선형적으로 가정하여 복잡한 교통사고 발생 메커니즘을 효과적으로 설명하는 데 한계가 있었다. 이러한 한계를 극복하기 위한 본 연구의 차별성은 다음과 같다.

첫째, SER 및 ART 이론을 근거로 도로 환경 변수들을 종합적으로 구축하여 분석하였다. 특히, 폐쇄감, 개방감, 녹지 비율과 같은 인지적 및 자연 환경적 요소들을 정량화하여 도로 환경이 운전자의 행동에 미치는 영향을 보다 세밀하게 분석하였다. 둘째, 본 연구에서는 데이터 불균형 문제를 해결하기 위해 SMOTE(Synthetic Minority Over-sampling Technique) 기법을 적용하였다. 이는 소수 클래스의 데이터를 기반으로 가상 데이터를 생성하여 각 클래스의 비율을 균형 있게 맞추는 오버샘플링 기법이다. 이를 통해 모델이 모든 범주의 데이터를 균형 있게 학습할 수 있고, 이후 SHAP 분석을 통해 변수의 중요도를 정밀하게 해석할 수 있는 기반을 마련하였다. 마지막으로, 본 연구는 사고 발생과 개별 요인 간의 비선형적 관계를 탐구하고, 두 변수 간의 상호작용이 사고 발생에 미치는 영향을 분석하였다. 이를 통해 사고 발생의 복잡한 메커니즘을 해석하고, 구체적인 정책적 시사점을 제시할 수 있다.

연구 방법론

1. 연구 지역 소개 및 분석 과정

본 연구는 서울특별시 전역을 연구 대상지로 설정하였다(Figure 1 참조). 서울시는 무분별한 가로시설물 배치로 인해 도로의 유효 폭이 줄어들어 차량의 충돌 가능성이 높아지는 등 여러 불편함을 초래하고 있다(Park, 2023). 이러한 특성은 도로 환경과 사고 발생 간의 연관성을 분석하기에 적합한 사례 지역으로 판단되었다. 본 연구에서는 500m × 500m 격자를 분석단위로 선정하였다. 이는 선행연구에서 교통사고 발생 패턴 및 도로 환경 분석을 위해 동일한 격자 크기가 효과적으로 사용된 바 있다(Park, 2023). 또한, 분석단위 내 신호 교차로 수의 평균은 1.538, 표준편차는 1.459로, 격자 내 도로 환경의 변화가 크게 다르지 않음을 시사한다. 이는 도로 환경이 일관되게 유지된다는 중요한 지표로 해석될 수 있다. 나아가, 본 연구에서 적용한 기계학습 기법은 고령 운전자의 교통사고 예측을 위한 이항 분류 문제로, 500m 격자 단위가 각 클래스의 비율을 균형 있게 유지하는 특성을 보였다. 이러한 특성은 모델 학습 효율성과 예측 신뢰성을 눂이므로, 적절한 분석단위로 판단되었다. 세부적으로 산지 및 하천을 포함하는 공간 면적은 제외하였다. 이는 교통사고 데이터가 도로 지점에서 발생된 사고 이력만을 포함하고 있어 데이터의 일관성을 유지하기 위함이다. 시간적 범위는 교통 패턴의 변동성을 배제하기 위해 코로나19 팬데믹 이전인 2017년부터 2019년까지의 3년으로 한정하였다. 연구의 분석 과정은 Figure 2와 같다.

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F1.jpg

Figure 1.

Study area & unit of analysis

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F2.jpg

Figure 2.

Analysis process of the study

2. 데이터 수집 및 활용변수

본 연구는 서울시 500m 격자 내 중상 및 사망사고와 도로환경 요인 간 연관성을 분석하기 위해 도로교통공단의 교통사고 분석시스템(Traffic Anccident Analysis System: TAAS)에서 교통사고 원자료를 수집하였다. 종속변수는 중상 및 사망사고 발생 여부로, ‘제1 또는 2 당사자가 사망하거나 중상에 해당하는 차대차 사고’로 정의하였다. 또한, 노인복지법 및 도로교통법에서 만 65세 이상을 노인으로 규정한 것에 기인하여 고령과 비고령 집단을 구분하였다. 통제 요인으로 작용하는 악천후의 기상 조건 및 야간 사고 시간대는 분석 범위에서 제외하였으며(Alshehri et al., 2024), 계절에 따른 영향요인을 제어하기 위해 매년 4월부터 9월까지의 6개월간 데이터를 활용하였다. 최종 추출된 사고 데이터는 사고 지점의 좌표 정보를 활용하여 500m 격자에 매핑(mapping)하였으며, 격자별 사고 건수를 집계하여 사고 발생 여부를 구분하였다. 본 연구는 실증분석을 위해 교통 및 인구, 도로 네트워크, 교통 안전시설, 도로 유형, 토지이용, 물리적 환경 그리고 운전자의 시각적 특성으로 구분되는 독립변수로 모형을 구성하였다(Table 1 참조).

Table 1.

Definition of variables and data source

Category	Variables	Unit	Definition	Data source
Dependent variable	Older adult driver accident	dummy	Fatal traffic accident occurrence in the grid: 1, otherwise: 0	TAAS(2017 ~ 2019)
Dependent variable	Non-older adult driver accident	dummy	Fatal traffic accident occurrence in the grid: 1, otherwise: 0	TAAS(2017 ~ 2019)
Traffic and population (control variables)	Road width variability	m	Standard deviation of road width within the grid	New Address Database(2018)
	Congestion costs	1 million KRW	Traffic congestion costs within the grid	Real Estate Big Data Platform(2023)
	Vehicle speed	km/h	Average vehicle speed within the grid	Seoul Transport Operation & Information Service(2018)
	Population	1,000 persons	Resident population within the grid	National Statistics Office (2018)
Network	Closeness	-	Closeness of the road network within the grid	New Address Database (2018)
	Betweenness		Betweenness of the road network within the grid
	Diversion ratio		Diversion ratio of the road network within the grid
Road hierarchy	Principal arteria	0~1	The ratio of the length of principal arterial roads to the total length of all road types within the grid	New Address Database (2018)
	Minor atrerial		The ratio of the length of minor arterial roads to the total length of all road types within the grid
	Collection road		The ratio of the length of collection roads to the total length of all road types within the grid
	Local road		The ratio of the length of local roads to the total length of all road types within the grid
Safety facilities	Color lane markings	units	Number of color lane markings within the grid	Seoul Open Data Plaza (2019)
Safety facilities	Safety zones	units	Number of safety zones within the grid	Seoul Open Data Plaza (2019)
Land use	Residential facility	km²	Total floor area of residential facilities per urbanized area within the grid	New Address Database (2018)
	Commercial facility		Total floor area of commercial facilities per urbanized area within the grid
	Office facility		Total floor area of office facilities per urbanized area within the grid
Physical environments	Intersections	units	Number of 35-way intersections within the grid	Seoul Open Data Plaza (2019)
	Subway entrances		Number of subway entrances within the grid	Seoul Open Data Plaza (2019)
	Bus stations		Number of bus stations within the grid	Kakao Map API(2019)
	Slope	%	Average slope within the grid	Real Estate Big Data Platform(2023)
Driver’s visual factors	Urban Enclosure Index (UEI)	0~1	Sum of the proportions of buildings, walls, and fences, representing enclosure in the environment. Quantified from 20m images, averaged over a grid	Naver Street View (2017~2019)
	Sky View Factor (SVF)		Proportion of the sky as a measure of openness. Quantified from 20m images, averaged over a grid.
	Green View Factor (GVF)		Proportion of green space in the road environment. Quantified from 20m images, averaged over a grid.

먼저, 교통 및 인구 특성 변수는 도로 폭 변동성, 교통혼잡비용, 통행 속도, 인구 수이며 통제 변수로 활용하였다. 특히, 교통혼잡비용은 Volume to Capacity Ratio(V/c)의 대리변수(Proxy Variable)로 사용되었다. 도로 폭 변동성 데이터는 2018년 새주소 DB에서 제공되는 도로망 데이터를 활용하였으며, 교통혼잡비용은 2023년 부동산 빅데이터 플랫폼에서 제공된 최신 자료를 바탕으로 산출하였다. 통행 속도는 2018년 서울시 교통정보 시스템에서 제공된 자료를 이용하였고, 인구수는 2018년 SGIS에서 제공되는 인구 통계자료를 사용하였다.

둘째, 도로 네트워크 특성 변수는 Closeness, Betweenness, Diversion Ratio를 사용하였다. Closeness는 각 500m 격자 내의 네트워크의 접근성(Accessibility)을 나타내는 지표이다. 이는 특정 교차로에서 다른 모든 교차로까지의 최단 거리 합으로 계산되었다. Betweenness는 분석단위 내 교차로가 네트워크 내에서 얼마나 많은 최단 경로에 포함되는지를 나타내며, 교차로의 중개 역할(Intermediary role)을 평가하는 지표이다. 이는 교차로가 다른 두 교차로 간의 최단 경로에 포함되는 비율을 기반으로 계산되었다. Diversion Ratio는 분석단위 내 도로 네트워크의 구조적 복잡성이나 경로 선택의 다양성을 평가하는 지표이다. 이는 각 교차로에 대해 실제 도로 네트워크 상의 경로 길이(Geodesic Length)를 직선 거리(Crow Flight Distance)로 나눈 비율을 사용하여 측정된다. 세 가지 변수는 도로 네트워크의 서로 다른 측면을 반영하며 각각의 특성을 종합적으로 고려함으로써 사고 발생과의 관계를 심층적으로 이해하고자 하였다. 변수는 Q-GIS 3.6.1의 플러그인인 sDNA를 활용하여 계산하였으며, 사용된 도로망 데이터는 2018년 새주소 DB에서 제공된 자료를 활용하였다.

셋째, 교통 안전시설 변수로는 노면 색깔 유도선과 안전지대를 설정하였다. 노면 색깔 유도선은 주행 경로를 시각적으로 안내하여 차선 이탈 및 불필요한 차선 변경을 최소화하며, 안전지대는 도로 분·합류 지점에서 차량 또는 보행자의 상충을 방지한다. 이러한 안전시설은 차량 간 사고 발생에 직·간접적인 영향을 미칠 수 있어 분석 변수로 포함하였다. 데이터는 2019년 서울 열린 데이터 광장에서 제공되는 자료를 바탕으로 집계하였다.

넷째, 도로 유형은 주간선, 보조간선, 집산, 이면도로 비율을 활용하여 설정하였다. 도로 위계와 유형은 고령 운전자가 주행 중 민감하게 영향을 받는 주요한 요소로 간주되어(Lee and Gim, 2019) 분석 변수로 포함하였다. 사용된 도로망 데이터는 2018년 새주소 DB에서 제공되는 도로 네트워크 자료를 활용하였다.

다섯째, 토지이용 특성 변수는 주거, 상업, 업무시설 밀도를 활용하였다. 이는 선행 연구(Hadayeghi et al., 2003; Pulugurtha et al., 2013)에서 토지이용이 교통사고 발생에 중요한 영향을 미치는 변수로 제시되었기 때문이다. 사용된 변수는 새주소 DB에서 제공되는 2018년 전자지도 자료를 통해 구축하였다.

여섯째, 물리적 환경 특성 변수는 교차로, 버스정류장, 지하철역 입구 수, 경사도를 활용하였다. 교차로는 운전자의 빠른 정보 처리와 반응이 요구되는 복잡한 주행 환경을 나타내며(Guo et al., 2010), 버스정류장과 지하철역 입구는 대중교통 이용이 빈번한 지역으로 차량 간 충돌 사고의 위험이 증가할 수 있는 지점을 형성한다. 경사도는 주행 안전성에 영향을 미치는 요소이므로(Fu et al., 2011), 변수로 설정하였다. 교차로, 버스정류장 수는 지하철역 입구 서울 열린 데이터 광장에서 제공되는 2019년 자료를 활용하였으며, 지하철역 입구 수는 Kakao API를 통해 2019년 자료를, 경사도는 부동산 빅데이터 플랫폼의 2023년 자료를 활용하였다.

마지막으로 시각적 특성 변수는 폐쇄감(Urban Enclosure Index: UEI), 개방감(Sky View Factor: SVF), 녹지 비율(Green View Fator: GVF)을 사용하였다. 이는 의미론적 분할기법(Semantic Segmentation)을 통해 도출된 것으로, 해당 기법은 컴퓨터 비전과 딥러닝 분야에서 이미지를 픽셀 수준에서 이해하고 개별 요소를 분할하는 기술이다(Figure 3 참조). 본 연구에서는 서울시 도로 네트워크를 20m 단위로 분할하여 결절점에 해당되는 총 266,274개의 지점의 파노라마 이미지 데이터를 동일한 고도에서 수집하였다. 수집된 데이터를 기반으로 OCRNet+HRNetV2+ W48 딥러닝 모델을 활용하여 도로, 보행로, 건물, 벽, 펜스, 전봇대, 하늘, 녹지 등 다양한 객체에 대한 비율을 정량적으로 분석하였다. 이러한 객체 비율은 격자 단위로 집계되었으며, 각 격자에서의 평균값을 계산하였다. 모델의 성능은 mean Intersection over Union(mIoU)를 기준으로 평가되었으며, Cityscape 데이터셋에서 mIoU가 81.35로 산출되었다. 이는 기존 mIoU 벤치마크 결과와 비교했을 때 높은 수준의 정확도를 나타내어 본 알고리즘을 연구에 활용하는 데 적합함을 입증하였다(Yuan et al., 2020). 객체 비율에 대한 식은 다음과 같이 정의된다.

(1)

R_{c} = \frac{N_{c}}{N}

여기서, $R_{c}$ 는 객체 $c$ 의 비율, $N$ 은 파노라마 이미지의 총 픽셀 수, $N_{c}$ 는 객체 c가 포함된 픽셀 수를 나타낸다. 폐쇄감의 조작적 정의는 건물, 벽, 펜스 비율의 합이며, 이는 주행환경의 밀폐감을 나타낸다. 개방감은 하늘 비율을 대리변수로 활용하였다. 이처럼 도출된 변수들은 운전자의 시각적 인지와 관련된 중요한 설명변수로 활용되었다.

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F3.jpg

Figure 3.

Example of an image with semantic segmentation

3. 데이터 전처리 및 기술 통계분석

본 연구에서는 고령 그룹과 비고령 그룹으로 나누어 두 개의 모델을 별도로 구축하였다. 고령 그룹의 경우, 사고 발생과 미발생 사례의 비율이 약 47:53으로 비교적 균형을 이루었으나, 비고령 그룹에서는 그 비율이 약 82:18로 불균형이 나타났다. 본 연구에서는 데이터 불균형 문제를 해결하기 위해 비고령 그룹에 SMOTE 기법을 적용하였다. 이는 사고 심각도 연구에서 활용된 바 있다(Ahmed et al., 2023). SMOTE 기법을 통해 비고령 그룹의 각 클래스의 비율은 50:50으로 균등화하여, 모델이 각 클래스를 효과적으로 학습할 수 있도록 하였다. SMOTE 기법 적용 전후의 이항 클래스 비율 변화는 Figure 4(a)에 제시되어 있다. 고령 그룹은 상대적으로 데이터 불균형이 적었으므로, 별도의 오버샘플링 기법을 적용하지 않았다.

중상 및 사망사고 예측 모형을 구축하기에 앞서, 데이터의 분포와 특성을 파악하기 위해 기술 통계분석을 수행하였다(Table 2 참조). 본 연구에서는 변수 간 스케일 차이를 보정하기 위해 Min-Max 스케일링을 적용하였으나, 원본 데이터 분포를 명확히 제시하기 위해 원본 데이터의 기술통계분석 결과를 보고하였다. 또한, 변수의 상관관계를 분석한 결과(Figure 4(b) 참조), 일부 변수에서 상관계수가 0.5를 초과하는 경우가 있었으나, 트리기반 앙상블 알고리즘은 이상치 및 변수 간 상관성에 대한 강건성을 가지므로(Yue, 2024), 일부 변수의 다중공선선 문제로 인한 예측 성능에 큰 영향을 미치지 않는 것으로 판단되었다.

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F4.jpg

Figure 4.

Accident occurrence ratio before and after SMOTE(a) & Correlation matrix(b)

Table 2.

Definition of variables and data source

Category	Variables	Count						Mean	Std	Min	Max
		Befor SMOTE			After SMOTE
			Train(80%)	Test(20%)		Train(80%)	Test(20%)
Dependent Variable	Elderly driver Fatal traffic accident	1,760	0: 757(53%)	0: 177	1,760	0: 757(53%)	0: 177	-	-	-	-
	Elderly driver Fatal traffic accident	1,760	1: 651(47%)	1: 175	1,760	1: 651(47%)	1: 175	-	-	-	-
	Non-elderly driver Fatal traffic accident	1,760	0: 253(18%)	0: 65	1,760	0: 1,155(50%)	0: 65	-	-	-	-
	Non-elderly driver Fatal traffic accident	1,760	1: 1,155(82%)	1: 287	1,760	1: 1,155(50%)	1: 287	-	-	-	-
Traffic and population	Road width variability	1,760						7.519	3.873	0.000	32.025
	Congestion costs	1,760						10.141	9.578	0.009	64.954
	Vehicle speed	1,760						26.183	7.443	11.810	92.593
	Population	1,760						5.057	3.394	0.005	14.916
Network	Closeness	1,760						2.703	1.187	0.080	8.629
	Betweenness	1,760						3.199	2.067	0.059	11.338
	Diversion ratio	1,760						1.777	0.692	1.149	3.624
Safety facilities	Color lane markings	1,760						0.680	2.955	0.000	36.000
Safety facilities	Safety zones	1,760						6.136	6.210	0.000	48.000
Road hierarchy	Principal arteria	1,760						0.031	0.166	0.000	1.000
	Minor atrerial	1,760						0.146	0.287	0.000	1.000
	Collection road	1,760						0.562	0.339	0.000	1.000
	Local road	1,760						0.251	0.267	0.000	1.000
Land use	Residential facility	1,760						1.734	15.257	0.000	605.901
	Commercial facility	1,760						0.376	4.099	0.000	168.165
	Office facility	1,760						0.910	22.058	0.000	895.858
Physical environmental	Intersections	1,760						1.538	1.459	0.000	9.000
	Subway entrances	1,760						0.151	0.398	0.000	2.000
	Bus stations	1,760						5.934	4.442	0.000	27.000
	Slope	1,760						12.986	7.683	0.400	60.786
Driver’s visual	Urban Enclosure Index (UEI)	1,760						0.598	0.156	0.004	0.848
	Sky View Factor (SVF)	1,760						0.138	0.068	0.007	0.584
	Green View Factor (GVF)	1,760						0.158	0.120	0.002	0.609

4. 기계학습을 활용한 사고 예측 모형 개발 및 성능평가

본 연구에서는 기계학습 기법 중 앙상블 알고리즘인 Random Forest, Extreme Gradient Boosting(XGBoost), Categorical Boosting(CatBoost), Light Gradient Boosting Machine(Light-GBM)을 활용하였다. 또한, k-fold validation(k=5)과 베이지안 최적화(Bayesian Optimization) 기법을 적용하여 모델을 검증하고, 일반화 성능을 향상시키고자 하였다.

1) 트리 기반 앙상블 알고리즘(Tree-based Ensembled Algorithms)

트리 기반 앙상블 알고리즘은 다수의 결정 트리(Decision Tree)를 결합하여 예측 성능을 향상시키는 강력한 기계학습 기법이다. 해당 알고리즘은 개별 트리의 예측 결과를 통합함으로써, 과적합을 방지하고 모델의 일반화 능력을 향상시키는 특징을 지닌다. 특히, 복잡하고 비선형적인 데이터 패턴을 효과적으로 학습할 수 있어 전통적인 통계적 기법보다 우수한 사고 예측 도구이다(Nassiri et al., 2023).

먼저, Random Forest는 가장 널리 사용되는 의사결정 트리 기반의 앙상블 알고리즘이며, 강력한 예측 성능을 지닌다. 이 알고리즘의 성능은 주로 세 가지 주요 하이퍼파라미터인 트리의 개수, 노드 크기 및 샘플링된 특성의 수에 의해 결정된다(Ahmed et al., 2023). 이에 따라, 본 연구에서는 선행 연구에서 제시한 하이퍼파라미터 값을 적용하여 모형을 구축하였다. XGBoost는 Gradient Boosting 알고리즘의 상위 버전으로, 시스템 최적화와 알고리즘 개선의 장점이 있다(Chen et al., 2016). CatBoost는 Gradient Boosting 알고리즘을 기반으로 하며, 범주형 데이터 전처리를 위해 원-핫 인코딩(One-Hot Encoding)을 사용하지 않고, 고유한 처리 방법을 사용한다. 또한 다른 부스팅 알고리즘들처럼 파라미터 조정이 필수적이지 않고, 초기 파라미터 설정만으로도 효과적인 예측이 가능하다(Prokhorenkova et al., 2018). 마지막으로, Light-GBM은 나무가 수직으로 성장하는 특성을 가진 알고리즘으로, 정보 손실을 최소화하면서 빠른 학습 속도와 낮은 메모리 사용량의 특성을 지닌다(Ahmed et al., 2023). 알고리즘별 연구에 활용된 하이퍼파라미터는 Table 3과 같다.

Table 3.

Hyperparameter settings for each algorithm

Model	Hyperparameter	Definition	Role/Function
Random forest	n_estimators	The number of decision trees in the forest	Stability
	max_feature	The fraction of features to consider when looking for the best split in each tree	Diversity
	max_depth	The maximum depth of each decision tree	Complexity
	min_samples_split	The minimum number of samples required to split an internal node	Generalization
	min_samples_leaf	The minimum number of samples required to be at a leaf node	Regularization
XGBosst	n_estimators	Number of trees to build	Complexity
	learning_rate	Controls the contribution of each tree to the final prediction	Learning rate
	max_depth	Maximum depth of each tree	Complexity
	subsample	Fraction of training data used for each tree	Overfitting control
	colsample_bytree	Fraction of features used for each tree	Feature selection
CatBoost	n_estimators	Number of trees to build	Complexity
	learning_rate	Controls the contribution of each tree to the final prediction	Learning rate
	max_depth	Maximum depth of each tree	Complexity
	subsample	Fraction of training data used for each tree	Overfitting control
	colsample_bytree	Fraction of features used for each tree	Feature selection
Light-GBM	n_estimators	Number of trees to build	Complexity
	learning_rate	Controls the step size at each iteration	Learning rate
	max_depth	Maximum depth of each tree	Complexity
	num_leaves	Maximum number of leaves in each tree	Complexity
	min_child_samples	Minimum number of samples required to form a leaf	Overfitting control

2) 성능 평가

본 연구에서는 예측 모형의 성능을 평가하기 위해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score, ROC AUC를 주요 지표로 사용하였다. 정확도(Accuracy)는 전체 예측 중에서 올바르게 예측된 샘플의 비율을 나타내며, 전체적인 모형의 성능을 평가하는 간단한 지표이다. 정확도의 식은 다음과 같이 정의된다.

(2)

Accuracy = \frac{Number of Correct Predictions}{Total Predictions} = \frac{T P + T N}{T P + T N + F P + F N}

여기서, $T P$ (True Positive)는 실제 양성 클래스를 양성으로 예측한 수, $T N$ (True Nagative)은 실제 음성 클래스를 음성으로 예측한 수, $F P$ (False Positive)는 실제 음성 클래스를 양성으로 예측한 수, $F N$ (False Positive)은 실제 양성 클래스를 양성으로 예측한 수를 의미한다. 하지만 정확도는 데이터가 불균형할 경우에는 한계가 있을 수 있기 때문에, 정밀도(Percision)와 재현율(Recall)을 추가적으로 고려한다.

정밀도(Precision)는 모델이 양성으로 예측한 것 중에 실제로 정확하게 예측된 양성 샘플의 비율을 나타내는 지표이다. 즉, 양성 예측의 정확성을 나타내는 지표이다. 정밀도의 식은 다음과 같이 정의된다.

(3)

Precision = \frac{True Positives}{Predicted Positives} = \frac{T P}{T P + F P}

재현율(Recall)은 실제 양성 클래스 중 모델이 정확히 양성으로 예측한 비율을 나타내며, 다음과 같이 정의된다.

(4)

Recall = \frac{True Positives}{Actual Positives} = \frac{T P}{T P + F N}

F1-Score는 정밀도와 재현율의 균형을 맞추기 위한 조화 평균으로, 두 지표를 모두 고려할 수 있는 장점이 있다. 특히, 데이터가 불균형한 경우 유용하며, 양성과 음성 예측을 균형있게 평가할 수 있다.

(5)

F 1 Score = 2 \times \frac{Precision \times Recall}{Precision + Recall}

ROC-AUC(Receiver Operating Characteristic - Area Under the Curve)는 모델이 양성과 음성 클래스를 얼마나 잘 구분하는지 평가하는 중요한 지표이다. ROC 곡선은 True Positive Rate(TPR)과 False Positive Rate(FPR)간의 관계를 나타낸다. AUC는 이 ROC 곡선 아래의 면적을 측정하는데, AUC 값은 0과 1 사이의 값을 가진다.

(6)

A U C = \int_{0}^{1} T P R (F P R) d F P R

5. Shapley Additive exPlanations(SHAP)

SHAP는 각 특성(feature)이 모델 예측에 미치는 영향을 평가하는 기법으로, 특성의 상대적 기여도를 수치적으로 추정하고 이를 시각화하는 강력한 도구이다(Kim and Lee, 2023). 핵심 원리는 게임 이론에서 유래한 Shapley 값을 기반으로 각 변수의 기여도를 계산하는 데 이는 각 변수의 ‘공정한 기여’를 정의하는 개념이다(Shapley, 1953). SHAP는 변수 간의 상호작용을 포함한 비선형 관계를 분석할 수 있는 장점이 있으며, 특히 복잡한 머신러닝 모델에서 각 특성이 예측에 미치는 영향을 명확히 파악하는 데 중요한 도구로 활용된다.

본 연구에서는 세 가지 주요 분석 기법을 활용하여 모델 예측 결과를 설명하고자 한다. 첫 번째, 특성 중요도(Feature Importance)이다. 이는 각 특성이 모델 예측에 미치는 상대적 기여도를 수치적으로 측정하고, 이를 기반으로 사고 예측에 중요한 변수를 식별한다. 두 번째는 의존성 플롯(Dependence Plot)이다. 이는 특정 특성 값의 변화에 따른 모델 예측 변화를 시각적으로 나타내는 기법으로 비선형 관계를 탐색하는 데 유용하다. 마지막으로, 상호작용 플롯(Interaction Plot)이다. 이는 두 변수 간 교호작용이 예측 결과에 미치는 영향을 파악할 수 있다.

이러한 분석 기법들을 통해 본 연구는 도로 환경 변수들이 중상 및 사망사고 예측에 미치는 영향을 보다 구체적으로 이해하고, 비선형 관계 및 변수 간 상호작용이 모델 예측에 기여하는 방식을 심층적으로 규명하고자 한다.

분석 결과 및 논의

1. 최적 모형 선정

본 연구는 고령 운전자의 중상 및 사망사고 발생 예측을 위해 앞서 언급한 네 가지 머신러닝 모델과 로지스틱 회귀모형을 구축하였다. 로지스틱 회귀모형은 간단하고 효과적인 기본 모델로, 트리 기반 앙상블 모델들의 성능을 비교하는 기준 모형으로 활용되었다. 각 모델의 성능은 Accuracy, Precision, Recall, F1 Score, AUC로 평가하였다.

성능 평가 결과(Table 4 참조), 두 그룹 모두에서 XGBoost 모형이 중상 및 사망사고 발생 예측에 가장 우수한 성능을 보였다. 특히, 비고령 운전자의 예측에서는 XGBoost가 Accuracy 0.912, Precision 0.935, Recall 0.958, F1-Score 0.947, AUC 0.920을 기록하며 다른 모델들에 비해 일관되게 높은 성과를 나타냈다. 고령 운전자의 예측에서도 XGBoost는 Accuracy 0.744, Precision 0.749, Recall 0.731, F1-Score 0.740, AUC 0.791로 다른 모델들보다 전반적으로 균형 잡힌 성과를 보였다. 비록 Random Forest 모형이 Recall과 AUC에서 더 높은 성과를 보였지만, 그 차이는 미미했으며, XGBoost는 여러 성능 지표에서 일관되게 높은 값을 기록하여 최적 모형으로 선정되었다. 또한, Figure 5와 같이, 비고령 그룹에서는 SMOTE 기법을 적용한 후 Training Score와 Cross-Validation Score 간의 차이가 좁아지는 현상을 확인할 수 있었고, 이는 과적합 문제의 해소와 함께 모델의 일반화 성능이 향상되었음을 의미한다. 따라서, 비고령 그룹에는 SMOTE 기법을 적용한 후 최적화된 XGBoost 모델을 사용하여 최종 예측을 수행하였다.

Table 4.

Performance evaluation results for each algorithm

Age group	Model	Accuracy	Precision	Recall	F1-Score	AUC
Older adult Drivers	Random forest	0.739	0.737	0.737	0.737	0.800
	XGBoost	0.744	0.749	0.731	0.740	0.791
	CatBoost	0.702	0.706	0.686	0.696	0.779
	Light-GBM	0.722	0.725	0.709	0.717	0.783
Non-older adult Drivers	Random forest	0.898	0.934	0.941	0.938	0.919
	XGBoost	0.912	0.935	0.958	0.947	0.920
	CatBoost	0.892	0.934	0.934	0.934	0.910
	Light-GBM	0.901	0.941	0.937	0.939	0.906

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F5.jpg

Figure 5.

Learning curve of XGBoost before and after applying SMOTE

2. 특성 중요도 분석

최적 모형으로 선정된 XGBoost 모델을 기반으로 교통사고 발생에 대한 SHAP 특성 중요도 분석을 수행하였으며, Global SHAP 분석 결과는 Figure 6에 제시하였다. 분석 결과는 다음과 같다.

먼저, 제어변수로 활용된 교통혼잡비용, 도로 폭 변동성, 통행속도는 두 그룹 모두에서 높은 중요도를 보였으며, 사고 확률을 증가시키는 평균적인 경향을 보였다(Yan et al., 2024). 이는 이들 특성이 사고 발생 예측에 실질적인 영향을 미쳤으며, 제어 변수로서 적절하게 기능했음을 시사한다. 고령 운전자의 사고 예측 변수들은 대부분 사고 확률을 증가시키는 경향을 보였다. 특히, 경사도(+), Betweenness(+), 안전지대 수(+), 상업시설 밀도(+), 교차로 수(+), Closeness(+) 등은 사고 확률 증가에 기여하는 주요 변수로 나타났다. 이는 고령 운전자가 도로 네트워크의 구조적 특성이나 복잡한 도로 환경에 취약함을 시사한다(Pulugurtha et al., 2013). 반면, 녹지 비율(-)은 사고 확률을 감소시키는 변수로 확인되었으며, 이는 주행 중 자연 환경적 특성이 사고 예방에 긍정적인 영향을 미칠 수 있음을 시사한다(Theeuwes, 2021).

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F6.jpg

Figure 6.

Results of the global SHAP

비고령 운전자의 경우 사고 확률에 영향을 미치는 주요 변수는 고령 운전자와 다른 양상을 보였다. 예를 들어, 물리적 환경 요인 중 교차로 수(-)는 평균적으로 중상 및 사망사고 확률을 낮추는 경향을 보였다. 이는 비고령 운전자가 상대적으로 더 빠르고 정확한 사고 회피 능력을 보유함에 따라 복잡한 교차로 환경에서도 더 효율적으로 대응할 가능성이 크다는 해석을 가능하게 한다. 그러나 이러한 경향은 전체적인 경향에 해당하며, 교차로와 관련된 사고 발생은 지역적으로 큰 이질성을 보인다는 선행연구 결과를 고려할 필요가 있다(Rhee et al., 2016). 한편, 토지이용 특성 중 업무시설 밀도(+)는 고령 운전자보다 비고령 운전자의 사고 확률에 더 큰 영향을 미치는 것으로 나타났다. 이는 비고령 운전자가 일상적인 업무 활동으로 업무시설 밀도가 높은 지역에서 자주 운전하는 경향이 있는 반면, 고령 운전자는 은퇴 이후 해당 지역에서 운전할 기회가 상대적으로 적어 사고에 노출될 가능성이 낮아진 결과로 해석할 수 있다. 또한, 비고령 운전자의 경우 Betweenness(-)와 경사도(-)는 사고 확률을 감소시키는 경향이 발견되었다. 이는 도로 네트워크의 구조적 특성 및 물리적 환경적 요인에 대해 고령 운전자보다 더 나은 적응력을 가질 수 있음을 시사한다. 추가적으로, 도로 유형(국지도로, 집산도로, 보조간선도로, 주간선도로)은 사고 심각도 예측에서 상대적 중요도가 낮았으나, 연령 그룹별로 중요도 순위에 차이를 보였다. 비고령 운전자는 보조간선도로와 주간선도로에서 매우 낮은 중요도를 보였고, 이로 인해 도로 유형 변수는 사고 심각도 예측에 미치는 영향이 상대적으로 적었다. 반면, 고령 운전자는 국지도로와 집산도로에서 중하위 정도의 중요도를 보였으며, 보조간선도로에서는 상대적으로 더 높은 중요도를 나타냈다. 이러한 결과는 고령 운전자가 도로 유형에 더 민감하게 반응하는 경향이 있다는 선행 연구(Lee and Gim, 2019)에서 도출된 결과와 일치한다. 이러한 결과를 통해 고령자와 비고령자 간의 사고 발생 패턴이 서로 다른 양상을 보이며, 고령 운전자의 사고를 줄이기 위한 특정 도로 환경 변수들에 대한 더 깊은 이해가 필요함을 시사한다.

3. 비선형 관계 분석

본 연구에서는 사고 확률 예측에 높은 기여도를 보인 Betweenness, Closeness, 안전지대 수(Safety Zones), 상업시설 밀도(Commercial Facility Density), 교차로 수(Intersections), 경사도(Slope), 녹지 비율(GVF) 변수를 중심으로 비선형 관계를 탐색하고자 하였다. 선행 연구들(Pulugurtha et al., 2013; Theeuwes, 2021)에서도 이러한 변수들이 고령 운전자의 사고 위험과 밀접하게 관련된 중요한 변수로 언급되었다. 따라서 이들 변수의 비선형 관계를 분석하는 것이 고령 운전자의 사고 확률 예측에 있어 중요한 통찰을 제공할 수 있을 것으로 판단된다. 추가적으로 개방감(SVF)과 폐쇄감(UEI) 변수도 고려하였다. 이는 박준상·이수기(2023)의 연구에서 해당 요소가 사고 발생에 비선형적으로 영향을 미친다고 제시하였기 때문이다. 이에 따라, 본 연구는 중상 및 사망 교통사고 확률에 대한 비선형적 영향을 고려하여 분석을 진행하였다. 연구의 주요 초점은 도로 환경 변수와 교통사고 발생 확률 간의 관계에 맞춰져 있기 때문에, 통제 변수에 대한 심층적인 해석은 포함하지 않았다. 분석은 SHAP 값과 변수 간 산점도를 기반으로 진행되었으며, 전역적인 특성을 확인하기 위해 LOWESS 선을 추가하였다(Cleveland, 1979). 각 변수에서 사고 확률을 감소시키는 구간을 음영 처리하여, 해당 구간이 연령 그룹별로 사고 발생 확률을 낮추는 경향을 시각적으로 나타냈다(Figure 7 참고). 분석 결과는 다음과 같다.

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F7.jpg

Figure 7.

Results of the the non-linear relationships analysis of variables

먼저, 네트워크 특성 중 Betweenness(a) 값은 고령 운전자의 경우 약 4 이하, 비고령 운전자는 2 이하일 때 사고 확률이 감소하는 경향을 보였다. 반면, Closenesss(b)는 중상 및 사망사고 발생 확률에 비선형적인 영향을 미치는 것으로 나타났으며, 이는 선행연구(Wada et al., 2023)와 일치하는 결과이다. 특히, 고령 운전자의 경우 약 1 ~ 2.5 구간과 약 2.5 ~ 4 구간에서 사고 확률이 감소하는 경향을 나타냈다. 이는 해당 범위 내에서 고령 운전자가 인지적 부담이 적고, 직관적으로 안전하다고 느낄 수 있는 도로 네트워크 환경임을 시사한다. 그러나 일정 임계값을 초과하면 사고 확률이 증가하는 경향을 보이며, 특히 고령 운전자는 비고령 운전자보다 더 큰 증가폭을 나타냈다. 이러한 결과는 고령 운전자가 직면한 경로 선택의 복잡성이 인지 부하량을 증가시키고(Bélanger et al., 2010), 이에 따라 사고 발생 시 그 규모 또한 증가되는 것으로 판단된다.

교통안전 시설 중 안전지대(c)는 고령 운전자는 약 9개 이하일 때, 비고령 운전자는 약 2개 이하일 때 사고 확률이 감소하는 경향을 보였다. 이는 고령 운전자가 도로 환경을 보다 명확히 인식할 수 있도록 돕는 안전시설의 수가 중요한 역할을 할 수 있음을 시사한다. 즉, 안전지대와 같은 시설이 고령 운전자의 사고 예방에 기여할 수 있다는 것이다. 그러나 약 10개 이상의 안전지대가 설치되면 사고 확률이 급격히 증가하는 경향을 보였는데, 이는 과도한 안전지대 설치가 오히려 고령 운전자의 인지적 부담을 가중시킬 수 있음을 시사한다. 따라서 안전지대의 설치 개수는 고령 운전자가 느끼는 안전감과 인지적 부담 사이의 균형을 고려하여 적절하게 설계되어야 하며 도로 설계 및 교통안전 정책에서 고령 운전자를 고려한 세밀한 안전시설 배치가 필요함을 시사한다.

토지 이용 특성 중 상업시설 밀도(d)는 고령 운전자의 경우 약 0.13 이하 또는 1.75 이상일 때 사고 확률이 감소하는 비선형적인 경향을 보였고, 비고령 운전자는 0.05 이하일 때 사고 확률이 감소하는 경향을 나타냈다. 상업시설 밀도가 증가할수록 사고 심각도가 증가하는 기존 연구(Cicchino and McCartt, 2015; Clarke et al., 2010)와 일치하는 결과지만 본 연구에서 고령 운전자의 경우 상업시설 밀도가 1.75 이상일 때 사고 확률이 감소하는 경향을 보였다는 점에서 차별적인 결과를 나타낸다. 이는 사고 확률에 미치는 영향이 밀도의 크기만으로 설명하기 어려운 복합적인 요인들의 결과임을 시사하며, 본 분석만으로 그 영향을 충분히 설명하기에는 한계가 있음을 고려해야 한다. 따라서 다른 요인들과의 상호작용 효과를 추가로 분석할 필요성이 있다.

물리적 환경 요인 중 교차로(e)에서 고령 운전자는 교차로 수가 1개 이하일 때 사고 확률이 감소하는 경향을 보였으며, 2개 이상일 때는 사고 확률이 급격히 증가하는 경향이 관찰되었다. 이는 여러 선행연구 결과(Cicchino and McCartt, 2015; Clarke et al., 2010)에서 나타난 바와 같이, 고령 운전자의 경우 교차로 사고에 취약함을 나타낸다. 반면, 비고령 운전자는 교차로가 5개 이상인 경우 사고 확률이 감소하는 경향을 보였다. 이는 상대적으로 비고령 그룹이 복잡한 도로 환경에서 안정적으로 적응할 수 있는 높은 대처 능력을 나타낸다. 이러한 결과는 교차로 설계 및 정책 방향 설정 시 중요한 시사점을 제공한다. 특히, 교차로 개수가 1~4개 구간에서는 고령 및 비고령 운전자 모두 사고 확률이 증가하는 공통의 위험 구간으로 확인되었다. 따라서 이 구간을 중심으로 도로 설계 및 교통 관리 정책을 수립하는 것이 효과적일 것이다. 예를 들어, 해당 구간에서는 시각적 안내를 강화하고, 예고 표지판과 경고 신호를 추가하여 교차로 진입 전 상황을 인지하고 대처할 수 있도록 해야 한다. 또한 스마트 교차로 인프라와 V2X 기술 등의 도입을 통해 첨단 운전자 보조시스템(ADAS)와 협력하는 방식으로 교차로 환경에서의 사고 위험을 완화할 수 있는 지원 시스템을 구축하는 것이 필요하다.

경사도(f)에 따른 사고 확률은 고령 운전자와 비고령 운전자 간의 차별적인 양상을 보였다. 고령 운전자의 경우, 경사도가 약 17% 이하에서 사고 확률이 감소하는 경향이 관찰되었다. 반면, 비고령 운전자는 경사도가 약 17% 이상인 구간에서 사고 확률이 감소하는 경향을 보였다. 이는 고령 운전자가 상대적으로 완만한 경사 구간에서 안정적인 주행이 가능하다는 것을 의미하며, 가파른 경사 구간에서는 사고 위험이 급격히 증가할 수 있음을 시사한다. 따라서 경사도가 약 17% 이상인 도로 구간에서는 고령 운전자를 위한 경고 표지판을 설치하고, 차량 속도를 조절할 수 있는 감속 차선을 도입하는 등 경사도에 맞춘 도로 설계와 인프라 개선이 필요하다.

운전자의 시각적 요인 중 녹지 비율(g)은 고령 운전자의 경우, 약 0.1 ~ 0.2 구간일 때 사고 확률이 감소하는 경향을 보였다. 비고령 운전자의 경우에도 녹지 비율이 약 0.13 ~ 0.3 구간에서 사고 확률이 감소하는 비선형적인 패턴이 발견되었다. Theeuwes(2021)에 따르면, 녹지는 운전자가 경험하는 심리적 안정감을 제공하며 사고 발생을 줄이는 데 긍정적인 영향을 미친다고 한다. 이에 따라 고령 운전자는 비교적 좁은 범위의 녹지에서 시각적 안정감을 얻고, 비고령 운전자는 더 넓은 범위에서 안정감을 느끼는 것으로 해석된다. 그러나 중요한 점은 녹지 비율이 특정 임계값을 초과할 경우, 고령 운전자는 사고 확률이 증가하는 경향을 보인다는 것이다. 반면, 비고령 운전자는 이러한 변화가 사고 확률에 큰 영향을 미치지 않는 것으로 나타났다. 이는 고령 운전자가 지나치게 넓은 녹지 영역에서 오히려 주의 산만을 겪거나 인지적 부담이 증가할 수 있음을 시사한다. 다음으로 폐쇄감(h)은 고령 운전자의 경우 약 0.6 이상, 비고령 운전자는 약 0.6 이하에서 사고 확률이 감소하는 경향을 보였다. 이는 고령 운전자가 상대적으로 폐쇄적인 환경에서 운전할 때 주의력이 증가하고, 사망 사고 발생 확률을 낮추는 경향이 있음을 시사한다. 이는 Harvey and Aultman-Hall(2015)의 연구와 일치한다. 마지막으로 개방감(i)은 고령 운전자의 경우 약 0 ~ 0.1 또는 약 0.2 이상의 범위에서 사고 확률이 감소하는 경향을 보였으며, 비고령 운전자는 약 0 ~ 0.03 또는 0.11 ~ 0.3 에서 사고 확률이 감소하는 비선형적인 패턴을 보였다. 이러한 결과는 시각적 폐쇄감이 고령 운전자의 중상 및 사망사고 발생 확률을 저감시키는 요소로 작용함을 뒷받침한다. 이는 도로 경계의 명확성이나 제한된 시각적 정보 제공을 통해 도로 환경에서의 안정감을 느끼는 데 중요한 역할을 한다는 것을 의미한다. 따라서, 고령 운전자의 중상 및 사망사고 확률을 줄이기 위한 정책적 접근으로 도로 경계와 도로 환경을 명확하게 구분할 수 있는 구조를 설계할 필요가 있다.

4. 상호작용 효과 분석

본 연구에서는 상업시설 밀도 및 운전자의 시점에서의 폐쇄감과 녹지 비율 간의 상호작용을 중심으로 운전자의 사고 발생 확률을 분석하였다. 비선형 관계 분석에서 상업시설 밀도가 특정 임계점을 초과할 때 사고 확률이 감소하는 비선형적 경향이 발견되었다. 이러한 패턴은 기존 연구에서 다루어지지 않은 새로운 결과로, 사고 발생에 미치는 복합적인 영향을 규명할 필요가 있다. 또한, 폐쇄감은 녹지 비율과 함께 도로 환경을 인지하고 반응하는 데 중요한 시각적 환경 요소로, 운전자의 심리적 안정감에 중요한 영향을 미친다는 연구 결과도 있다(Harvey and Aultman-Hall, 2015). 이와 같은 배경을 바탕으로, 상업시설 밀도와 폐쇄감은 각각 운전자의 사고 발생 확률에 서로 다른 방식으로 영향을 미친다는 것을 확인할 수 있다.

먼저, 상업시설 밀도와 녹지 비율의 상호작용 분석 결과(Figure 8(a) 참조), 고령 및 비고령 운전자는 상업시설 밀도가 약 0.6 이상인 지역에서 녹지 비율이 특정 임계 구간에 도달할 때 사고 발생 확률이 감소하는 경향을 보였다. 특히, 고령 운전자는 녹지 비율이 약 0.1 ~ 0.3 구간, 비고령 운전자는 약 0.2 ~ 0.5 구간에서 감소하였다. 다음으로, 폐쇄감과 녹지 비율의 상호작용 분석 결과(Figure 8(b) 참조), 고령과 비고령 운전자 모두 폐쇄감이 약 0.6 이상인 지역에서 녹지 비율이 특정 임계 구간에 도달할 때 사고 발생 확률이 감소하는 경향을 보였다. 특히 고령 운전자는 녹지 비율이 약 0.03 ~ 0.2 구간, 비고령 운전자는 약 0.2 ~ 0.6 구간에서 사고 확률이 감소하는 경향을 보였다. 이러한 결과는 상업시설 밀도와 폐쇄감이 높은 도로 환경에서 자연환경적 요소인 녹지가 사고 확률 감소에 기여할 수 있음을 시사한다. 따라서, 고령 운전자의 사고 확률 감소를 위해 상업시설 밀도가 높은 지역에서는 녹지 비율을 약 0.1 ~ 0.3 구간으로 조성하고, 폐쇄감이 높은 지역에서 녹지비율을 0.03 ~ 0.2 구간으로 설계하는 것이 사고 예방에 중요한 역할을 할 수 있을 것으로 판단된다.

https://cdn.apub.kr/journalsite/sites/kst/2025-043-02/N0210430203/images/kst_2025_432_161_F8.jpg

Figure 8.

Results of the Interaction effects

결론

1. 연구의 종합

본 연구는 2017년부터 2019년까지의 TAAS 교통사고 데이터를 활용하여 서울시 고령 운전자의 차대차 중상 및 사망사고 발생과 도로 환경적 요소 간의 비선형 관계 및 상호작용 효과를 탐구하였다. 이를 위해 기계학습 기반의 트리 앙상블 알고리즘과 SHAP를 결합하여 심층적인 통찰을 도출하고, 이론적 관점을 접목시켜 연구 결과를 도출하였다. 주요 분석 결과는 다음과 같다.

첫째, 교통사고 예측에서 고령과 비고령 운전자 모두에서 XGBoost 모형이 가장 우수한 성능을 보였으며, 특히 비고령 운전자의 예측에서는 SMOTE 기법을 활용한 성능 개선이 관찰되었다. 이는 SMOTE 기법이 불균형 데이터에서의 사고 예측 정확도를 개선하여, 이후 SHAP 분석 결과에 대한 신뢰성을 제고하는 데 기여하였다. 둘째, 최적 모형으로 선정된 XGBoost 모델을 기반으로 SHAP의 특성 중요도 분석을 수행하였다. 그 결과, 고령 운전자는 도로 네트워크의 구조적 특성과 복잡한 도로 환경(교차로 수, 상업시설 밀도)이 사고 확률을 증가시키는 주요 요인으로 나타났으며, 녹지 비율은 사고 확률을 감소시키는 중요한 변수로 확인되었다. 반면, 고령 운전자는 도로 환경에 더 유연하게 반응하여 해당 변수들의 중요도가 낮음을 확인하였다. 셋째, SER 이론을 바탕으로 도로 환경과 사고 확률 간의 관계를 분석하였다. 그 결과, 고령 운전자는 특정 임계구간에서 사고 확률이 유의미하게 감소하는 경향을 보였다. 네트워크 특성에서는 Betweenness 값이 4 이하일 때, Closeness 값이 1에서 1.25 사이일 때 사고 확률이 낮아지는 것으로 분석되었다. 안전시설 특성 중에서는 안전지대의 수가 9개 이하일 때 유의미한 감소가 확인되었다. 토지 이용 특성과 관련해, 상업시설 밀도가 1.75 이상일 때 사고 위험이 줄어드는 패턴이 나타났으며, 물리적 환경에서는 교차로의 수가 1개 이하일 때, 경사도가 17% 이하일 때도 유사한 경향이 관찰되었다. 마지막으로 시각적 환경에서는 녹지 비율이 0.1에서 0.2 사이 구간일 때 사고 위험이 감소하는 것으로 나타났다. 이러한 결과는 고령 운전자가 사고 확률을 낮출 수 있는 도로 환경의 구체적 특성을 규명한 것으로, 도로 설계와 교통 안전 정책 수립에 중요한 기초 자료를 제공한다. 마지막으로, ART 이론을 기반으로 상업시설 밀도, 폐쇄감, 녹지 비율의 상호작용을 분석하였다. 그 결과, 상업시설 밀도와 폐쇄감이 각각 약 0.6 이상인 지역에서 녹지 비율이 특정 임계 구간에 도달하면 사고 확률이 감소하는 경향이 나타났다. 고령 운전자는 상업시설 밀도가 높은 지역에서 녹지 비율이 0.1 ~ 0.3 구간일 때, 폐쇄감이 높은 지역에서는 0.03 ~ 0.2 구간일 때 사고 확률이 감소하였다. 이 결과는 상업시설 밀도와 폐쇄감이 높은 환경에서 녹지가 사고 예방에 기여할 수 있음을 시사하며, 이를 기반으로 상업시설 밀도가 높은 지역에는 녹지 비율을 0.1 ~ 0.3 구간으로, 폐쇄감이 높은 지역에는 0.03 ~ 0.2 구간으로 조성하는 설계가 효과적일 것으로 판단된다.

2. 연구의 한계점 및 향후 연구

본 연구는 고령 운전자의 중상 및 사고 발생 위험에 영향을 미치는 도로 환경 요소를 분석하기 위해 다양한 머신 러닝 기법과 이론적 접근을 적용하였다. 그러나 본 연구에는 몇 가지 한계점이 존재한다.

첫째, 교통사고 데이터의 범위에 한계가 있다. 본 연구는 중상 및 사망 사고에 초점을 맞추어 데이터를 분석하였으며, 경상 및 부상 사고 데이터나 사고 심각도에 대한 분석은 포함하지 않았다. 향후 연구에서는 경상 및 부상 사고 그리고 사고 심각도에 대한 분석과 예측 모형을 개발할 필요가 있다고 판단된다. 둘째, 본 연구에서는 3년의 기간 동안 500m 격자 단위 내에서 발생한 중상 및 사망사고를 이항 변수로 처리하였다. 이러한 접근 방식은 연구의 주요 분석인 사고 발생 여부에 대한 확률을 추정함에 따라 채택되었다. 향후 연구에서 선택한 교통사고의 빈도나 밀도에 대한 분석이 별도로 이루어질 필요가 있다. 셋째, 본 연구에서 데이터 불균형 문제를 해결하기 위해 SMOTE 기법을 적용하였다. 그러나 해당 기법을 사용할 경우, 생성된 샘플들이 실제 데이터와 차이를 가질 수 있는 점을 고려해야 하며, 실제 사고 발생 패턴을 정확하게 반영하는지에 대한 추가적인 검토가 필요하다. 향후 연구에서는 이러한 한계를 극복하기 위한 대체 기법이나 개선된 방법론을 고려할 수 있을 것이다. 넷째, 사고 발생 시점과 시각적 데이터의 시간적 불일치 문제이다. 본 연구에서는 TAAS에서 추출한 사고 발생 시점과 SVI 이미지 촬영 시점의 불일치를 고려하여, 4월에서 9월까지의 사고 데이터만을 분석 대상으로 설정하였다. 이 기간 동안 도로 환경의 동질성을 유지한다고 판단하여 계절적 영향을 최소화하고 일관된 분석을 수행하였다. 그러나 사고 시점과 시각적 특성 데이터의 시간적 불일치는 여전히 존재하며, 향후 연구에서는 이를 더욱 정밀하게 동기화하고 계절적 변화를 반영하는 방법을 고려할 필요가 있다. 마지막으로, 해석가능한 기계학습 모형이 가지는 한계가 있다. XGBoost와 SHAP 방법을 사용하여 변수들의 중요도를 평가하고 해석을 진행하였으나, 이러한 방법은 예측된 결과에 대한 통계적 추론을 제공하지 않는다. 따라서 전통적인 통계기법과 결합한 분석 프레임워크를 개발할 필요가 있으며, 이를 통해 모델의 해석과 결과의 신빙성을 더욱 강화할 수 있을 것이다.

Funding

This work was supported by the National Research Foundation of Korea grant(NRF-2023S1A5A2A21084426) funded by Korea government.

알림

본 논문은 대한교통학회 제91회 학술발표회(2024.09.27)에서 발표된 내용을 수정·보완하여 작성된 것입니다.

References

Ahmed S., Hossain M. A., Ray S. K., Bhuiyan M. M. I., Sabuj S. R. (2023), A Study on Road Accident Prediction and Contributing Factors Using Explainable Machine Learning Models: Analysis and Performance, Transportation Research Interdisciplinary Perspectives, 19, 100814.

10.1016/j.trip.2023.100814

Ali Y., Haque M. M., Mannering F. (2023), Assessing Traffic Conflict/Crash Relationships with Extreme Value Theory: Recent Developments and Future Directions for Connected and Autonomous Vehicle and Highway Safety Research, Analytic Methods in Accident Research, 39, 100276.

10.1016/j.amar.2023.100276

Alshehri A. H., Alanazi F., Yosri A. M., Yasir M. (2024), Comparing Fatal Crash Risk Factors by Age and Crash Type by Using Machine Learning Techniques, PLoS One, 19(5), e0302171.

10.1371/journal.pone.030217138709785PMC11073736

Beck K. H., Daughters S. B., Ali B. (2013), Hurried Driving: Relationship to Distress Tolerance, Driver Anger, Aggressive and Risky Driving in College Students, Accident Analysis & Prevention, 51, 51-55.

10.1016/j.aap.2012.10.01223182783

Bélanger A., Gagnon S., Yamin S. (2010), Capturing the Serial Nature of Older Drivers' Responses towards Challenging Events: A Simulator Study, Accident Analysis & Prevention, 42(3), 809-817.

10.1016/j.aap.2009.07.01020380907

Chen T., Guestrin C. (2016), Xgboost: A Scalable Tree Boosting System, In Proceedings of the 22nd Acm Igkdd International Conference on Knowledge Discovery and Data Mining, 785-794.

10.1145/2939672.2939785

Cicchino J. B., McCartt A. T. (2015), Critical Older Driver Errors in A National Sample of Serious U.S. Crashes, Accident Analysis & Prevention, 80, 211-219.

10.1016/j.aap.2015.04.01525916662

Clarke D. D., Ward P., Bartle C., Truman W. (2010), Older Drivers' Road Traffic Crashes in the UK, Accident Analysis & Prevention, 42(4), 1018-1024.

10.1016/j.aap.2009.12.00520441808

Cleveland W. S. (1979), Robust Locally Weighted Regression And Smoothing Scatterplots. Journal of The American Statistical Association, 74(368), 829-836.

10.1080/01621459.1979.10481038

Day A. J., Brasher K., Bridger R. S. (2012), Accident Proneness Revisited: The Role of Psychological Stress and Cognitive Failure, Accident Analysis & Prevention, 49, 532-535.

10.1016/j.aap.2012.03.02823036431

Fu R., Guo Y., Yuan W., Feng H., Ma Y. (2011), The Correlation Between Gradients of Descending Roads and Accident Rates, Safety Science, 49(3), 416-423.

10.1016/j.ssci.2010.10.006

Guo A. W., Brake J. F., Edwards S. J., Blythe P. T., Fairchild R. G. (2010), The Application of In-Vehicle Systems for Elderly Drivers, European Transport Research Review, 2, 165-174.

10.1007/s12544-010-0037-y

Hadayeghi A., Shalaby A. S., Persaud B. (2003), Macrolevel Accident Prediction Models for Evaluating Safety of Urban Transportation Systems, Transportation Research Record, 1840(1), 87-95..

10.3141/1840-10

Han S. S., Park B. H. (2011), Comparative Analysis of Traffic Accident Severity Based on the Ordered Logit Model in the Case of Cheongju, Journal of Korea Planning Association, 46(2), 183-192.

Harvey C., Aultman-Hall L. (2015), Urban Streetscape Design and Crash Severity, Transportation Research Record, 2500(1), 1-8.

10.3141/2500-01

Kim K. H., Moon J. H., Hong J. Y. (2022), Analysis of Crash Probability for Hazardous Materials Transportation Using A Logistic Regression Model, Korean Journal of Hazardous Materials, 10(1), 7-16.

10.31333/kihm.2022.10.1.7

Kim S., Lee S. (2023), Nonlinear Relationships and Interaction Effects of An Urban Environment on Crime Incidence: Application of Urban Big Data and An Interpretable Machine Learning Method, Sustainable Cities and Society, 91, 104419.

10.1016/j.scs.2023.104419

Kweon J., Lee S. (2024), Analysis of Influencing Factors of Unauthorized Electric Kickboard Parking by Type in Seoul, Korea. Journal of Korea Planning Association, 59(2), 104-120.

10.17208/jkpa.2024.04.59.2.104

Lee J., Gim T. H. (2019), Examining the Characteristics of Traffic Accidents Involving Elderly Drivers in Seoul, South Korea. The Korea Spatial Planning Review, 102, 19-34.

10.15793/kspr.2019.102..002

Lee S. Y., Han S. J., Chung Y. S. (2020), Injury Severity of Freeway Crashes in Rainy Weather Using Ordered Probit Model, Journal of Transport Research, 27(1), 1-11.

Lim S. J., Park J. T., Kim Y. I., Kim T. H. (2012), Analysis of Elderly Drivers' Accident Models Considering Operations and Physical Characteristics, J. Korean Soc. Transp., 30(6), Korean Society of Transportation, 37-46.

10.7470/jkst.2012.30.6.037

Nassiri H., Mohammadpour S. I., Dahaghin M. (2023), Forecasting Time Trends of Fatal Motor Vehicle Crashes in Iran Using An Ensemble Learning Algorithm, Traffic Injury Prevention, 24(1), 44-49.

10.1080/15389588.2022.213027936278888

Oh J. S., Lee E. Y., Ryu J. B., Lee W. Y. (2015), An Analysis for Main Vulnerable Situations and Human Errors of Elderly Drivers' Traffic Accidents, Journal of Transport Research, 22(4), 57-75.

10.34143/jtr.2015.22.4.57

Park C., Lee S. (2016), An Analysis of the Characteristics of Street Environment Affecting Pedestrian Accidents- Applications of Street Segment Analysis Unit and Spatial Statistics. Journal of the Urban Design Institute of Korea, 17(3), 105-121.

Park E., Lee S. (2024), Analysis of Spatial Distribution Characteristics and Influencing Factors of the Origin and Destination of Consumer Logistics in Seoul, Korea. Journal of Korea Planning Association, 59(3), 148-165.

10.17208/jkpa.2024.06.59.3.148

Park J. I., Kim S., Kim J. K. (2023), Exploring Spatial Associations Between Near-Miss and Police-Reported Crashes: The Heinrich's Law in Traffic Safety, Transportation Research Interdisciplinary Perspectives, 19, 100830.

10.1016/j.trip.2023.100830

Park J. S. (2023), Analysis of The Visual Characteristics of Street Scenery Affecting Car Traffic Accidents in Seoul, Korea: Using Street View Panorama Image and Computer Vision Techniques, Master's Thesis, Hanyang University.

Prokhorenkova L., Gusev G., Vorobev A., Dorogush A. V., Gulin A. (2018), CatBoost: Unbiased Boosting with Categorical Features, Advances in Neural Information Processing Systems, 31.

Pulugurtha S. S., Duddu V. R., Kotagiri Y. (2013), Traffic Analysis Zone Level Crash Estimation Models Based on Land Use Characteristics, Accident Analysis & Prevention, 50, 678-687.

10.1016/j.aap.2012.06.01622785088

Rhee K. A., Kim J. K., Lee Y. I., Ulfarsson G. F. (2016), Spatial Regression Analysis of Traffic Crashes in Seoul. Accident Analysis & Prevention, 91, 190-199.

10.1016/j.aap.2016.02.02326994374

Shapley L. S. (1953), Stochastic Games, Proceedings of the National Academy of Sciences, 39(10), 1095-1100.

10.1073/pnas.39.10.1953

TAAS, (2023), Traffic Accient Analysis System (TAAS)(http://taas.rota.or.kr)

Theeuwes J. (2021), Self-Explaining Roads: What Does Visual Cognition Tell Us About Designing Safer Roads?, Cognitive Research: Principles And Implications, 6(1), 15.

10.1186/s41235-021-00281-633661408PMC8030273

Wada Y., Asami Y., Hino K., Nishi H., Shiode S., & Shiode N. (2023). Road Junction Configurations And The Severity of Traffic Accidents in Japan, Sustainability, 15(3), 2722.

10.3390/su15032722

Wen X., Xie Y., Wu L., Jiang L. (2021), Quantifying and Comparing the Effects of Key Risk Factors on Various Types of Roadway Segment Crashes with LightGBM and SHAP, Accident Analysis & Prevention, 159, 106261.

10.1016/j.aap.2021.10626134182322

Xiao L., Lo S., Liu J., Zhou J., Li Q. (2021), Nonlinear and Synergistic Effects of TOD on Urban Vibrancy: Applying Local Explanations for Gradient Boosting Decision Tree, Sustainable Cities and Society, 103063, 1-16.

10.1016/j.scs.2021.103063

Yan R., Hu L., Li J., Lin N. (2024), Accident Severity Analysis of Traffic Accident Hot Spot Areas in Changsha City Considering Built Environment. Sustainability, 16(7), 3054.

10.3390/su16073054

Yang C., Chen M., Yuan Q. (2021), The Application of XGBoost and SHAP to Examining the Factors in Freight Truck-Related Crashes: An Exploratory Analysis, Accident Analysis & Prevention, 158, 106153.

10.1016/j.aap.2021.10615334034073

Yoon S. M., Oh C., Park H. J., Chung B. J. (2016), Identification of Factors Affecting the Crash Severity and Safety Countermeasures Toward Safer Work Zone Traffic Management, J. Korean Soc. Transp., 34(4), Korean Society of Transportation, 354-372.

10.7470/jkst.2016.34.4.354

Yuan Y., Chen X., Wang J. (2020), Object-Contextual Representations for Semantic Segmentation, European Conference on Computer Vision, 173-190.

10.1007/978-3-030-58539-6_11

Yue H. (2024), Investigating the Influence of Streetscape Environmental Characteristics on Pedestrian Crashes at Intersections Using Street View Images and Explainable Machine Learning, Accident Analysis & Prevention, 205, 107693.

10.1016/j.aap.2024.10769338955107

Journal of Korean Society of Transportation ISSN:1229-1366(Print) 2234-4217(Online) 대한교통학회지

Preview

Analyzing the Associations between the Fatal Accidents of Older Adult Drivers and Road Environments in Seoul, Korea: Focusing on Non-linear Relationships and Interaction Effects Using Machine Learning

ABSTRACT

MAIN

Figure 1.

Study area & unit of analysis

Figure 2.

Analysis process of the study

Table 1.

Definition of variables and data source

(1)

Figure 3.

Example of an image with semantic segmentation

Figure 4.

Accident occurrence ratio before and after SMOTE(a) & Correlation matrix(b)

Table 2.

Definition of variables and data source

Table 3.

Hyperparameter settings for each algorithm

(2)

(3)

(4)

(5)

(6)

Table 4.

Performance evaluation results for each algorithm

Figure 5.

Learning curve of XGBoost before and after applying SMOTE

Figure 6.

Results of the global SHAP

Figure 7.

Results of the the non-linear relationships analysis of variables

Figure 8.

Results of the Interaction effects

Funding

알림

References