Assessment of Crash Prediction Models for Intersections with Severity Weight Parameters Using Data Science Approaches

Seung-oh Son; Juneyoung Park

doi:10.7470/jkst.2022.40.2.190

Preview

Article

Journal of Korean Society of Transportation. 30 April 2022. 190-204
https://doi.org/10.7470/jkst.2022.40.2.190

Assessment of Crash Prediction Models for Intersections with Severity Weight Parameters Using Data Science Approaches

데이터마이닝 기반의 사고심각도 가중치 적용 예측변수를 활용한 교차로 사고예측모형 개발

Seung-oh SON¹

Juneyoung PARK²^*

손 승오¹

박 준영²^*

¹Ph.D. Student, Smart City Engineering, Hanyang University, Ansan 15588, Korea

²Assistant Professor, Transportation & Logistics Engineering and Smart City Engineering, Hanyang University, Ansan 15588, Korea

¹한양대학교 스마트시티공학과 박사과정

²한양대학교 교통 ‧ 물류공학과, 스마트시티공학과 조교수

^{*Corresponding Author}

ABSTRACT

In this study, crash prediction models for urban intersections were developed using an index as dependent variables reflecting the crash severity weight from data mining technique. In general, the crash prediction model is also called Safety performance function (SPF), and is a regression model with the number of crashes aggregated in the sections or intersections to be analyzed as dependent variables. However, the number of crashes is simply the counted frequency of crashes, and the data does not reflect the characteristics of the crash severity factors. In this study, the crash severity analysis were conducted on crashes that occurred at urban intersections. In addition, the crash prediction models were developed using the crash score index reflecting the results of the severity analysis as a dependent variable. Random forest (RF) and Extreme boosting (XGB) were used for the analysis of intersection crash severity, and NB, Com-poisson, and XGB regression tree model were developed for crash prediction models. Finally, the index reflecting the RF and XGB weight results showed the best predictive performance. Since the proposed dependent variable reflects the results of crash severity analysis as well as excellent predictive performance, important implications based on severity factors can be presented. The model presented in this study can be used for safety evaluation and policy design of individual intersections.

Keywords

crash prediction model

crash severity analysis

extreme gradient boosting (XGB)

random forest

safety performance function (SPF)

본 연구에서는 데이터마이닝 기법을 통해 도출한 사고심각도 가중치를 적용한 환산 사고건수를 종속변수로 하는 도심부 교차로 사고예측모형을 개발하였다. 일반적으로 사고예측모형(Crash prediction model)은 안전성능함수(Safety performance functions)로도 불리며, 분석 대상인 구간 또는 교차로에서 집계된 사고건수를 종속변수로 하는 회귀모형이다. 그러나 여기서 사고건수는 단순히 집계된 사고의 빈도이며 사고심각도 및 사고의 특성변수가 반영되지 않은 데이터이다. 본 연구는 국내 교차로에서 발생한 사고를 대상으로 사고심각도 분석을 수행하여 심각한 사고 발생에 유의한 영향을 미치는 변수를 정량화하였으며, 이를 사고건수에 반영한 가중치 적용 사고건수를 종속변수로 설정하여 모형을 개발하였다. 교차로 사고심각도 분석에는 Random forest(RF)와 Extreme gradient boosting(XGB) 방법론이 활용되었으며, 사고예측모형은 NB, Com-poisson, 그리고 XGB 회귀트리가 활용되었다. 최종적으로 RF와 XGB 가중치 결과가 반영된 지표가 예측성능이 가장 우수한 것으로 나타났다. 제안된 종속변수는 우수한 예측성능 뿐만 아니라 사고심각도 분석 결과를 반영하고 있기 때문에, 심각도 요인 기반의 중요한 시사점을 제시할 수 있다. 본 연구에서 제시한 모형은 개별 교차로의 안전성 평가 및 정책 설계에 유효한 자료로 활용될 수 있다.

키워드

사고예측모형

사고심각도 분석

익스트림 그래디언트 부스팅

랜덤포레스트

안전성능함수

MAIN

서론
방법론
1. 안전성능함수(Safety Performance Functions, SPF)
2. 사고심각도 가중치 기반의 예측변수 개발
분석 데이터
분석결과
1. 사고심각도 분석 결과
2. 예측변수별 SPF 개발 결과
3. 예측변수 비교
결론 및 토의

서론

현대의 도시에서 교차로는 교통 네트워크를 구성하는 각 단일로를 잇는 중요한 교통시설로서 보행자와 자전거, 이륜차, 그리고 차량 등 다양한 교통이용자가 공존하는 공간이다. 공존을 위해 신호체계, 법규 등 차량 운전자 및 보행자 간의 규칙 또한 존재한다. 하지만 이러한 교차로의 특성은 교차로에서 발생한 사고를 분석할 때 어려움을 줄 수 있다. 교차로 및 교차로와 관련된 사고는 49.8%로서 단일로에서 발생한 사고(45.0%)보다 많이 발생한 것으로 나타났다(TAAS, 2021). 미국에서도 교차로 및 교차로 관련 사고는 연간 총 사고의 약 50%에 달하며 큰 경제적, 사회적 손실로 여겨지고 있다(NHTSA, 2015). 이러한 문제 해결을 위해 국내외에서는 교차로에서 발생하는 교통안전을 분석하고 개선하기 위해 사고예측모형(Crash Prediction Model, CPM)을 추정하고 취약한 교차로 및 구간을 식별하는 방법에 관심이 증가하고 있다(Wang et al., 2019). 여기서 사고예측모형은 안전성능함수(Safety Performance Function, SPF)로도 알려져 있다. 미국 Highway safety manual(HSM)에서는 도시, 교외, 지방부 교차로 및 다차로 간선도로, 2차로 도로 등을 대상으로 하는 SPF에 대해 상세하게 설명되어 있다(AASHTO, 2010).

HSM에서 설명하고 있는 교차로 SPF는 전체 사고건수를 종속변수로 하여 추정된다. 하지만 모형 추정 시에 사고의 유형 및 사고심각도에 따라 종속변수를 설정할 경우 모형이 유의하지 않을 수 있다(Zhao et al., 2018; Wang et al., 2019). 따라서 이러한 문제를 해결하기 위한 다양한 연구가 수행되었다(Abdel-Aty et al., 2005; Liu and Sharma, 2018). 사고예측모형의 초기 단계에서는 사고 빈도가 가산데이터이기 때문에 대표적인 가산데이터 모형인 포아송 회귀모형(Poisson regression model)이 SPF 추정에 사용되었다(Lord and Mannering, 2010). 그러나 포아송 회귀모형은 표본의 분산이 평균과 같다는 조건이 있기 때문에 일반적인 사고데이터가 갖는 과분산 문제를 해결하지 못한다는 단점이 있다. 따라서 이 과분산 문제를 해결할 수 있는 음이항 회귀모형(Negative binomial model, NB)이 SPF 추정에 활용되었다(AASHTO, 2010). HSM에서도 음이항 회귀모형 기반의 SPF를 제시하고 있으며, 사고예측모형 개발 단계에서 가장 빈번하게 활용되고 있다. 반대로 특정 사고유형이나 사고심각도 구분 데이터의 경우 평균보다 분산이 작을 때를 의미하는 과소산포의 형태를 나타낼때는 음이항 회귀모형으로 모형 추정이 어려울 수 있다. 과소분산 데이터를 처리할 수 있는 방법론으로 콘웨이-맥스웰 포아송 회귀모형(Conway-maxwell poisson; Com-poisson)이 있다(Conway and Maxwell, 1962; Shirani-Bidabadi et al., 2020). 본 연구에서는 참고문헌을 근거로 종속변수의 분산 특성에 따라 NB와 Com-poisson을 선택적으로 활용하여 사고예측모형을 개발하였다.

하지만 교차로는 다양한 교통수단이 공존하고 있기 때문에 발생한 사고의 요인에 대한 심도깊은 고찰이 필요하다. 가산데이터 모형인 사고빈도 기반의 사고예측모형은 이러한 안전성 분석과는 방향성이 다르기 때문에 별도의 분석이 요구된다. 이를 해결하기 위한 방법으로는 대표적으로 사고심각도 분석이 있다. 분석 대상구간에서 발생한 사고데이터의 설명변수를 독립변수로 하고 사고심각도를 종속변수로 하는 일반적인 사고심각도 분석이 대표적이다(Lee et al., 2008; Won et al., 2009; Kim et al., 2020). 분석을 통해 사고심각도에 유의한 영향을 미치는 요인을 도출할 수 있으며, 도출된 요인들을 근거로 안전정책 설계 및 대안을 마련할 수 있다. 분류 정확도를 높일 수 있는 머신러닝 방법론 또한 사고심각도 분석에 다양하게 활용되고 있다. Tang et al.(2019)은 단계별 2-stage 심각도 분석 수행하여 로지스틱 회귀모형과 Random forest, Adaptive Boosting(AdaBoost), Gradient Boosting Decision Tree(GBDT)의 3개 기본 분류기를 통합한 Stacking 모형을 활용하여 심각도 예측을 수행하였다. 기존 연구에서 활용되는 순서형 프로빗 모형 등의 통계기반 모형보다 제안한 Stacking 모형의 예측정확도가 우수한 것을 입증하였다. Ahmadi et al.(2020)는 캘리포니아에서 발생한 후방추돌 사고심각도 분석을 위해 다항 로짓 모형(Multinomial logit), 혼합다항로짓모형(Mixed multinomial logit), 그리고 서포트벡터머신(Support vector machine(SVM)을 활용하여 각 모형의 예측성능을 비교하였다. 분석결과 SVM이 가장 우수한 모형으로 나타났다. 국내외의 다양한 사고를 대상으로 한 연구에서 순서형 프로빗 모형과 같은 전통적 통계방법론뿐만 아니라 머신러닝 방법론을 적용하여 우수한 예측성능을 입증하였다. 하지만 개별 사고의 심각도와 교차로 및 단일로의 공간적 특성과 사고발생 빈도를 모두 고려한 연구는 미흡한 것으로 확인되었다. 일부 연구에서는 사고심각도 분석과 빈도 분석을 계층 또는 단계로 구분하는 미흡한 분야와 연관된 연구가 일부 수행되었다. Abdel-Aty(2003)의 연구에서는 다중 위치에서의 사고심각도 분석 특성을 분류한 연구를 수행하였다. 공간적 특성이 심각도에 미치는 영향이 다르다는 가정을 놓고 분석이 수행되었으며, 순서형 프로빗 모형을 활용되었다. 일반 단일로, 신호교차로 그리고 요금소를 대상으로 구분되어 수행되었으며, 사고위치에 따라 심각도 요인이 다른 것으로 나타났다. Prato et al.(2018)은 건축환경과의 공간적 상관관계를 고려한 보행자 사고 심각도를 분석하였다. 분석결과 고령보행자와 술에 취한 보행자가 가장 취약한 도로이용자로 나타났으며, 대형차량 및 제한속도가 높은 도로에서의 사고가 가장 심각하게 발생하는 것을 입증하였다. 동일한 심각도 사고라도 공간적 상관관계에 따라 근접한 건설환경의 역할이 미치는 다름 또한 입증하여 새로운 관점을 제시하였다. 이처럼 공간적 특성을 단계별로 도입하여 수행되는 심각도 분석은 공간분석을 같이 할 수 있다는 점에서 장점이 있다. 그러나 이러한 연구 또한 거시적인 관점에서의 사고빈도를 반영한 안전성 분석이라고 보기 어려우며, 이러한 특성은 실제 정책설계 단계에서 실무자에게 효과적인 우선순위 제시에 어려움을 있을 수 있다.

본 연구에서는 이러한 빈도분석과 심각도분석이 각각 갖고 있는 한계점을 보완할 수 있는 사고예측모형의 예측지표를 개발하였다. 교차로에서 발생한 사고를 대상으로 머신러닝 기법을 활용한 사고심각도 분석을 수행하여 심각도 기여 요인의 가중치를 환산하였으며, 이를 각 교차로 단위로 집계하여 사고예측모형 개발에 필요한 지표를 도출하였다. 이 지표를 종속변수로 하는 사고예측모형, 즉 안전성능함수(SPF)를 개발하였으며 최종적으로 예측성능 검증을 통해 실제 제안한 지표를 활용한 정책설계가 가능할지에 대해 결과로 제시하였다.

다음 장에서는 연구에서 활용한 방법론에 대해서 설명하였으며, 이어서 연구에 활용된 데이터를 정리하여 제시하였다. 네 번째 장에서는 예측변수를 활용한 안전성능함수 개발 결과와 예측성능 검증결과를 제시하였으며, 마지막 장에서는 결과정리 및 시사점, 향후 과제에 대해서 설명하였다.

방법론

1. 안전성능함수(Safety Performance Functions, SPF)

안전성능함수(SPF)는 교통량 및 기하학적 요소 변수를 바탕으로 사고 빈도를 추정하는 사고예측모형(Crash prediction model)으로 알려져 있다(Son et al., 2019). Highway safety manual(HSM)에서는 안전정책의 안전성 효과평가 및 대응전략 수립을 위한 SPF 활용 방법론을 제시하고 있다(AASHTO, 2010). 최근에는 해외뿐만 아니라 국내에서도 도로의 단일로 및 교차로, 고속도로를 대상으로 한 SPF 관련 연구들이 수행되어 왔다(Son et al., 2019; Kang et al., 2021). SPF 개발에 사용되는 예측변수는 대표적으로 사고 빈도이지만, 일부 연구에서는 심각한 사고의 예측과 심각한 사고의 감소효과를 평가하기 위해 사망 및 중상사고를 대상으로 한다(Park and Abdel-Aty, 2015; Son et al., 2019). 일반적으로 사고데이터의 분산을 고려하여 과대산포 문제를 설명할 수 있는 것으로 알려진 음이항 모형(Negative Binomial, NB; Poisson-Gamma)이 사용된다. NB 모형 기반의 SPF 수식은 Equation 1과 같다.

(1)

N_{p r e d i c t e d, i} = \exp (β_{0} + β_{1} (A A D T_{i}) + \dots + β_{k} (X_{k i})), i = 0, 1, 2, . ., n

where, $N_{p r e d i c t e d, i}$ : 해당 구간(또는 교차로)의 예측사고건수

$β_{k}$ : 변수 k에 대한 계수

$A A D T_{i}$ : 구간(또는 교차로) i의 일일 평균 교통량

$X_{k i}$ : 구간(또는 교차로) i의 도로특성

$n$ : 변수의 개수

NB 모형은 대부분의 사고데이터가 갖는 과대산포 문제를 해결할 수 있는 것으로 알려져 있어 다양한 연구에서 활용되었다. 반대로 모델 개발 과정 중이나 데이터 표본 생성 또는 표본 수가 적을 경우에는 데이터의 과소산포 문제가 발생한다(Lord and Guikema, 2012; Sellers et al., 2012; Shirani-Bidabadi et al., 2020). 일반적으로 사용되는 NB 모형과 포아송 모형(Poisson)은 모두 과소분산 데이터를 설명하지 못하는 한계점이 있다.

Conway-Maxwell-Poisson 분포(Com-poisson)는 포아송 분포의 일반화된 형태로 데이터 표본의 분산 분포 여부와 상관없이 데이터 분포를 설명할 수 있는 것으로 알려져 있다. Conway and Maxwell(1962)는 이 분포를 처음으로 제안하였으며, Sellers and Shmueli(2010)의 연구에서는 과소분산, 과분산된 이산형 자료를 대상으로 한 분포를 제안하였다(Sellers and Shmueli, 2010). Com-poisson 분포의 형태는 Equations 2, 3에 정의된다.

(2)

P (Y_{i} = y_{i} | x_{i}, z_{i}) = \frac{1}{Z (λ_{i,} v_{i}) (y_{i}!)^{v_{i}}} \frac{λ_{i}^{y_{i}}}{(y_{i}!)^{v_{i}}}, i = 0, 1, 2, . . ., n,

(3)

Z (λ_{i}, v_{i}) = \sum_{n = 0}^{\infty} \frac{λ_{i}^{n}}{(n!)^{v_{i}}}

where, $Y_{i}$ : 이산확률변수(discrete random variable)

$Z (λ_{i}, v_{i})$ : 정규화 상수(normalizing constant)

$v_{i}$ : 과분산 계수( $v_{i} > 1$ 일 경우 과소분산, $v_{i} < 1$ 인 경우 과분산)

$n$ : 변수의 개수

$λ_{i}$ : 중심화 값

본 연구에서 제안하는 예측변수에 적용되는 심각도 가중치로 인해 저분산이 발생함을 확인하여 각 예측변수의 분산에 따라 NB 모형 및 Com-poisson을 적용하여 SPF를 개발하였다. 마지막 세 번째 모형으로 데이터 마이닝 기반의 비모수적 모형인 Extreme gradient boosting(XGB) 회귀모형이 SPF 개발에 활용되었다. NB 모형과 Com-poisson 모형 등의 선형 모델은 변수 요인의 복잡한 비선형 관계를 설명할 수 없으며 상호작용 설명에 제한적이다. 교호작용과 비선형 항을 추가하는 등의 방법이 있지만, 적절한 조합 설정과 비선형성 형태 정의가 단순하지 않기 때문에 일반적으로는 NB 모형보다 우수한 성능을 보이는 경우가 드물다(Wang et al., 2016). 비선형성 및 상호작용을 고려한 트리 기반 회귀모형은 이미 다양한 연구에서 수행된 바 있다(Kuhnert et al., 2000; Chang and Chen, 2005). 따라서 예측변수와 교차로 사고 및 기하구조 데이터가 갖는 특성을 검토하기 위해 트리 기반의 XGB 모형을 활용하였다. XGB 회귀트리 모형 개발을 위해 R 패키지 “xgboost”를 활용하였으며, 과적합 방지를 위해 1에서 10까지의 nfold와 1에서 100까지의 nround를 비교하였으며, 성능검증 절차를 거쳐 준비된 데이터셋으로는 nfold가 5일 때, nround는 50일 때 최적화가 되는 것으로 확인되어 spf 개발에 활용하였다.

2. 사고심각도 가중치 기반의 예측변수 개발

앞서 제시한 안전성능함수는 일반적으로 모형의 예측변수를 사고건수로 한다. 하지만 사고 건수는 단순히 발생한 사고의 집계된 합으로 심각한 사고와 그 내용을 포함하지 못한다. 심각한 사고의 경우에는 사망사고 건수 또는 EPDO 등 심각한 사고를 중심으로 설정된 지표를 통해 예측변수로서 활용이 가능하지만 이는 각 사고의 세부내용과 원인을 포함하지 못한 단순 집계지표이다. 본 연구에서는 이러한 기존 지표의 단점을 보완할 수 있는 사고심각도 가중치 기반의 예측변수를 개발하였다. 교차로에서 발생한 사고를 대상으로 심각도 분석을 통해 심각한 사고에 미치는 요인을 도출하였으며, 도출된 요인의 변수 중요도에 따라 각 사고의 심각도 score를 계산하여 교차로 단위로 집계하였다. 교차로마다 집계된 사고심각도 score는 사고예측모형의 예측변수로 설정되며 주요한 사고내용을 포함할 수 있다. 사고심각도 score 산출을 위한 심각도 분석 방법론으로 머신러닝 기법인 Random forest(RF)와 Extreme gradient boosting(XGB)을 활용하였다. RF와 XGB는 사고심각도 분석 연구분야에서 다양하게 활용되고 있다(Ijaz et al., 2021; Yan et al., 2021). 먼저 RF 기법은 Breiman(2001)이 제안한 성능이 우수한 머신러닝 방법론 중 하나이다. 랜덤 포레스트를 구성하고 있는 각 트리는 무작위로 선택된 표본과 트리 특성을 바탕으로 생성된다. 최종적으로 트리 중 투표 방법에 의해 최적 모형이 결정된다. Single classifier인 의사결정나무(Decision tree)의 국소 최적화 및 과적합 문제를 효과적으로 극복할 수 있는 것으로 알려져 있다. Bootstrap sampling을 이용하여 트리 분류기 모음을 확장하고 이후에 트리의 결과를 사용하여 트리 모델링에 사용된 변수의 중요성을 평가할 수 있도록 알고리즘이 구성되어 있다. RF 분류 모형의 변수 중요도 산출 지표는 MDA(Mean Decrease Accuracy), MDG(Mean Decrease Gini)이다. 본 연구에서는 이 지표를 표준화하여 가중치로 환산하여 심각도 Score 산출에 활용하였다.

Extreme gradient boosting(XGB)는 Gradient boosting을 기반으로 알고리즘을 개선한 기법이다(Chen et al., 2015). 트리를 병렬로 작동하도록 구성하여 효율성을 개선하여 우수한 성능을 입증하였으며, RF와 마찬가지로 분류 및 회귀문제를 해결할 수 있다. XGB에서는 변수 중요도 지표로 Gain, Cover, Frequency의 3가지를 확인할 수 있다. 먼저 Gain은 무작위 트리에 대해 각 변수가 기여한 정도를 고려하여 산출된 모형에서의 상대적인 기여도를 정의한 지표이다. 다른 변수와 비교했을 때 값이 높을수록 중요하다고 판단할 수 있다. 일반적으로 Gain이 상대적 중요성을 해석하는 가장 중요한 지표로 알려져 있다. 따라서 본 연구에서는 Gain 지표를 교차로 사고심각도 중요도 지표로 활용하였다.

RF, XGB 기법을 활용하여 국내 교차로 사고심각도 데이터셋을 대상으로 사고심각도 분석을 수행하였으며, 분석결과로 도출된 변수 중요도( $γ_{i}$ )는 개별 사고점수로 계산된다. RF는 도출된 변수 중요도의 값의 합이 1이 아니기 때문에, 표준화 절차를 수행하여 전체 변수의 합이 1이 되도록 조정하였다. 사고점수 계산식은 아래에 제시하였다(Equation 4).

(4)

S c o r e_{n} = \sum_{i = 1}^{k} (x_{i} \times γ_{i}),

where, $S c o r e_{n}$ : 사고 $n$ 의 심각도 가중치 반영 사고점수

$n$ : 사고번호( $n$ =1,2,...., $m$ )

$x_{i}$ : 변수 $i$ 의 값

$γ_{i}$ : 변수 $i$ 의 변수 중요도

$i$ : 개별 사고의 변수번호( $i$ =1,2,..., $k$ )

개별사고 단위로 환산된 점수는 SPF의 표본 집계단위인 교차로마다 합산되었으며, 합산된 관측 사고건수( $N_{o b s, (m e t h o d)}$ )의 계산식은 다음과 같다(Equation 5).

(5)

N_{o b s, (m e t h o d)} = \sum_{n = 1}^{m} (S c o r e_{n}),

where, $N_{o b s, (m e t h o d)}$ : 심각도 가중치 반영 집계 사고점수(method = RF, XGB)

여기서 식에 의해 집계된 관측 사고건수( $N_{o b s}$ )는 SPF의 기본 예측변수로 설정된다. 본 연구에서는 제안한 교차로 사고심각도 가중치가 반영된 예측변수는 $N_{o b s, R F}$ , $N_{o b s, X G B}$ 로 2가지이다. 기본 예측변수인 관측 사고건수와 제안한 2개의 예측변수를 포함한 3개의 예측변수를 대상으로 SPF를 개발하였다.

본 연구에서는 제안한 변수의 예측성능 검증을 위해 개발한 모형의 변수별로 예측성능을 평가하였다. 성능 평가를 위해 절대 평균 오차(Mean absolute error, MAE)와 평균 제곱 예측 오차(Root mean square error, RMSE)를 활용하였다. 두 값 모두 절대값과 절대값의 제곱을 사용하여 예측값과 관측값 간의 차이를 비교할 수 있으며, 0에 가까울수록 예측성능이 좋다는 것을 의미한다. 또한 일반적으로 회귀모형의 예측성능 검증에는 Train dataset과 Validation dataset의 표본을 7:3 또는 8:2 등의 일정 비율에 맞춰 Split하여 검증이 수행된다. 그러나 sample size가 충분하지 않은 예측모형의 경우 예측력이 감소하며 Split dataset에서 편향된 예측성능이 도출될 수 있다. 본 연구에서는 데이터 수집 여건이 제한됨에 따라 81개의 sample size 때문에 일반적인 split 기반의 예측성능을 검증하지 않고, K-fold cross-validation 기법을 적용하여 예측성능을 검증하였다. K-fold cross-validation 기법은 k개의 상호 배타적인 부분집합을 무작위로 균등하게 분할된다(Franklin, 2005). 기준 폴드는 validation dataset에, 나머지 k-1개의 폴드는 training dataset에 그룹화된다. 본 연구에서는 k가 5로 설정되어 전체 데이터셋이 4:1의 비율로 5개의 부분집합으로 구분하여 반복검증을 통해 편향되지 않은 결과를 제시하였다. 본 연구에서 활용된 MAE와 RMSE의 산출식은 다음과 같다(Equations 6, 7).

(6)

M A E = \frac{1}{n} \sum_{i = 1}^{n} | N_{p r e d, i} - N_{o b s, i} |

(7)

R M S E = \sqrt{\sum_{i = 1}^{n}} \frac{(N_{p r e d, i} - N_{o b s, i})^{2}}{n}

where, $N_{p r e d, i}$ : 교차로 $i$ 의 예측 값

$N_{o b s, i}$ : 교차로 $i$ 의 관측 값

분석 데이터

본 연구에서 사용되는 데이터셋은 교차로에서 발생한 사고의 심각도 요인 분석을 위한 사고심각도 데이터와 사고예측모형 개발을 위한 교차로 단위 사고빈도 데이터 2가지로 구성된다. 사고심각도 분석을 위해 2017-2018년 2년간 서울 및 부산의 교차로에서 발생한 42,513건의 사고를 수집하였다. 이어서 사고빈도 분석을 위해 같은 기간 동안 서울 및 부산에 위치한 81개의 교차로에서 발생한 1,990건의 사고를 수집하였다. 분석 대상 도시의 교차로를 이용하는 전체적인 교통특성을 반영하기 위해 발생한 전체 교차로 사고인 42,513건의 사고를 대상으로 심각도 분석을 수행하였으며, 그중에서 hotspot 식별 대상 교차로인 81개의 교차로에서만 빈도분석을 위해 1,990건의 사고가 수집되었다.

사고데이터는 도로교통공단에서 운영하는 교통사고분석시스템(Traffic Accident Analysis System, TAAS)에서 수집하였다. 사고데이터에는 인적요인, 환경요인, 차량요인으로 구분되는 개별 사고의 원인이 될 수 있는 설명변수가 포함되어 있다. 사고심각도 분석을 위해 활용된 데이터의 설명변수에 대한 설명은 Table 1에 제시하였다.

Table 1.

Variable definitions and descriptions for crash injury severity analysis

Variable	K		A		B		C		Total
Injury severity	324	0.76%	13,195	31.04%	25,991	61.14%	3,003	7.06%	42,513
Time
Dawn	60	1.48%	1,331	32.84%	2,430	59.96%	232	5.72%	4,053
Daytime	112	0.71%	4,774	30.41%	9,660	61.54%	1,152	7.34%	15,698
Evening	47	0.49%	2,927	30.35%	5,914	61.33%	755	7.83%	9,643
Morning	62	1.10%	1,864	33.00%	3,359	59.47%	363	6.43%	5,648
Night	43	0.58%	2,299	30.77%	4,628	61.95%	501	6.71%	7,471
Week
Weekday	244	0.78%	9,761	31.13%	19,135	61.03%	2,214	7.06%	31,354
Weekend	80	0.72%	3,434	30.77%	6,856	61.44%	789	7.07%	11,159
Season
Fall	95	0.86%	3,438	31.28%	6,719	61.14%	738	6.72%	10,990
Summer	66	0.62%	3,251	30.42%	6,554	61.33%	815	7.63%	10,686
Spring	78	0.73%	3,352	31.58%	6,448	60.76%	735	6.93%	10,613
Winter	85	0.83%	3,154	30.85%	6,270	61.33%	715	6.99%	10,224
Type of crash
Vehicle to vehicle	143	0.44%	8,644	26.68%	21,170	65.34%	2,442	7.54%	32,399
Vehicle to pedestrian	167	1.76%	4,372	45.99%	4,493	47.26%	474	4.99%	9,506
Single vehicle (no pedestrian)	14	2.30%	179	29.44%	328	53.95%	87	14.31%	608
Detailed type of crash
Rear-end crash	11	0.21%	1,052	20.28%	3,900	75.19%	224	4.32%	5,187
Side crash	72	0.43%	4,638	27.83%	10,656	63.93%	1,302	7.81%	16,668
Head-on crash	23	0.95%	898	36.97%	1,336	55.00%	172	7.08%	2,429
In a crossing	105	1.90%	2,744	49.53%	2,461	44.42%	230	4.15%	5,540
On the sidewalk	7	1.87%	168	44.80%	186	49.60%	14	3.73%	375
On the road	15	1.26%	499	41.97%	594	49.96%	81	6.81%	1,189
Driving in reverse	0	0.00%	30	11.54%	214	82.31%	16	6.15%	260
Overturn	4	4.82%	16	19.28%	39	46.99%	24	28.92%	83
Vehicle only	9	6.98%	47	36.43%	59	45.74%	14	10.85%	129
Unclassified	78	0.73%	3,103	29.13%	6,546	61.45%	926	8.69%	10,653
Type of violation
Unsafe driving	164	0.84%	5,487	28.25%	12,190	62.77%	1,579	8.13%	19,420
Signal violation	92	0.97%	3,760	39.71%	5,135	54.24%	481	5.08%	9,468
Violation of to maintain safe distance	2	0.07%	562	19.36%	2,176	74.96%	163	5.61%	2,903
Violation of driving method in intersection	4	0.11%	945	25.62%	2,463	66.77%	277	7.51%	3,689
Violation of lane compliance obligations	1	0.16%	127	20.32%	456	72.96%	41	6.56%	625
Violation of pedestrian protection obligations	32	1.22%	1,208	46.12%	1,278	48.80%	101	3.86%	2,619
Violation over the center line	7	0.77%	332	36.36%	492	53.89%	82	8.98%	913
Illegal U-turn	3	1.07%	57	20.36%	167	59.64%	53	18.93%	280
Crash with right-turn veh and straight veh	1	0.06%	446	25.16%	1,173	66.16%	153	8.63%	1,773
Speeding	14	24.56%	33	57.89%	9	15.79%	1	1.75%	57
Unclassified	4	0.52%	238	31.07%	452	59.01%	72	9.40%	766
Surface condition
Dry	284	0.74%	11,919	31.09%	23,387	61.01%	2,743	7.16%	38,333
Wet/moisture	36	1.02%	1,090	30.84%	2,188	61.91%	220	6.23%	3,534
Frost/freezing	1	0.96%	26	25.00%	72	69.23%	5	4.81%	104
Snow	1	1.16%	23	26.74%	59	68.60%	3	3.49%	86
Unclassified	2	0.44%	137	30.04%	285	62.50%	32	7.02%	456
Weather
Sunny	275	0.73%	11,693	31.04%	22,997	61.05%	2,702	7.17%	37,667
Rainy	25	0.95%	832	31.50%	1,626	61.57%	158	5.98%	2,641
Cloudy	20	1.16%	540	31.38%	1,046	60.78%	115	6.68%	1,721
Snowy	3	1.68%	46	25.70%	124	69.27%	6	3.35%	179
Unclassified	1	0.33%	84	27.54%	198	64.92%	22	7.21%	305
Crash location
Inside	166	0.68%	7,729	31.80%	14,698	60.48%	1,709	7.03%	24,302
Near	92	0.63%	3,923	26.80%	9,567	65.35%	1,057	7.22%	14,639
Crosswalk	66	1.85%	1,543	43.20%	1,726	48.32%	237	6.63%	3,572
Vehicle type (offender)
Passenger car	148	0.52%	8,856	31.18%	18,339	64.57%	1,059	3.73%	28,402
Two-wheel	50	0.96%	1,502	28.81%	2,592	49.72%	1,069	20.51%	5,213
Freight car	47	1.30%	1,312	36.18%	2,149	59.27%	118	3.25%	3,626
Van	35	1.40%	922	36.78%	1,445	57.64%	105	4.19%	2,507
Special vehicles	22	5.29%	158	37.98%	223	53.61%	13	3.13%	416
Bicycle	22	1.54%	307	21.53%	672	47.12%	425	29.80%	1,426
Unclassified	0	0.00%	138	14.95%	571	61.86%	214	23.19%	923
Sex of offender
Man	291	0.85%	10,711	31.31%	20,810	60.82%	2,402	7.02%	34,214
Woman	33	0.45%	2,341	31.84%	4,592	62.46%	386	5.25%	7,352
Unclassified	0	0.00%	143	15.10%	589	62.20%	215	22.70%	947
Age of offender
Youth (<17 years)	7	0.81%	213	24.68%	444	51.45%	199	23.06%	863
Younger (18-35 years)	48	0.51%	2,896	30.73%	5,641	59.86%	838	8.89%	9,423
Middle-aged (36-55 years)	124	0.79%	5,052	32.16%	9,640	61.37%	892	5.68%	15,708
Older (>56 years)	145	0.93%	4,891	31.42%	9,674	62.14%	858	5.51%	15,568
Unclassified	0	0.00%	143	15.04%	592	62.25%	216	22.71%	951
Vehicle type (victim)
Passenger car	44	0.22%	4,241	20.91%	14,417	71.08%	1,580	7.79%	20,282
Two-wheel	42	0.62%	2,822	41.96%	3,498	52.01%	363	5.40%	6,725
Freight car	13	0.76%	368	21.62%	1,106	64.98%	215	12.63%	1,702
Van	19	1.11%	496	28.99%	1,053	61.54%	143	8.36%	1,711
Special vehicles	6	4.11%	26	17.81%	103	70.55%	11	7.53%	146
Bicycle	18	1.03%	672	38.58%	942	54.08%	110	6.31%	1,742
Pedestrian	167	1.76%	4,372	45.99%	4,493	47.26%	474	4.99%	9,506
Unclassified	15	2.15%	198	28.33%	379	54.22%	107	15.31%	699
Sex of victim
Man	206	0.66%	9,114	29.39%	19,374	62.47%	2,321	7.48%	31,015
Woman	104	0.96%	3,893	36.00%	6,246	57.75%	572	5.29%	10,815
Unclassified	3	2.34%	20	15.63%	68	53.13%	37	28.91%	128
Age of victim
<17 years	6	0.40%	431	28.51%	917	60.65%	158	10.45%	1,512
18-35 years	44	0.40%	2,932	26.79%	7,243	66.19%	724	6.62%	10,943
36-55 years	78	0.50%	4,404	28.16%	10,046	64.24%	1,111	7.10%	15,639
>56 years	182	1.33%	5,238	38.15%	7,411	53.98%	899	6.55%	13,730
Unclassified	14	2.03%	190	27.58%	374	54.28%	111	16.11%	689
Region
Seoul	232	0.71%	9,465	29.16%	20,372	62.77%	2,387	7.35%	32,456
Busan	92	0.91%	3,730	37.09%	5,619	55.87%	616	6.13%	10,057

본 연구에서의 사고심각도 구분은 K(사망), A(중상), B(부상), C(경상)으로 분류되며 물피사고는 전체 사고의 0.001% 미만(10건 이하)에 해당하여 TAAS에서 유의미하게 기록되지 않기 때문에 outlier로 간주하여 분석표본에서 제외하였다.

사고빈도 분석을 위한 데이터셋을 구성하기 위해 분석대상 교차로의 특성변수를 각각 수집하였다. 교통량(AADT)은 한국교통연구원에서 운영하는 교통빅데이터 제공 시스템 View-T에서 수집하였으며, 그 밖의 교차로 특성변수는 Kakao map의 로드뷰 시스템을 통해 수집하였다. 연구에 적용할 수 있는 특성변수는 기존 교차로 사고예측모형 개발 연구의 변수선택을 참고하여 선정하였다(Shirani-Bidabadi et al., 2020). 교차로 특성변수 중 연속형 변수는 총 12가지로 다음과 같다: 교통량(주 ‧ 부도로), 차로수(주 ‧ 부도로), 좌회전 차로수(주 ‧ 부도로), 우회전 차로수(주 ‧ 부도로), 우회전 도류화 개수(주 ‧ 부도로), 중앙분리대 개수(주 ‧ 부도로). 11가지 명목형 변수는 다음과 같다: 좌회전차로 유무(주 ‧ 부도로), 중앙분리대 유형(island, closed, open; 주 ‧ 부도로), 불법주정차 유무(주 ‧ 부도로), 제한속도(주 ‧ 부도로), 교차로 교차각 분류, 교차로 연결로 수, 지역구분(서울 및 부산).

분석결과

1. 사고심각도 분석 결과

본 연구에서는 교차로 사고심각도 가중치 적용을 위한 심각도 분석을 수행하였으며, 머신러닝 기법인 RF와 XGB을 활용하였다. 분류 모형의 종속변수는 사망 및 중상사고(KA crashes)를 1로 부상 및 경상사고(BC crashes)를 0으로 하여 사망 및 중상사고 분류 예측에 영향을 미치는 중요한 변수를 도출하였다. 각 방법론별 전체 82개의 변수 중 상위 10개의 변수 중요도를 Table 2에 제시하였다.

Table 2.

Results of top 10 variable importance in 82 variables by RF and XGB

Method
Random forest (RF)			Extreme gradient boosting (XGB)
Feature category		Standardized MDG	Feature category		Gain
Large	Small	Standardized MDG	Large	Small	Gain
Vehicle type (offender)	Passenger car	0.0383	Vehicle type (offender)	Passenger car	0.0683
Age of victim	Older (>56 years)	0.0322	Age of victim	Older (>56 years)	0.0435
Type of violation	Signal violation	0.0263	Region	Seoul	0.0391
Age of offender	Middle-aged (36-55 years)	0.0262	Week	Weekday	0.0391
Age of offender	Older (>56 years)	0.0260	Type of violation	Signal violation	0.0377
Season	Fall	0.0257	Age of victim	Middle-aged (36-55 years)	0.0285
Season	Spring	0.0251	Age of offender	Middle-aged (36-55 years)	0.0281
Season	Summer	0.0250	Age of offender	Older (>56 years)	0.0278

RF 분류 모형 분석 결과에 따르면 피해차종-승용차(0.0383), 피해자 연령-56세 이상(0.0322), 그리고 위반유형-신호위반(0.0263)이 중요도가 높은 지표로 식별되었다. XGB 분류모형에서는 피해차종-승용차(0.0683), 피해자연령-56세 이상(0.0435), 그리고 지역-서울(0.0391) 변수가 분류에 큰 영향을 미치는 것으로 식별되었다. 2개 모형 모두에서 피해차종-승용차, 피해자연령-56세 이상 등의 변수가 공통적으로 식별되었다. 이 지표를 갖는 사고는 높은 심각도 score가 반영되었다. Equation 7에 제시한대로 각 사고 세부 설명변수의 값에 따라 적용되어 점수화된다. 이어서 앞서 방법론 장에서 제시한 $N_{o b s}$ 와 같이 교차로 단위로 집계되어 예측변수로 설정되었다. 심각도 가중치 환산 결과가 반영된 예측변수의 기초통계량은 다음과 같다(Table 3).

Table 3.

Statistics summaries of injury severity analysis results (RF and XGB)

Table
Severity score for each crash (n=1,990)
Method	Mean	S.D.	Min	Max
RF	0.2963	0.0216	0.1787	0.3392
XGB	0.3366	0.049	0.1249	0.4351
Aggregated severity score for each intersection
Method	Mean	S.D.	Min	Max
$N_{o b s, K A B C}$	12.2840	6.4192	1.0000	31.5000
$N_{o b s, K A B}$	11.5988	6.2156	1.0000	31.0000
$N_{o b s, K A B C, R F}$	3.6397	1.9092	0.3178	9.1993
$N_{o b s, K A B, R F}$	3.4425	1.8510	0.3178	9.0535
$N_{o b s, K A B C, X G B}$	4.1345	2.2708	0.3423	10.0960
$N_{o b s, K A B, X G B}$	3.9082	2.2012	0.3423	9.9514

2. 예측변수별 SPF 개발 결과

SAS 9.4 프로그램의 PROC GENMOD(NB 모형), COUNTREG(Com-poisson 모형)을 사용하여 교차로 SPF를 개발하였다. 개발된 SPF는 사고건수( $N_{o b s, K A B C}$ , $N_{o b s, K A B}$ )를 예측변수로 하는 기초 모형과 본 연구에서 제안한 심각도 가중치가 적용된 4개 지표( $N_{o b s, K A B C, R F}$ , $N_{o b s, K A B, R F}$ , $N_{o b s, K A B C, X G B}$ , $N_{o b s, K A B, X G B}$ )를 예측변수로 하는 총 6개이다.

심각도 가중치가 반영된 $N_{o b s, K A B C, R F}$ , $N_{o b s, K A B, R F}$ , $N_{o b s, K A B C, X G B}$ , $N_{o b s, K A B, X G B}$ 지표를 종속변수로 하는 SPF 개발 단계에서 Dispersion parameter는 모두 0.0001보다 작아 과소산포를 보이는 것으로 확인되었다. 따라서 이를 근거로 Com-poisson 모형을 개발하였다. 각 모형 개발시 변수선택은 후진소거법(backward elimination)을 통해 진행되었다. 변수는 90% 신뢰수준(P-value<0.1)을 만족하는 변수만 선택되었다. 통계기반의 최종 SPF 개발 결과는 표에 정리하여 제시하였다(Tables 4, 5, 6).

Table 4.

SPFs by base dependent variables (NB regression)

Parameter	Crash severity level
	$N_{o b s, K A B C}$			$N_{o b s, K A B}$
	Estimate	Std. Err	P-value	Estimate	Std. Err	P-value
Intercept	-3.2827	1.5777	0.0375	-3.2091	1.6499	0.0518
ln(AADT) (major)	0.3793	0.1561	0.0151	0.3721	0.1627	0.0222
ln(AADT) (minor)	0.188	0.1066	0.0778	0.2244	0.1082	0.0381
Number of lanes (major)	0.1319	0.0479	0.0059	0.1203	0.0501	0.0162
Number of left turn lanes (major)	0.0869	0.033	0.0084	0.0912	0.0347	0.0085
Number of right turn lanes (major)	0.2032	0.1171	0.0829	N.S	N.S	N.S
Number of channelization right turns (major)	-0.2031	0.05	<.0001	-0.2084	0.052	<.0001
Number of medians (major)	-0.3303	0.0987	0.0008	-0.3498	0.1027	0.0007
Type of median (major) References: Open	-0.421	0.1742	0.0157	-0.471	0.181	0.0093
Presence of parking (major)	0.3542	0.1249	0.0046	0.3406	0.1282	0.0079
Max speed (major) Reference: 50kph	0.6882	0.2831	0.015	0.6482	0.2897	0.0253
Max speed (major) Reference: 60kph	0.6218	0.2833	0.0282	0.583	0.2902	0.0445
Presence of turn lane (minor)	-0.3813	0.1232	0.002	-0.3835	0.1272	0.0026
Number of right turn lanes (minor)	-0.5464	0.1222	<.0001	-0.4963	0.1221	<.0001
Type of median (minor) Reference: Island	0.221	0.1068	0.0386	0.2181	0.1111	0.0496
Skewed intersection	0.4468	0.1439	0.0019	0.4277	0.1507	0.0045
Intersection type Reference: Three-leg	-0.5658	0.1625	0.0005	-0.5841	0.1684	0.0005
Dispersion	0.0117	0.0141	-	0.0147	0.0155	-
AIC	468.7019	-	-	465.0674	-	-
Generalized R-square	0.4994	-	-	0.5326	-	-
MAE (Mean absolute error)	5.9532	-	-	5.3662	-	-
RMSE (Root mean square error)	4.0575	-	-	3.7624	-	-

Table 5.

SPFs by RF weighted dependent variables (Com-poisson regression)

Parameter	Crash severity level
	$N_{o b s, K A B C, R F}$			$N_{o b s, K A B, R F}$
	Estimate	Std. Err	P-value	Estimate	Std. Err	P-value
Intercept	-7.6953	1.3071	<.0001	-7.1689	1.3628	<.0001
ln(AADT) (major)	0.665	0.1285	<.0001	0.6725	0.1355	<.0001
ln(AADT) (minor)	0.2514	0.1009	0.0127	0.1866	0.1032	0.0708
Number of right turn lanes (minor)	-0.306	0.1237	0.0133	-0.2937	0.1293	0.0232
Number of channelization right turns (minor)	-0.1085	0.0444	0.0145	-0.0940	0.0460	0.0412
Skewed intersection	0.3012	0.1491	0.0433	N.S	N.S	N.S
Intersection size Reference: Three-leg	-0.368	0.1703	0.0307	-0.4620	0.1793	0.01
-lnNu (Dispersion parameter)	-0.7986	0.1649	<.0001	-0.7538	0.1659	<.0001
AIC	286.9660	-	-	284.2092	-	-
Generalized R-square	0.5880	-	-	0.5803	-	-
MAE (Mean absolute error)	1.1967	-	-	1.1334	-	-
RMSE (Root mean square error)	1.5780	-	-	1.5306	-	-

Table 6.

SPFs by XGB weighted dependent variables (Com-poisson regression)

Parameter	Crash severity level
	$N_{o b s, K A B C, X G B}$			$N_{o b s, K A B, X G B}$
	Estimate	Std. Err	P-value	Estimate	Std. Err	P-value
Intercept	-6.4863	1.3314	<.0001	-6.5186	1.4176	<.0001
ln(AADT) (major)	0.6173	0.1248	<.0001	0.6066	0.1329	<.0001
ln(AADT) (minor)	0.2407	0.0976	0.0137	0.2456	0.1042	0.0185
Number of left turn lanes (major)	0.0704	0.0324	0.0297	0.0673	0.0345	0.0514
Number of channelization right turns (major)	-0.124	0.0443	0.0052	-0.1196	0.0471	0.0112
Presence of turn lane (minor)	-0.2378	0.1185	0.0448	-0.2759	0.1245	0.0267
Number of right turn lanes (minor)	-0.5202	0.1238	<.0001	-0.4834	0.1314	0.0002
Skewed intersection	0.2822	0.1444	0.0506	0.3023	0.1526	0.0475
Intersection size Reference: Three-leg	-0.5084	0.1677	0.0024	-0.4888	0.1790	0.0063
-lnNu (Dispersion parameter)	-0.7806	0.1643	<.0001	-0.7167	0.1656	<.0001
AIC	300.5892	-	-	300.4591	-	-
Generalized R-square	0.6327	-	-	0.6141	-	-
MAE (Mean absolute error)	1.3393	-	-	1.3082	-	-
RMSE (Root mean square error)	1.7753	-	-	1.7616	-	-

3. 예측변수 비교

6개의 예측변수를 종속변수로 설정하여 SPF를 개발하였으며, 모형의 검증과 fitting 측면에서 비교를 수행하였다. 비교를 위해 MAE, RMSE, AIC(Akaike Information Criterion), Generalized R-square 지표를 도출하였다. XGB 모형은 MAE와 RMSE만 도출하여 예측변수 간의 비교를 수행하였다(Table 7).

Table 7.

Prediction variable comparison (NB, Com-poisson model)

Model	Dependent variables	Goodness-of-fit Criterion
Model	Dependent variables	MAE (model validation)	RMSE (model validation)	AIC (model fitting)	Generalized R-square (model fitting)
NB regression	$N_{o b s, K A B C}$	5.9532	4.0575	468.7019	0.4994
NB regression	$N_{o b s, K A B}$	5.3662	3.7624	465.0674	0.5326
Com-poisson regression	$N_{o b s, K A B C, R F}$	1.1967	1.5780	286.9660	0.5880
	$N_{o b s, K A B, R F}$	1.1334	1.5306	284.2092	0.5803
	$N_{o b s, K A B C, X G B}$	1.3393	1.7753	300.5892	0.6327
	$N_{o b s, K A B, X G B}$	1.3082	1.7616	300.4591	0.6141
XGB regression	$N_{o b s, K A B C}$	4.6449	6.3871	-	-
	$N_{o b s, K A B}$	4.4903	6.1412	-	-
	$N_{o b s, K A B C, R F}$	1.5043	1.9710	-	-
	$N_{o b s, K A B, R F}$	1.3814	1.8351	-	-
	$N_{o b s, K A B C, X G B}$	1.5126	2.0914	-	-
	$N_{o b s, K A B, X G B}$	1.3510	1.8885	-	-

비교결과, 전체 사고건수보다 KAB 사고건수에서 전체적으로 MAE, RMSE의 값이 낮은 것으로 나타나 예측력이 우수한 것으로 확인되었다. 구체적으로 모형 검증의 관점에서는 NB, Com-poisson 모형 결과에서는 $N_{o b s, K A B, R F}$ 의 MAE, RMSE 값이 가장 낮은 것으로 나타났고, XGB 회귀트리 모형 결과에서는 $N_{o b s, K A B, X G B}$ 가 가장 낮은 것으로 나타났다. 모형 최적화 관점에서는 NB, Com-poisson, 그리고 XGB 회귀모형의 구분 없이 $N_{o b s, K A B C, R F}$ 가 종속변수인 모형의 AIC 값이 가장 낮은 것으로 확인되었다. Generalized R-square의 관점에서는 XGB 기반의 가중치 적용변수가 가장 높은 것으로 설명력이 높은 것으로 확인되었다. 사고심각도 가중치를 적용했음에도 모형의 예측성능이나 설명력 측면에서 기존의 기본 사고건수 지표와 비교했을 때 오히려 성능이 개선되는 것으로 나타났다는 점은 활용성 측면에서 의미가 있다고 할 수 있다. XGB 회귀모형의 경우 사고건수 기준( $N_{o b s}$ )으로는 MAE가 더 낮고, RMSE는 더 큰 것으로 비교되었다. 심각도 가중치가 적용된 변수( $N_{o b s, R F}$ , $N_{o b s, X G B}$ )의 경우에서는 오히려 성능이 통계기반 모형보다 MAE, RMSE가 높게 나타나 예측성능 측면에서는 좋지 않은 것으로 식별되었다. 기존 연구에서도 머신러닝 모형의 경우 SPF 개발 단계에서 종속변수가 비선형성을 내포하고 있는 데이터가 아니라면 음이항 또는 포아송 회귀모형보다 성능이 우수하지 않은 경우가 있다고 확인된 바 있다(Park and Abdel-Aty, 2015; Shirani-Bidabadi et al., 2020). 따라서 비교결과를 근거로, 단순 예측성능만 고려할 것이 아니라 데이터의 분산과 모형과 선택변수의 설명력을 고려한 최적의 모형선택이 필요하다고 판단된다.

결론 및 토의

본 연구에서는 사고빈도분석과 심각도분석이 각각 갖고 있는 한계점을 보완할 수 있는 심각도 가중치 기반의 예측변수를 사용한 교차로 사고예측모형을 개발하였다. RF, XGB 기법을 활용하여 교차로 사고심각도 분석을 수행하여 심각도에 영향을 미치는 요인을 도출하였으며, 변수 중요도를 토대로 각 사고의 score를 산출하였다. 산출된 개별 사고의 score를 교차로 단위로 집계하여 기존의 단순 집계 사고건수에서 심각도 가중치가 반영된 신규 예측변수를 개발하였다. 여기서 심각도 가중치 예측변수를 활용한 SPF 개발에는 일반적으로 사용되는 NB 모형과 과소분산을 설명할 수 있는 Com-poisson 모형, 그리고 예측성능이 우수하다고 알려진 이 사용되었다. 분석은 서울과 부산지역에서 발생한 사고를 대상으로 하며, 사고심각도 분석을 위해 2017-2018년 2년간 서울 및 부산의 교차로에서 발생한 42,513건의 사고데이터가 수집되었다. 이어서 사고빈도 분석을 위해 같은 기간 동안 서울 및 부산에 위치한 81개의 교차로에서 발생한 1,990건의 사고데이터도 수집되었다.

먼저 교차로 사고심각도 분석결과, 82개의 독립변수 중에서 심각한 사고발생에 영향을 미치는 요인의 순서에 따라 RF와 XGB 각 모형별로 변수 중요도가 도출되었다. 두 모형의 변수 중요도 도출 결과에 따르면 피해차종-승용차, 피해자연령-56세 이상, 위반유형-신호위반 등의 지표가 RF, XGB 분류 모형에서 공통적인 심각한 사고에 기여하는 요인으로 식별되었다. 이러한 기여 요인의 변수 중요도 순서에 따라 개별사고 score가 계산되었으며, 분석대상 교차로 단위로 집계되었다. 기존 교차로 단위 집계 관측 사고건수( $N_{o b s}$ )에 RF, XGB 가중치가 적용된 예측변수( $N_{o b s, R F}$ , $N_{o b s, X G B}$ )를 종속변수로 하는 안전성능함수(SPF)가 개발되었다. 각 변수의 예측성능 검증 결과, RF 가중치가 적용된 $N_{o b s, R F}$ 의 MAE, RMSE가 가장 낮은 것으로 나타나 예측성능이 우수한 것으로 나타났다. 예측성능의 비교 목적이 기존 변수를 대체함과 동시에 새로운 사고심각도 insight를 제공하는 것이었는데, 기존 변수인 $N_{o b s}$ 의 성능보다 오히려 우수한 것으로 나타났다. 또한 심각도 가중치 기반의 예측변수는 사고심각도 영향요인을 내포한 지표라는 점에서 더 많은 안전성 해석이 가능한 접근 방식이라고 볼 수 있다. 이는 향후 사고예측모형을 활용한 응용연구 및 실증 분석 시에 다양한 방향으로 활용이 가능한 것을 의미한다.

그러나 본 연구는 기존의 사고예측모형 또는 안전성능함수 개발 연구와 마찬가지로 교차로 표본 구성에 있어 데이터 수집에 어려움이 있었다. 연구 수행을 위해 통계적으로 유의하다고 볼 수 있는 필요 표본만을 분석 데이터셋으로 구성하여 방법론의 타당성을 입증하고자 하였으나, 향후에는 유사한 특성을 가진 교차로에 대한 추가적인 분류작업과 서울 및 부산 내의 더 많은 교차로 데이터가 추가된다면 실증적 관점에서 더욱 의미있는 연구가 될 것이다. 본 연구에서 제안한 예측지표를 활용한 사고예측모형 개발 연구내용은 미래 도로설계에 있어서 사고 빅데이터를 활용한 기존 도로 개선사항 도출, 개선 우선순위 선정, 그리고 안전 대응방안 설계에 유용하게 활용할 수 있을 것으로 기대된다.

Funding

This work was supported by the National Research Foundation of Korea grant funded by the Korea Government (MSIP) (NRF-2019R1G1A1010209).

알림

본 논문은 대한교통학회 제85회 학술발표회(2021.11.11)에서 발표된 내용을 수정 ‧ 보완하여 작성된 것입니다.

References

AASHTO (2010), Highway Safety Manual, First ed. Washington, D.C.

Abdel-Aty M. (2003), Analysis of Driver Injury Severity Levels at Multiple Locations Using Ordered Probit Models, Journal of Safety Research, 34(5), 597-603. 10.1016/j.jsr.2003.05.00914733994

Abdel-Aty M., Keller J., Brady P. A. (2005), Analysis of Types of Crashes at Signalized Intersections by Using Complete Crash Data and Tree-based Regression, Transportation Research Record, 1908(1), 37-45. 10.1177/0361198105190800105

Ahmadi A., Jahangiri A., Berardi V., Machiani S. G. (2020), Crash Severity Analysis of Rear-end Crashes in California Using Statistical and Machine Learning Classification Methods, Journal of Transportation Safety & Security, 12(4), 522-546. 10.1080/19439962.2018.1505793

Breiman L. J. M. l. (2001), Random Forests, 45(1), 5-32. 10.1023/A:1010933404324

Chang L. Y., Chen W. C. (2005), Data Mining of Tree-based Models to Analyze Freeway Accident Frequency, Journal of Safety Research, 36(4), 365-375. 10.1016/j.jsr.2005.06.01316253276

Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H., Chen, K. (2015), Xgboost: Extreme Gradient Boosting, R Package Version 0.4-2, 1(4), 1-4.

Conway R. W., Maxwell W. L. (1962), A Queuing Model with State Dependent Service Rates, Journal of Industrial Engineering, 12(2), 132-136.

Franklin J. (2005), The Elements of Statistical Learning: Data Mining, Inference and Prediction, The Mathematical Intelligencer, 27(2), 83-85. 10.1007/BF02985802

Ijaz M., Zahid M., Jamal A. (2021), A Comparative Study of Machine Learning Classifiers for Injury Severity Prediction of Crashes Involving Three-wheeled Motorized Rickshaw, Accident Analysis & Prevention, 154, 106094. 10.1016/j.aap.2021.10609433756425

Kang K., Park J., Lee K., Park J., Song C. (2021), Development of Time-based Safety Performance Function for Freeways, The Journal of The Korea Institute of Intelligent Transport Systems, 20(6), 203-213. 10.12815/kits.2021.20.6.203

Kim H., Jeon G., Jang J., Yoon I. (2020), Analysis of Factors Affecting Buses and Trucks Crash Severity Using Meta Analysis. 10.7470/jkst.2020.38.6.520

Kuhnert P. M., Do K. A., McClure R. (2000), Combining Non-parametric Models with Logistic Regression: An Application to Motor Vehicle Injury Data, Computational Statistics & Data Analysis, 34(3), 371-386. 10.1016/S0167-9473(99)00099-7

Lee J. Y., Chung J. H., Son B. S. (2008), Analysis of Traffic Accident Severity for Korean Highway Using Structural Equations Model, J. Korean Soc. Transp., 26(2), Korean Society of Transportation, 17-24.

Liu C., Sharma A. (2018), Using the Multivariate Spatio-temporal Bayesian Model to Analyze Traffic Crashes by Severity, Analytic Methods inAaccident Research, 17, 14-31. 10.1016/j.amar.2018.02.001

Lord D., Guikema S. D. (2012), The Conway-Maxwell Poisson Model for Analyzing Crash Data, Applied Stochastic Models in Business and Industry, 28(2), 122-127. 10.1002/asmb.937

Lord D., Mannering F. (2010), The Statistical Analysis of Crash-frequency Data: A Review and Assessment of Methodological Alternatives, Transportation Research Part A: Policy and Practice, 44(5), 291-305. 10.1016/j.tra.2010.02.001

National Highway Traffic Safety Administration (NHTSA) (2015), Traffic Safety Factors, A Compilation of Motor Vehicle Crash Data From the Fatality Analysis Reporting System and the General Estimates System, United States of America.

Park J., Abdel-Aty M. (2015), Assessing the Safety Effects of Multiple Roadside Treatments Using Parametric and Nonparametric Approaches, Accident Analysis & Prevention, 83, 203-213. 10.1016/j.aap.2015.07.00826291920

Prato C. G., Kaplan S., Patrier A., Rasmussen T. K. (2018), Considering Built Environment and Spatial Correlation in Modeling Pedestrian Injury Severity, Traffic Injury Prevention, 19(1), 88-93. 10.1080/15389588.2017.132953528534647

Sellers K. F., Borle S., Shmueli G. (2012), The COM-Poisson Model for Count Data: A Survey of Methods and Applications, Applied Stochastic Models in Business and Industry, 28(2), 104-116. 10.1002/asmb.918

Sellers K. F., Shmueli G. (2010), A Flexible Regression Model for Count Data, The Annals of Applied Statistics, 943-961. 10.1214/09-AOAS306

Shirani-Bidabadi N., Mallipaddi N., Haleem K., Anderson M. (2020), Developing Bicycle-vehicle Crash-specific Safety Performance Functions in Alabama Using Different Techniques, Accident Analysis & Prevention, 146, 105735. 10.1016/j.aap.2020.10573532835954

Son S., Park J., Kim M., Choe B. (2019), Assessing the Safety Effects of Reduction of Speed Limit on Urban Roads, J. Korean Soc. Transp., 37(6), Korean Society of Transportation, 514-524. 10.7470/jkst.2019.37.6.514

TAAS (Traffic Accident Analysis System) (2021), Statistical Analysis of Traffic Accidents (2020).

Tang J., Liang J., Han C., Li Z., Huang H. (2019), Crash Injury Severity Analysis Using a Two-layer Stacking Framework, Accident Analysis & Prevention, 122, 226-238. 10.1016/j.aap.2018.10.01630390518

Wang K., Simandl J. K., Porter M. D., Graettinger A. J., Smith R. K. (2016), How the Choice of Safety Performance Function Affects the Identification of Important Crash Prediction Variables, Accident Analysis & Prevention, 88, 1-8. 10.1016/j.aap.2015.12.00526710265

Wang K., Zhao S., Jackson E. (2019), Functional Forms of the Negative Binomial Models in Safety Performance Functions for Rural Two-lane Intersections, Accident Analysis & Prevention, 124, 193-201. 10.1016/j.aap.2019.01.01530665054

Won M. S., Lee G. R., Gang G. U. (2009), A Study on the Application of Accident Severity Prediction Model, J. Korean Soc. Transp., 27(4), Korean Society of Transportation, 167-173.

Yan X., He J., Zhang C., Liu Z., Qiao B., Zhang H. (2021), Single-vehicle Crash Severity Outcome Prediction and Determinant Extraction Using Tree-based and Other Non-parametric Models, Accident Analysis & Prevention, 153, 106034. 10.1016/j.aap.2021.10603433647597

Zhao M., Liu C., Li W., Sharma A. (2018), Multivariate Poisson-lognormal Model for Analysis of Crashes on Urban Signalized Intersections Approach, Journal of Transportation Safety & Security, 10(3), 251-265.

Journal of Korean Society of Transportation ISSN:1229-1366(Print) 2234-4217(Online) 대한교통학회지

Preview

Assessment of Crash Prediction Models for Intersections with Severity Weight Parameters Using Data Science Approaches

ABSTRACT

MAIN

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Table 1.

Variable definitions and descriptions for crash injury severity analysis

Table 2.

Results of top 10 variable importance in 82 variables by RF and XGB

Table 3.

Statistics summaries of injury severity analysis results (RF and XGB)

Table 4.

SPFs by base dependent variables (NB regression)

Table 5.

SPFs by RF weighted dependent variables (Com-poisson regression)

Table 6.

SPFs by XGB weighted dependent variables (Com-poisson regression)

Table 7.

Prediction variable comparison (NB, Com-poisson model)

References