서론
방법론
1. 안전성능함수(Safety Performance Functions, SPF)
2. 사고심각도 가중치 기반의 예측변수 개발
분석 데이터
분석결과
1. 사고심각도 분석 결과
2. 예측변수별 SPF 개발 결과
3. 예측변수 비교
결론 및 토의
서론
현대의 도시에서 교차로는 교통 네트워크를 구성하는 각 단일로를 잇는 중요한 교통시설로서 보행자와 자전거, 이륜차, 그리고 차량 등 다양한 교통이용자가 공존하는 공간이다. 공존을 위해 신호체계, 법규 등 차량 운전자 및 보행자 간의 규칙 또한 존재한다. 하지만 이러한 교차로의 특성은 교차로에서 발생한 사고를 분석할 때 어려움을 줄 수 있다. 교차로 및 교차로와 관련된 사고는 49.8%로서 단일로에서 발생한 사고(45.0%)보다 많이 발생한 것으로 나타났다(TAAS, 2021). 미국에서도 교차로 및 교차로 관련 사고는 연간 총 사고의 약 50%에 달하며 큰 경제적, 사회적 손실로 여겨지고 있다(NHTSA, 2015). 이러한 문제 해결을 위해 국내외에서는 교차로에서 발생하는 교통안전을 분석하고 개선하기 위해 사고예측모형(Crash Prediction Model, CPM)을 추정하고 취약한 교차로 및 구간을 식별하는 방법에 관심이 증가하고 있다(Wang et al., 2019). 여기서 사고예측모형은 안전성능함수(Safety Performance Function, SPF)로도 알려져 있다. 미국 Highway safety manual(HSM)에서는 도시, 교외, 지방부 교차로 및 다차로 간선도로, 2차로 도로 등을 대상으로 하는 SPF에 대해 상세하게 설명되어 있다(AASHTO, 2010).
HSM에서 설명하고 있는 교차로 SPF는 전체 사고건수를 종속변수로 하여 추정된다. 하지만 모형 추정 시에 사고의 유형 및 사고심각도에 따라 종속변수를 설정할 경우 모형이 유의하지 않을 수 있다(Zhao et al., 2018; Wang et al., 2019). 따라서 이러한 문제를 해결하기 위한 다양한 연구가 수행되었다(Abdel-Aty et al., 2005; Liu and Sharma, 2018). 사고예측모형의 초기 단계에서는 사고 빈도가 가산데이터이기 때문에 대표적인 가산데이터 모형인 포아송 회귀모형(Poisson regression model)이 SPF 추정에 사용되었다(Lord and Mannering, 2010). 그러나 포아송 회귀모형은 표본의 분산이 평균과 같다는 조건이 있기 때문에 일반적인 사고데이터가 갖는 과분산 문제를 해결하지 못한다는 단점이 있다. 따라서 이 과분산 문제를 해결할 수 있는 음이항 회귀모형(Negative binomial model, NB)이 SPF 추정에 활용되었다(AASHTO, 2010). HSM에서도 음이항 회귀모형 기반의 SPF를 제시하고 있으며, 사고예측모형 개발 단계에서 가장 빈번하게 활용되고 있다. 반대로 특정 사고유형이나 사고심각도 구분 데이터의 경우 평균보다 분산이 작을 때를 의미하는 과소산포의 형태를 나타낼때는 음이항 회귀모형으로 모형 추정이 어려울 수 있다. 과소분산 데이터를 처리할 수 있는 방법론으로 콘웨이-맥스웰 포아송 회귀모형(Conway-maxwell poisson; Com-poisson)이 있다(Conway and Maxwell, 1962; Shirani-Bidabadi et al., 2020). 본 연구에서는 참고문헌을 근거로 종속변수의 분산 특성에 따라 NB와 Com-poisson을 선택적으로 활용하여 사고예측모형을 개발하였다.
하지만 교차로는 다양한 교통수단이 공존하고 있기 때문에 발생한 사고의 요인에 대한 심도깊은 고찰이 필요하다. 가산데이터 모형인 사고빈도 기반의 사고예측모형은 이러한 안전성 분석과는 방향성이 다르기 때문에 별도의 분석이 요구된다. 이를 해결하기 위한 방법으로는 대표적으로 사고심각도 분석이 있다. 분석 대상구간에서 발생한 사고데이터의 설명변수를 독립변수로 하고 사고심각도를 종속변수로 하는 일반적인 사고심각도 분석이 대표적이다(Lee et al., 2008; Won et al., 2009; Kim et al., 2020). 분석을 통해 사고심각도에 유의한 영향을 미치는 요인을 도출할 수 있으며, 도출된 요인들을 근거로 안전정책 설계 및 대안을 마련할 수 있다. 분류 정확도를 높일 수 있는 머신러닝 방법론 또한 사고심각도 분석에 다양하게 활용되고 있다. Tang et al.(2019)은 단계별 2-stage 심각도 분석 수행하여 로지스틱 회귀모형과 Random forest, Adaptive Boosting(AdaBoost), Gradient Boosting Decision Tree(GBDT)의 3개 기본 분류기를 통합한 Stacking 모형을 활용하여 심각도 예측을 수행하였다. 기존 연구에서 활용되는 순서형 프로빗 모형 등의 통계기반 모형보다 제안한 Stacking 모형의 예측정확도가 우수한 것을 입증하였다. Ahmadi et al.(2020)는 캘리포니아에서 발생한 후방추돌 사고심각도 분석을 위해 다항 로짓 모형(Multinomial logit), 혼합다항로짓모형(Mixed multinomial logit), 그리고 서포트벡터머신(Support vector machine(SVM)을 활용하여 각 모형의 예측성능을 비교하였다. 분석결과 SVM이 가장 우수한 모형으로 나타났다. 국내외의 다양한 사고를 대상으로 한 연구에서 순서형 프로빗 모형과 같은 전통적 통계방법론뿐만 아니라 머신러닝 방법론을 적용하여 우수한 예측성능을 입증하였다. 하지만 개별 사고의 심각도와 교차로 및 단일로의 공간적 특성과 사고발생 빈도를 모두 고려한 연구는 미흡한 것으로 확인되었다. 일부 연구에서는 사고심각도 분석과 빈도 분석을 계층 또는 단계로 구분하는 미흡한 분야와 연관된 연구가 일부 수행되었다. Abdel-Aty(2003)의 연구에서는 다중 위치에서의 사고심각도 분석 특성을 분류한 연구를 수행하였다. 공간적 특성이 심각도에 미치는 영향이 다르다는 가정을 놓고 분석이 수행되었으며, 순서형 프로빗 모형을 활용되었다. 일반 단일로, 신호교차로 그리고 요금소를 대상으로 구분되어 수행되었으며, 사고위치에 따라 심각도 요인이 다른 것으로 나타났다. Prato et al.(2018)은 건축환경과의 공간적 상관관계를 고려한 보행자 사고 심각도를 분석하였다. 분석결과 고령보행자와 술에 취한 보행자가 가장 취약한 도로이용자로 나타났으며, 대형차량 및 제한속도가 높은 도로에서의 사고가 가장 심각하게 발생하는 것을 입증하였다. 동일한 심각도 사고라도 공간적 상관관계에 따라 근접한 건설환경의 역할이 미치는 다름 또한 입증하여 새로운 관점을 제시하였다. 이처럼 공간적 특성을 단계별로 도입하여 수행되는 심각도 분석은 공간분석을 같이 할 수 있다는 점에서 장점이 있다. 그러나 이러한 연구 또한 거시적인 관점에서의 사고빈도를 반영한 안전성 분석이라고 보기 어려우며, 이러한 특성은 실제 정책설계 단계에서 실무자에게 효과적인 우선순위 제시에 어려움을 있을 수 있다.
본 연구에서는 이러한 빈도분석과 심각도분석이 각각 갖고 있는 한계점을 보완할 수 있는 사고예측모형의 예측지표를 개발하였다. 교차로에서 발생한 사고를 대상으로 머신러닝 기법을 활용한 사고심각도 분석을 수행하여 심각도 기여 요인의 가중치를 환산하였으며, 이를 각 교차로 단위로 집계하여 사고예측모형 개발에 필요한 지표를 도출하였다. 이 지표를 종속변수로 하는 사고예측모형, 즉 안전성능함수(SPF)를 개발하였으며 최종적으로 예측성능 검증을 통해 실제 제안한 지표를 활용한 정책설계가 가능할지에 대해 결과로 제시하였다.
다음 장에서는 연구에서 활용한 방법론에 대해서 설명하였으며, 이어서 연구에 활용된 데이터를 정리하여 제시하였다. 네 번째 장에서는 예측변수를 활용한 안전성능함수 개발 결과와 예측성능 검증결과를 제시하였으며, 마지막 장에서는 결과정리 및 시사점, 향후 과제에 대해서 설명하였다.
방법론
1. 안전성능함수(Safety Performance Functions, SPF)
안전성능함수(SPF)는 교통량 및 기하학적 요소 변수를 바탕으로 사고 빈도를 추정하는 사고예측모형(Crash prediction model)으로 알려져 있다(Son et al., 2019). Highway safety manual(HSM)에서는 안전정책의 안전성 효과평가 및 대응전략 수립을 위한 SPF 활용 방법론을 제시하고 있다(AASHTO, 2010). 최근에는 해외뿐만 아니라 국내에서도 도로의 단일로 및 교차로, 고속도로를 대상으로 한 SPF 관련 연구들이 수행되어 왔다(Son et al., 2019; Kang et al., 2021). SPF 개발에 사용되는 예측변수는 대표적으로 사고 빈도이지만, 일부 연구에서는 심각한 사고의 예측과 심각한 사고의 감소효과를 평가하기 위해 사망 및 중상사고를 대상으로 한다(Park and Abdel-Aty, 2015; Son et al., 2019). 일반적으로 사고데이터의 분산을 고려하여 과대산포 문제를 설명할 수 있는 것으로 알려진 음이항 모형(Negative Binomial, NB; Poisson-Gamma)이 사용된다. NB 모형 기반의 SPF 수식은 Equation 1과 같다.
where, : 해당 구간(또는 교차로)의 예측사고건수
: 변수 k에 대한 계수
: 구간(또는 교차로) i의 일일 평균 교통량
: 구간(또는 교차로) i의 도로특성
: 변수의 개수
NB 모형은 대부분의 사고데이터가 갖는 과대산포 문제를 해결할 수 있는 것으로 알려져 있어 다양한 연구에서 활용되었다. 반대로 모델 개발 과정 중이나 데이터 표본 생성 또는 표본 수가 적을 경우에는 데이터의 과소산포 문제가 발생한다(Lord and Guikema, 2012; Sellers et al., 2012; Shirani-Bidabadi et al., 2020). 일반적으로 사용되는 NB 모형과 포아송 모형(Poisson)은 모두 과소분산 데이터를 설명하지 못하는 한계점이 있다.
Conway-Maxwell-Poisson 분포(Com-poisson)는 포아송 분포의 일반화된 형태로 데이터 표본의 분산 분포 여부와 상관없이 데이터 분포를 설명할 수 있는 것으로 알려져 있다. Conway and Maxwell(1962)는 이 분포를 처음으로 제안하였으며, Sellers and Shmueli(2010)의 연구에서는 과소분산, 과분산된 이산형 자료를 대상으로 한 분포를 제안하였다(Sellers and Shmueli, 2010). Com-poisson 분포의 형태는 Equations 2, 3에 정의된다.
where, : 이산확률변수(discrete random variable)
: 정규화 상수(normalizing constant)
: 과분산 계수(일 경우 과소분산, 인 경우 과분산)
: 변수의 개수
: 중심화 값
본 연구에서 제안하는 예측변수에 적용되는 심각도 가중치로 인해 저분산이 발생함을 확인하여 각 예측변수의 분산에 따라 NB 모형 및 Com-poisson을 적용하여 SPF를 개발하였다. 마지막 세 번째 모형으로 데이터 마이닝 기반의 비모수적 모형인 Extreme gradient boosting(XGB) 회귀모형이 SPF 개발에 활용되었다. NB 모형과 Com-poisson 모형 등의 선형 모델은 변수 요인의 복잡한 비선형 관계를 설명할 수 없으며 상호작용 설명에 제한적이다. 교호작용과 비선형 항을 추가하는 등의 방법이 있지만, 적절한 조합 설정과 비선형성 형태 정의가 단순하지 않기 때문에 일반적으로는 NB 모형보다 우수한 성능을 보이는 경우가 드물다(Wang et al., 2016). 비선형성 및 상호작용을 고려한 트리 기반 회귀모형은 이미 다양한 연구에서 수행된 바 있다(Kuhnert et al., 2000; Chang and Chen, 2005). 따라서 예측변수와 교차로 사고 및 기하구조 데이터가 갖는 특성을 검토하기 위해 트리 기반의 XGB 모형을 활용하였다. XGB 회귀트리 모형 개발을 위해 R 패키지 “xgboost”를 활용하였으며, 과적합 방지를 위해 1에서 10까지의 nfold와 1에서 100까지의 nround를 비교하였으며, 성능검증 절차를 거쳐 준비된 데이터셋으로는 nfold가 5일 때, nround는 50일 때 최적화가 되는 것으로 확인되어 spf 개발에 활용하였다.
2. 사고심각도 가중치 기반의 예측변수 개발
앞서 제시한 안전성능함수는 일반적으로 모형의 예측변수를 사고건수로 한다. 하지만 사고 건수는 단순히 발생한 사고의 집계된 합으로 심각한 사고와 그 내용을 포함하지 못한다. 심각한 사고의 경우에는 사망사고 건수 또는 EPDO 등 심각한 사고를 중심으로 설정된 지표를 통해 예측변수로서 활용이 가능하지만 이는 각 사고의 세부내용과 원인을 포함하지 못한 단순 집계지표이다. 본 연구에서는 이러한 기존 지표의 단점을 보완할 수 있는 사고심각도 가중치 기반의 예측변수를 개발하였다. 교차로에서 발생한 사고를 대상으로 심각도 분석을 통해 심각한 사고에 미치는 요인을 도출하였으며, 도출된 요인의 변수 중요도에 따라 각 사고의 심각도 score를 계산하여 교차로 단위로 집계하였다. 교차로마다 집계된 사고심각도 score는 사고예측모형의 예측변수로 설정되며 주요한 사고내용을 포함할 수 있다. 사고심각도 score 산출을 위한 심각도 분석 방법론으로 머신러닝 기법인 Random forest(RF)와 Extreme gradient boosting(XGB)을 활용하였다. RF와 XGB는 사고심각도 분석 연구분야에서 다양하게 활용되고 있다(Ijaz et al., 2021; Yan et al., 2021). 먼저 RF 기법은 Breiman(2001)이 제안한 성능이 우수한 머신러닝 방법론 중 하나이다. 랜덤 포레스트를 구성하고 있는 각 트리는 무작위로 선택된 표본과 트리 특성을 바탕으로 생성된다. 최종적으로 트리 중 투표 방법에 의해 최적 모형이 결정된다. Single classifier인 의사결정나무(Decision tree)의 국소 최적화 및 과적합 문제를 효과적으로 극복할 수 있는 것으로 알려져 있다. Bootstrap sampling을 이용하여 트리 분류기 모음을 확장하고 이후에 트리의 결과를 사용하여 트리 모델링에 사용된 변수의 중요성을 평가할 수 있도록 알고리즘이 구성되어 있다. RF 분류 모형의 변수 중요도 산출 지표는 MDA(Mean Decrease Accuracy), MDG(Mean Decrease Gini)이다. 본 연구에서는 이 지표를 표준화하여 가중치로 환산하여 심각도 Score 산출에 활용하였다.
Extreme gradient boosting(XGB)는 Gradient boosting을 기반으로 알고리즘을 개선한 기법이다(Chen et al., 2015). 트리를 병렬로 작동하도록 구성하여 효율성을 개선하여 우수한 성능을 입증하였으며, RF와 마찬가지로 분류 및 회귀문제를 해결할 수 있다. XGB에서는 변수 중요도 지표로 Gain, Cover, Frequency의 3가지를 확인할 수 있다. 먼저 Gain은 무작위 트리에 대해 각 변수가 기여한 정도를 고려하여 산출된 모형에서의 상대적인 기여도를 정의한 지표이다. 다른 변수와 비교했을 때 값이 높을수록 중요하다고 판단할 수 있다. 일반적으로 Gain이 상대적 중요성을 해석하는 가장 중요한 지표로 알려져 있다. 따라서 본 연구에서는 Gain 지표를 교차로 사고심각도 중요도 지표로 활용하였다.
RF, XGB 기법을 활용하여 국내 교차로 사고심각도 데이터셋을 대상으로 사고심각도 분석을 수행하였으며, 분석결과로 도출된 변수 중요도()는 개별 사고점수로 계산된다. RF는 도출된 변수 중요도의 값의 합이 1이 아니기 때문에, 표준화 절차를 수행하여 전체 변수의 합이 1이 되도록 조정하였다. 사고점수 계산식은 아래에 제시하였다(Equation 4).
where, : 사고 의 심각도 가중치 반영 사고점수
: 사고번호(=1,2,....,)
: 변수 의 값
: 변수 의 변수 중요도
: 개별 사고의 변수번호(=1,2,...,)
개별사고 단위로 환산된 점수는 SPF의 표본 집계단위인 교차로마다 합산되었으며, 합산된 관측 사고건수()의 계산식은 다음과 같다(Equation 5).
where, : 심각도 가중치 반영 집계 사고점수(method = RF, XGB)
여기서 식에 의해 집계된 관측 사고건수()는 SPF의 기본 예측변수로 설정된다. 본 연구에서는 제안한 교차로 사고심각도 가중치가 반영된 예측변수는 , 로 2가지이다. 기본 예측변수인 관측 사고건수와 제안한 2개의 예측변수를 포함한 3개의 예측변수를 대상으로 SPF를 개발하였다.
본 연구에서는 제안한 변수의 예측성능 검증을 위해 개발한 모형의 변수별로 예측성능을 평가하였다. 성능 평가를 위해 절대 평균 오차(Mean absolute error, MAE)와 평균 제곱 예측 오차(Root mean square error, RMSE)를 활용하였다. 두 값 모두 절대값과 절대값의 제곱을 사용하여 예측값과 관측값 간의 차이를 비교할 수 있으며, 0에 가까울수록 예측성능이 좋다는 것을 의미한다. 또한 일반적으로 회귀모형의 예측성능 검증에는 Train dataset과 Validation dataset의 표본을 7:3 또는 8:2 등의 일정 비율에 맞춰 Split하여 검증이 수행된다. 그러나 sample size가 충분하지 않은 예측모형의 경우 예측력이 감소하며 Split dataset에서 편향된 예측성능이 도출될 수 있다. 본 연구에서는 데이터 수집 여건이 제한됨에 따라 81개의 sample size 때문에 일반적인 split 기반의 예측성능을 검증하지 않고, K-fold cross-validation 기법을 적용하여 예측성능을 검증하였다. K-fold cross-validation 기법은 k개의 상호 배타적인 부분집합을 무작위로 균등하게 분할된다(Franklin, 2005). 기준 폴드는 validation dataset에, 나머지 k-1개의 폴드는 training dataset에 그룹화된다. 본 연구에서는 k가 5로 설정되어 전체 데이터셋이 4:1의 비율로 5개의 부분집합으로 구분하여 반복검증을 통해 편향되지 않은 결과를 제시하였다. 본 연구에서 활용된 MAE와 RMSE의 산출식은 다음과 같다(Equations 6, 7).
where, : 교차로 의 예측 값
: 교차로 의 관측 값
분석 데이터
본 연구에서 사용되는 데이터셋은 교차로에서 발생한 사고의 심각도 요인 분석을 위한 사고심각도 데이터와 사고예측모형 개발을 위한 교차로 단위 사고빈도 데이터 2가지로 구성된다. 사고심각도 분석을 위해 2017-2018년 2년간 서울 및 부산의 교차로에서 발생한 42,513건의 사고를 수집하였다. 이어서 사고빈도 분석을 위해 같은 기간 동안 서울 및 부산에 위치한 81개의 교차로에서 발생한 1,990건의 사고를 수집하였다. 분석 대상 도시의 교차로를 이용하는 전체적인 교통특성을 반영하기 위해 발생한 전체 교차로 사고인 42,513건의 사고를 대상으로 심각도 분석을 수행하였으며, 그중에서 hotspot 식별 대상 교차로인 81개의 교차로에서만 빈도분석을 위해 1,990건의 사고가 수집되었다.
사고데이터는 도로교통공단에서 운영하는 교통사고분석시스템(Traffic Accident Analysis System, TAAS)에서 수집하였다. 사고데이터에는 인적요인, 환경요인, 차량요인으로 구분되는 개별 사고의 원인이 될 수 있는 설명변수가 포함되어 있다. 사고심각도 분석을 위해 활용된 데이터의 설명변수에 대한 설명은 Table 1에 제시하였다.
Table 1.
본 연구에서의 사고심각도 구분은 K(사망), A(중상), B(부상), C(경상)으로 분류되며 물피사고는 전체 사고의 0.001% 미만(10건 이하)에 해당하여 TAAS에서 유의미하게 기록되지 않기 때문에 outlier로 간주하여 분석표본에서 제외하였다.
사고빈도 분석을 위한 데이터셋을 구성하기 위해 분석대상 교차로의 특성변수를 각각 수집하였다. 교통량(AADT)은 한국교통연구원에서 운영하는 교통빅데이터 제공 시스템 View-T에서 수집하였으며, 그 밖의 교차로 특성변수는 Kakao map의 로드뷰 시스템을 통해 수집하였다. 연구에 적용할 수 있는 특성변수는 기존 교차로 사고예측모형 개발 연구의 변수선택을 참고하여 선정하였다(Shirani-Bidabadi et al., 2020). 교차로 특성변수 중 연속형 변수는 총 12가지로 다음과 같다: 교통량(주 ‧ 부도로), 차로수(주 ‧ 부도로), 좌회전 차로수(주 ‧ 부도로), 우회전 차로수(주 ‧ 부도로), 우회전 도류화 개수(주 ‧ 부도로), 중앙분리대 개수(주 ‧ 부도로). 11가지 명목형 변수는 다음과 같다: 좌회전차로 유무(주 ‧ 부도로), 중앙분리대 유형(island, closed, open; 주 ‧ 부도로), 불법주정차 유무(주 ‧ 부도로), 제한속도(주 ‧ 부도로), 교차로 교차각 분류, 교차로 연결로 수, 지역구분(서울 및 부산).
분석결과
1. 사고심각도 분석 결과
본 연구에서는 교차로 사고심각도 가중치 적용을 위한 심각도 분석을 수행하였으며, 머신러닝 기법인 RF와 XGB을 활용하였다. 분류 모형의 종속변수는 사망 및 중상사고(KA crashes)를 1로 부상 및 경상사고(BC crashes)를 0으로 하여 사망 및 중상사고 분류 예측에 영향을 미치는 중요한 변수를 도출하였다. 각 방법론별 전체 82개의 변수 중 상위 10개의 변수 중요도를 Table 2에 제시하였다.
Table 2.
RF 분류 모형 분석 결과에 따르면 피해차종-승용차(0.0383), 피해자 연령-56세 이상(0.0322), 그리고 위반유형-신호위반(0.0263)이 중요도가 높은 지표로 식별되었다. XGB 분류모형에서는 피해차종-승용차(0.0683), 피해자연령-56세 이상(0.0435), 그리고 지역-서울(0.0391) 변수가 분류에 큰 영향을 미치는 것으로 식별되었다. 2개 모형 모두에서 피해차종-승용차, 피해자연령-56세 이상 등의 변수가 공통적으로 식별되었다. 이 지표를 갖는 사고는 높은 심각도 score가 반영되었다. Equation 7에 제시한대로 각 사고 세부 설명변수의 값에 따라 적용되어 점수화된다. 이어서 앞서 방법론 장에서 제시한 와 같이 교차로 단위로 집계되어 예측변수로 설정되었다. 심각도 가중치 환산 결과가 반영된 예측변수의 기초통계량은 다음과 같다(Table 3).
Table 3.
2. 예측변수별 SPF 개발 결과
SAS 9.4 프로그램의 PROC GENMOD(NB 모형), COUNTREG(Com-poisson 모형)을 사용하여 교차로 SPF를 개발하였다. 개발된 SPF는 사고건수(, )를 예측변수로 하는 기초 모형과 본 연구에서 제안한 심각도 가중치가 적용된 4개 지표(, , , )를 예측변수로 하는 총 6개이다.
심각도 가중치가 반영된 , , , 지표를 종속변수로 하는 SPF 개발 단계에서 Dispersion parameter는 모두 0.0001보다 작아 과소산포를 보이는 것으로 확인되었다. 따라서 이를 근거로 Com-poisson 모형을 개발하였다. 각 모형 개발시 변수선택은 후진소거법(backward elimination)을 통해 진행되었다. 변수는 90% 신뢰수준(P-value<0.1)을 만족하는 변수만 선택되었다. 통계기반의 최종 SPF 개발 결과는 표에 정리하여 제시하였다(Tables 4, 5, 6).
Table 4.
Table 5.
Table 6.
3. 예측변수 비교
6개의 예측변수를 종속변수로 설정하여 SPF를 개발하였으며, 모형의 검증과 fitting 측면에서 비교를 수행하였다. 비교를 위해 MAE, RMSE, AIC(Akaike Information Criterion), Generalized R-square 지표를 도출하였다. XGB 모형은 MAE와 RMSE만 도출하여 예측변수 간의 비교를 수행하였다(Table 7).
Table 7.
비교결과, 전체 사고건수보다 KAB 사고건수에서 전체적으로 MAE, RMSE의 값이 낮은 것으로 나타나 예측력이 우수한 것으로 확인되었다. 구체적으로 모형 검증의 관점에서는 NB, Com-poisson 모형 결과에서는 의 MAE, RMSE 값이 가장 낮은 것으로 나타났고, XGB 회귀트리 모형 결과에서는 가 가장 낮은 것으로 나타났다. 모형 최적화 관점에서는 NB, Com-poisson, 그리고 XGB 회귀모형의 구분 없이 가 종속변수인 모형의 AIC 값이 가장 낮은 것으로 확인되었다. Generalized R-square의 관점에서는 XGB 기반의 가중치 적용변수가 가장 높은 것으로 설명력이 높은 것으로 확인되었다. 사고심각도 가중치를 적용했음에도 모형의 예측성능이나 설명력 측면에서 기존의 기본 사고건수 지표와 비교했을 때 오히려 성능이 개선되는 것으로 나타났다는 점은 활용성 측면에서 의미가 있다고 할 수 있다. XGB 회귀모형의 경우 사고건수 기준()으로는 MAE가 더 낮고, RMSE는 더 큰 것으로 비교되었다. 심각도 가중치가 적용된 변수(, )의 경우에서는 오히려 성능이 통계기반 모형보다 MAE, RMSE가 높게 나타나 예측성능 측면에서는 좋지 않은 것으로 식별되었다. 기존 연구에서도 머신러닝 모형의 경우 SPF 개발 단계에서 종속변수가 비선형성을 내포하고 있는 데이터가 아니라면 음이항 또는 포아송 회귀모형보다 성능이 우수하지 않은 경우가 있다고 확인된 바 있다(Park and Abdel-Aty, 2015; Shirani-Bidabadi et al., 2020). 따라서 비교결과를 근거로, 단순 예측성능만 고려할 것이 아니라 데이터의 분산과 모형과 선택변수의 설명력을 고려한 최적의 모형선택이 필요하다고 판단된다.
결론 및 토의
본 연구에서는 사고빈도분석과 심각도분석이 각각 갖고 있는 한계점을 보완할 수 있는 심각도 가중치 기반의 예측변수를 사용한 교차로 사고예측모형을 개발하였다. RF, XGB 기법을 활용하여 교차로 사고심각도 분석을 수행하여 심각도에 영향을 미치는 요인을 도출하였으며, 변수 중요도를 토대로 각 사고의 score를 산출하였다. 산출된 개별 사고의 score를 교차로 단위로 집계하여 기존의 단순 집계 사고건수에서 심각도 가중치가 반영된 신규 예측변수를 개발하였다. 여기서 심각도 가중치 예측변수를 활용한 SPF 개발에는 일반적으로 사용되는 NB 모형과 과소분산을 설명할 수 있는 Com-poisson 모형, 그리고 예측성능이 우수하다고 알려진 이 사용되었다. 분석은 서울과 부산지역에서 발생한 사고를 대상으로 하며, 사고심각도 분석을 위해 2017-2018년 2년간 서울 및 부산의 교차로에서 발생한 42,513건의 사고데이터가 수집되었다. 이어서 사고빈도 분석을 위해 같은 기간 동안 서울 및 부산에 위치한 81개의 교차로에서 발생한 1,990건의 사고데이터도 수집되었다.
먼저 교차로 사고심각도 분석결과, 82개의 독립변수 중에서 심각한 사고발생에 영향을 미치는 요인의 순서에 따라 RF와 XGB 각 모형별로 변수 중요도가 도출되었다. 두 모형의 변수 중요도 도출 결과에 따르면 피해차종-승용차, 피해자연령-56세 이상, 위반유형-신호위반 등의 지표가 RF, XGB 분류 모형에서 공통적인 심각한 사고에 기여하는 요인으로 식별되었다. 이러한 기여 요인의 변수 중요도 순서에 따라 개별사고 score가 계산되었으며, 분석대상 교차로 단위로 집계되었다. 기존 교차로 단위 집계 관측 사고건수()에 RF, XGB 가중치가 적용된 예측변수(, )를 종속변수로 하는 안전성능함수(SPF)가 개발되었다. 각 변수의 예측성능 검증 결과, RF 가중치가 적용된 의 MAE, RMSE가 가장 낮은 것으로 나타나 예측성능이 우수한 것으로 나타났다. 예측성능의 비교 목적이 기존 변수를 대체함과 동시에 새로운 사고심각도 insight를 제공하는 것이었는데, 기존 변수인 의 성능보다 오히려 우수한 것으로 나타났다. 또한 심각도 가중치 기반의 예측변수는 사고심각도 영향요인을 내포한 지표라는 점에서 더 많은 안전성 해석이 가능한 접근 방식이라고 볼 수 있다. 이는 향후 사고예측모형을 활용한 응용연구 및 실증 분석 시에 다양한 방향으로 활용이 가능한 것을 의미한다.
그러나 본 연구는 기존의 사고예측모형 또는 안전성능함수 개발 연구와 마찬가지로 교차로 표본 구성에 있어 데이터 수집에 어려움이 있었다. 연구 수행을 위해 통계적으로 유의하다고 볼 수 있는 필요 표본만을 분석 데이터셋으로 구성하여 방법론의 타당성을 입증하고자 하였으나, 향후에는 유사한 특성을 가진 교차로에 대한 추가적인 분류작업과 서울 및 부산 내의 더 많은 교차로 데이터가 추가된다면 실증적 관점에서 더욱 의미있는 연구가 될 것이다. 본 연구에서 제안한 예측지표를 활용한 사고예측모형 개발 연구내용은 미래 도로설계에 있어서 사고 빅데이터를 활용한 기존 도로 개선사항 도출, 개선 우선순위 선정, 그리고 안전 대응방안 설계에 유용하게 활용할 수 있을 것으로 기대된다.