Identification of Crash-Prone Road Segments Based on an Ensemble Machine Learning Strategy : Use of Driving Behavior Data

Jeonghoon Jee; Yeseo Gu; Young Jo; Cheol Oh

doi:10.7470/jkst.2023.41.6.739

Preview

Article

Journal of Korean Society of Transportation. 31 December 2023. 739-752
https://doi.org/10.7470/jkst.2023.41.6.739

Identification of Crash-Prone Road Segments Based on an Ensemble Machine Learning Strategy : Use of Driving Behavior Data

개별 차량 주행행태 자료를 이용한 앙상블 학습전략 기반 도로 위험 구간 식별 기법

Jeonghoon JEE¹

Yeseo GU²

Young JO³

Cheol OH⁴^*

지 정훈¹

구 예서²

조 영³

오 철⁴^*

¹Master’s Degree, Department of Transportation and Logistics Engineering, Hanyang University, Gyeonggi 15588, Korea

²Master’s Degree, Department of Transportation and Logistics Engineering, Hanyang University, Gyeonggi 15588, Korea

³Senior Researcher, Department of Road and Traffic Research, Korea Institute of Civil Engineering and Building Technology, Gyeonggi 10223, Korea

⁴Professor, Department of Transportation and Logistics Engineering, Hanyang University, Gyeonggi 15588, Korea

¹한양대학교 교통·물류공학과 석사과정

²한양대학교 교통 · 물류공학과 석사과정

³한국건설기술연구원 도로교통연구본부 수석연구원

⁴한양대학교 교통·물류공학과 교수

^{*Corresponding Author}

ABSTRACT

Various road safety evaluation studies have been conducted for traffic safety management. To date, traffic safety measures have been primarily focused on reactive safety management using macroscopically aggregated traffic data collected by infrastructure-based detection systems. However, the need for proactive safety management has been raised as individual vehicle driving behavior data is now readily available. Detection of crash prone road segments allows for realizing more proactive safety management to prevent traffic crashes. This study applied statistical techniques and machine learning models based on individual vehicle data capable of analyzing driving behavior. It also aims to implement a more accurate road hazard identification model using an ensemble learning strategy. Twenty-two driving safety indicators were derived to characterize vehicle driving behavior from inter-vehicular interaction, longitudinal, and lateral perspectives, based on the data collected from PVD, which provides individual vehicle driving behavior data.Ten of these indicators, which showed significant correlation with traffic accident data, were selected through statistical correlation analysis. The average number of accidents in the analysis section of traffic accident data was used to categorize road sections into hazardous and normal categories, serving as the target variable. The ten statistically significant driving safety indicators were used as explanatory variables. Classification models such as SVM, ANN, and KNN were performed. Ensemble learning, known for enhancing robustness compared to single models, was employed by combining these three models to derive the final model. The accuracy of the model by ensemble learning strategy was 90.8%, showing an improvement of up to 4.8% and at least 2.7% compared to single models. This indicates that ensemble learning strategies can enable more accurate implementation of road hazard identification models for proactive traffic safety management. The methodology of this study is expected to serve as foundational data for implementing models for real-time crash prone road segments identification in environments where real-time data collection and utilization are feasible.

Keywords

crash prone road segments detection model

driving safety indicator

machine learning

ensemble learner

proactive traffic safety management

교통안전 관리를 위한 다양한 도로 안전성 평가 연구가 진행되고 있다. 지금까지 교통사고 안전 대책은 인프라 기반 검지 체계에서 수집되는 거시적으로 집계된 교통 데이터를 활용한 사후 교통안전 관리가 주를 이루었다. 그러나 현재 개별 차량 주행행태 자료의 수집이 가능해짐에 따라 선제적 교통안전 관리의 필요성이 제기되고 있다. 사전에 도로 위험 구간 식별이 가능하다면 교통사고 예방을 위한 보다 능동적인 교통안전 관리가 가능하다. 본 연구는 주행행태 분석이 가능한 개별 차량 자료를 기반으로 통계적 기법과 머신러닝 모델을 통합적으로 적용하고, 앙상블 학습전략을 활용하여 보다 정확한 도로 위험 구간 식별 모델을 구현하고자 한다. 개별 차량 주행행태 자료인 PVD에서 수집되는 항목을 기반으로 차량의 주행행태를 차량간 상호작용, 종방향 및 횡방향 관점에서 특성화할 수 있는 22가지 주행 안전성 평가지표를 산출하였다. 이를 통계적 상관분석을 통해 교통사고 건수 자료와 유의미한 상관성을 가지는 10가지 주행 안전성 평가지표를 선정하였다. 교통사고 건수 자료의 분석 구간 내 평균 사고 건수를 기준으로 집계 단위별 위험 도로구간과 일반 도로구간으로 범주화하여 목표변수로 활용하였고, 상관분석 결과 통계적으로 유의미한 10가지 주행 안전성 평가지표를 설명변수로 활용하여 SVM, ANN, KNN의 분류 모델을 수행하였다. 앙상블 학습은 다중 모델 조합으로, 단일 모델 대비 견고성을 향상시킬 수 있다고 알려져 있다. 앞서 수행한 3가지 모델을 앙상블 학습하여 최종 모델을 도출하였다. 앙상블 학습전략에 의한 모델의 정확도는 90.8%로 단일 모델 대비 최대 4.8%, 최소 2.7% 향상된 결과가 나타났다. 이는 선제적 교통안전 관리를 위한 도로 위험 구간 식별 모델 구현 시 앙상블 학습전략은 보다 정확한 구현이 가능함을 의미한다. 본 연구의 방법론은 향후 실시간 데이터 수집 및 활용이 가능한 환경에서 실시간 도로 위험 구간 식별을 위한 모델 구현 시 기초 자료로 활용이 가능할 것으로 기대된다.

키워드

도로 위험 구간 식별 모델

주행 안전성 평가지표

머신러닝

앙상블 학습전략

선제적 교통안전 관리

MAIN

서론
기존 연구 고찰
1. 주행 안전성 평가지표에 관한 연구
2. 사고 위험 구간 및 사고 심각도 예측 모델에 관한 연구
3. 기존 연구와의 차별점
방법론
1. PVD
2. 고속도로 교통사고 자료
3. 주행 안전성 평가지표 산출
4. 상관분석
5. 머신러닝 분류 모델
6. 앙상블 학습기
분석 결과
1. 상관분석 결과
2. 머신러닝 및 앙상블 분류 모델 분석 결과
결론

서론

국내 교통사고 건수는 점차 감소하는 추세이지만, 2020년 기준 인구 10만 명당 교통사고 사망자 수는 6.0명으로 OECD 회원국 평균인 4.7명보다 약 1.3배 높은 수치이다(도로교통공단 보도자료, 2023). 고속도로에서 발생하는 교통사고는 특히 인명 피해와 경제적 손실을 초래하는 심각한 문제로 인식되고 있으며, 이에 따른 다양한 교통안전 관리 대책이 시행되고 있다. 기존의 교통사고 안전 대책은 주로 인프라 기반의 검지 시스템을 통해 수집된 거시적 교통 데이터를 활용한 사후 안전관리(Reactive Safety Management)가 주를 이루었다. 그러나 개별 차량 주행행태 자료의 수집이 가능해짐에 따라 선제적 안전관리(Proactive Safety Management)의 필요성이 강조되고 있다.

Cooperative-Intelligent Transport Systems(C-ITS)는 차량이 주행 중 운전자에게 주변 교통상황과 급정거, 낙하물 등의 사고 위험 정보를 실시간으로 제공하는 시스템을 의미한다. vehicle-to-vehicle(V2V), vehicle-to-infrastructure(V2I) 통신 기반 정보 공유를 통해 실시간 정보 수집 제공 및 위치기반 서비스 제공이 가능하다. C-ITS 단말기와 디지털 운행 기록계(digital tacho graph, DTG), 첨단 운전자 보조장치(advanced driver assistance system, ADAS)를 연계하여 DTG 데이터 및 ADAS 데이터가 포함된 원시 차량 데이터(probe vehicle data, PVD)를 수집하고 있다(Ko et al., 2021). PVD는 차량 위치, 속도, 가속도, Jerk 및 차간거리 등의 개별 차량 정보 수집이 가능하며, PVD의 개별 차량 정보를 바탕으로 차량의 주행행태를 특성화할 수 있는 안전성 관련 평가지표의 선정이 요구된다.

PVD와 같은 개별 차량 주행행태 자료에 포함된 정보를 활용하여, 차량의 주행행태를 특성화할 수 있는 다수의 평가지표가 보고되고 있다. 이러한 평가지표는 고도화 및 다양화를 이루어내고 있으며, 평가지표를 통해 정량적으로 산출된 값은 개별 차량의 사고개연성을 추정하는데 활용될 수 있다. 추정된 사고개연성을 도로 구간 단위로 집계한다면 도로 위험 구간 식별이 가능하다(Jang et al., 2020). 사고가 발생한 이후의 사후 안전관리가 아닌, 사전에 도로 위험 구간을 실시간으로 식별이 가능하다면 선제적 안전관리가 가능하다. 이를 위해 PVD와 같은 실시간으로 수집되는 개별 차량 주행행태 자료를 기반으로 다양한 평가지표를 산출하고, 통계적 기법과 머신러닝 모델을 활용하여 사전에 도로 위험 구간을 식별할 수 있는 기법에 대한 다수의 연구가 진행되고 있다.

본 연구의 목적은 선제적 안전관리를 위해 사전에 도로 위험 구간을 식별할 수 있는 보다 정확한 기법을 제시하고자 하는 것이다. 이를 위해 통계적 기법과 머신러닝 모델을 종합적으로 활용하는 방안과, 도로 위험 구간 식별 모델 구현 시 앙상블 학습전략을 통해 모델의 정확도 및 견고성 향상이 가능함을 제시한다.

본 연구의 구성은 다음과 같다. 2장에서는 개별 차량 주행행태 자료를 기반으로 산출할 수 있는 평가지표와, 사고 위험 구간 식별 및 사고 심각도 추정 모델 개발에 관한 기존 연구를 확인하고 본 연구의 차별성을 제시하였다. 3장에서는 데이터의 설명과 전처리 과정, 통계적 기법과 머신러닝 모델을 통한 도로 위험 구간 식별 모델 기법 방법론을 제시하였다. 4장에서는 앙상블 학습 모델을 평가하고, 단일의 모델과 비교하였다. 마지막 장에서는 연구 결과를 요약하고, 연구의 활용방안 및 향후 연구 방향에 대해 서술하였다.

기존 연구 고찰

본 연구는 선제적 안전관리를 위해 사전에 도로 위험 구간을 식별할 수 있는 보다 정확한 기법을 구현하고자 한다. 이를 위해 개별 차량 주행행태 자료로 산출할 수 있는 다양한 평가지표를 조사하고, 사고 위험 구간 및 사고 심각도 예측을 위해 연구를 검토하였다.

1. 주행 안전성 평가지표에 관한 연구

C-ITS 환경에서의 PVD의 주요 이점은 DTG 데이터와 전방 충돌 경고 시스템을 통해 선행 차량과의 차간거리 및 충돌 예상 시간을 포함하는 ADAS 데이터 수집이 가능하다는 점이다(Jo et al., 2022). PVD와 같은 개별 차량 주행행태 자료를 통해 산출할 수 있는 다양한 평가지표들이 존재하며, 평가지표는 고도화 및 다양화를 이루었다(Njobelo et al., 2018; Sakhare et al., 2021). 평가지표는 크게 주변 차량과의 상호작용에 의한 관점, 개별 차량의 종방향 및 횡방향 주행행태에 따른 관점으로 구분이 가능하다. 차량간 상호작용 관점에서는 기본적으로 spacing 및 headway를 포함하며, 그 외 다양한 교통안전 대체 평가지표 surrogate safety measure(SSM)이 개발되었다. 대표적인 SSM으로는 time-to-collision(TTC), stopping distance index(SDI), deceleration rate to avoid crash(DRAC) 등이 있다(Cooper and Ferguson, 1976; Oh et al., 2006; Hayward, 1971). TTC는 두 차량이 현재 주행상태와 같은 방향 및 속도로 주행할 경우, 충돌이 발생하기까지 남은 잔여 시간으로 1.5초 미만일 경우 심각한 상충이 발생한 것으로 판단한다(FHWA, 2003). SDI는 선·후행 차량 간 최소 정지거리에 따른 상충을 판단하는 지표로 선행 차량의 정지거리가 후행 차량의 정지거리 대비 짧은 경우 상충으로 판단한다(Oh et al., 2006). DRAC은 전방 위험 상황을 인지한 후행 차량이 감속을 시작할 때 충돌 회피 감속도이며, 3.35m/s²을 초과하는 경우 상충으로 판단한다(Archer, 2005). Cunto et al.(2008)은 차량의 DRAC이 최대 감속도를 초과할 확률로 crash potential index(CPI)를 정의하였다. C-ITS 환경에서 사고 개연성 추정을 위한 평가지표로 CPI가 활용된바 있다(Jang et al., 2020). 종방향 관점에서는 속도 표준편차, 가속도 표준편차, jerk 표준편차 및 peak-to-peak jerk가 있다(Bagdadi and Várhelyi, 2013). 횡방향 관점에서는 횡방향 가속도 표준편차, yaw 속도 표준편차가 있으며, 도로 위험 구간 식별 시 구간 집계가 수행되었다(Wang et al., 2015). Arvin et al.(2019)은 기존 연구들이 차량의 움직임을 종방향 관점만을 고려한다는 한계를 극복하고자 종방향과 횡방향을 고려한 주행 변동성(driving volatility) 개념을 적용하였다. Mahdinia et al.(2021)은 시간에 따른 주행행태의 변동성을 반영하는 time-varying stochastic volatility(VF) 지표를 활용하여 평가지표의 정량적 산정이 가능하다고 제시하였다. VF 지표는 평가지표들의 변동성이 일정하지 않고 시간에 따라 변함을 고려한 개념이다. 이는 표준편차와 개념적으로 유사해 보일 수 있지만 중요한 차이점이 존재한다. 표준편차는 특정 지표의 평균값으로부터 편차 나타낸 정적인 측정치인 반면, VF는 시점에 따라 특정 지표의 상대적 변화량을 산출한 후 평균 상대적 변화량 값으로부터의 편차를 산출한다. 이는 VF가 시간에 따른 변화를 표준편차 대비 세밀하게 반영할 수 있음 의미한다.

2. 사고 위험 구간 및 사고 심각도 예측 모델에 관한 연구

인프라 기반 검지 체계를 통해 수집된 거시적 교통 데이터를 활용한 사후 안전관리뿐만 아니라, 실시간 데이터 수집이 가능해짐에 따라 선제적 안전 관리는 교통 안전성 확보를 위해 중요한 요소로 인식되고 있다. 선제적 안전관리를 위해 사고 위험 구간 및 사고 심각도 예측을 위해 다양한 연구가 수행되었다. Augustine and Shukla(2022)은 로지스틱 회귀모형, RF(Random Forest), DT(Decision Tree), KNN 및 XGBoost의 분류 기법을 진행하고, 정확도 기반으로 최종 사고 발생 예측 모델을 RF로 도출하였다. AlMamlook et al.(2019)은 데이터 불균형을 극복하기 위해 오버샘플링 기법을 적용하였으며 AdaBoost, 로지스틱 회귀모형 및 RF의 분류 기법을 사용하여 사고 심각도 분류 모델을 수행하였다. Boo and Choi(2022)은 RF, Extra-Trees 및 XGBoost의 분류 기법을 통해 교통사고 사망률 예측 모델을 진행하였고, 데이터 불균형을 극복하기 위해 오버샘플링 및 언더샘플링 기법을 적용하였다. 분석 결과 오버샘플링 기법을 적용한 모델의 정확도가 더 우수한 것으로 도출되었고, 정확도를 기반으로 XGBoost을 최종 모델로 제시하였다. Xiao et al.(2019)은 루프 검지기를 통해 도출된 30초 간격의 속도, 교통량, 점유율 데이터를 통해 SVM 및 KNN 모델을 앙상블 학습을 수행하고 교통사고 위험 구간 감지 모델의 견고성을 개선하였다. Ara(2021)는 날씨, 시간, 위치, 도로 상태, 거리 및 AADT를 설명변수로 활용하여 RF, XGBoost 및 GBM(Gradient Boosting Machines)의 머신러닝 분류 모델을 진행하였다. 이후 3가지 모델을 결합하여 앙상블 학습하였다. 앙상블 학습모델의 정확도는 단일 분류 모델 성능 대비 정확도가 최대 3.2% 증가하였다.

3. 기존 연구와의 차별점

본 연구는 기존 연구와 세 가지 주요한 차별점을 가진다. 첫째, 기존 연구에서는 주로 단일 평가지표에 의존하여 사고 개연성을 추정하였으나, 본 연구에서는 차량간 상호작용, 종방향 및 횡방향 관점의 22가지 안전성 평가지표를 선정하고 활용하였다. 둘째, 효율적인 모델을 구현과 분류 성능 향상을 위해 상관분석을 통해 통계적으로 유의미한 평가지표를 선정하고 분석에 활용하였다. 셋째, 머신러닝 모델은 개별적인 알고리즘 차이가 존재하며 다수의 모델을 융합하는 앙상블 학습전략은 이러한 특성을 고려되어야 한다. 대부분의 기존 연구에서는 정확도 결과를 기반으로 단일의 머신러닝 모델을 최종 모델로 선정하였으나, 다수의 머신러닝 모델을 종합적으로 판단할 수 있는 앙상블 학습전략을 통해 도로 위험 구간 식별 모델을 구현하였다. 이를 위해 모델의 알고리즘적 특성을 고려하여 SVM, ANN, KNN의 머신러닝 모델을 선정하고 앙상블 학습전략을 통해 보다 정확하고, 견고한 식별 모델을 구현하였다. 따라서 본 연구에서는 C-ITS 환경에서 수집된 PVD를 통해 다양한 관점별 안전성 평가지표를 조사하고, 기존의 위험 구간 식별 모델 연구를 배경으로 통계적 기법과 머신러닝 모델 및 앙상블 학습전략을 종합적으로 활용하여 보다 견고한 기법을 도출함으로써 선제적 안전관리에 기여될 수 있는 새로운 방법론을 제시한다.

방법론

본 연구에서는 선제적 안전관리를 위한 도로 위험 구간 식별 모델을 앙상블 학습전략을 통해 구현함으로써 효과성을 입증하는 것이다. 이를 위해 단일의 머신러닝 모델과 앙상블 학습모델의 성능 결과를 비교하여 최종적으로 앙상블 학습전략이 효과적임을 입증하였다. 본 연구의 연구 수행 절차를 Figure 1에 제시하였다. Step 1은 데이터 처리‧가공 및 평가지표 산출 단계이다. C-ITS 환경에서 수집된 PVD를 데이터 오류코드 제거, 고속도로 이정 부여 과정 등의 전처리 과정을 포함한다. 그 다음 PVD를 기반으로 기존 연구 검토를 통해 확인한 22가지 주행 안전성 평가지표를 산출하고, 동일한 공간적 범위의 교통사고 자료를 수집하여 1km 단위로 집계하였다. Step 2는 최종 데이터 셋 구축 단계이다. 평균 사고 건수를 기준으로 0,1으로 범주화하고, 이때 발생된 데이터 불균형 문제를 오버샘플링 기법을 통해 극복하였다. 또한 머신러닝을 수행하기 전 Scaling을 통해 데이터를 정규화하였다. Step 3는 도로 위험 구간 식별 모델을 구현한 단계이다. SVM(Support Vector Machine), ANN(Artificial Neural Network), KNN(K-Nearest Neighbors)의 머신러닝 모델을 진행하고, 3가지 모델을 Voting 방식 통해 앙상블 학습(Ensemble Learner)하였다. 이후 단일 모델과 앙상블 학습 모델 간의 성능 비교를 수행하였다.

https://cdn.apub.kr/journalsite/sites/kst/2023-041-06/N0210410607/images/kst_2023_416_739_F1.jpg

Figure 1.

Overall research framework

1. PVD

본 연구에 사용된 데이터는 국내 C-ITS 실증사업 구간에서 수집된 주행 행태자료와 ADAS(Advanced Driver Assistance Systems)를 포함하는 PVD이다. ADAS를 통해 전방 차량과의 차간거리, 충돌 예상 시간에 대한 정보를 수집할 수 있다. 원시 데이터는 날짜, 시간, 위‧경도(deg), 주행속도(km/h), 주행가속도(m/s2), yaw 속도(deg/s) 등을 1초 단위로 포함하고 있다. 데이터의 공간적 범위는 ‘경부선 양재IC부터 기흥동탄IC’ 와 ‘수도권제1순환선 조남JC부터 상일IC’까지 총 70km로 설정하였으며, Figure 2에 제시하였다. 데이터의 시간적 범위는 2020년 10월 중 28일로, 2일간의 데이터는 분석에 활용할 수 없어 제외하였다. 총 1237만 4222개의 데이터 샘플이 수집되었다.

https://cdn.apub.kr/journalsite/sites/kst/2023-041-06/N0210410607/images/kst_2023_416_739_F2.jpg

Figure 2.

Analysis sites

PVD 처리‧가공은 총 3단계로 진행하였다. 첫 번째 단계에서는 PVD 원시 자료에서 수집된 데이터 항목 중 spacing과 TTC 값이 수집될 수 없는 특정 값으로 측정된 데이터는 이상치로 간주하여 해당 값을 제거하였다. 두 번째 단계에서는 원시 자료의 수집 항목 중 속도, spacing 및 자이로스코프 데이터 값을 기반으로 종방향 ‧ 횡방향 가속도, jerk 및 headway 값을 산출하였다. 세 번째 단계에서는 데이터의 공간적 집계를 위해 원시 자료의 수집 항목 중 위‧경도 정보를 바탕으로 고속도로 이정 0.1km 단위값을 부여하였다. 이를 통해 기존 연구 고찰로 확인한 22가지 주행 안전성 평가지표를 산출하고 이정 1km 단위로 집계하였다.

2. 고속도로 교통사고 자료

PVD와 동일한 공간적 범위에 발생한 고속도로 본선 내 교통사고 건수 자료를 수집하였다. 시간적 범위는 2017년 6월부터 2022년 5월 동안이다. 교통사고 건수 자료의 샘플 수 문제를 극복하기 위해 분석에 활용한 PVD의 해당 연도에 앞‧뒤 2년을 확장하여 총 5년으로 설정하였다. 교통사고 건수는 양재IC부터 기흥동탄IC까지의 구간에서는 308건, 조남JC부터 상일IC까지의 구간에서는 565건으로 총 873건의 자료가 수집되었다. 이를 22가지 주행 안전성 평가지표와의 상관관계 분석 수행을 위해 이정 1km 단위로 집계하였다. 본 연구에서는 예측 모델이 아닌 분류 모델을 진행하고자 하며, 이항 분류(Binary Classification)를 수행하기 위해 사고 위험 구간을 분류하였다. 사고 위험 구간 분류를 수행하기 위한 다양한 기준이 존재한다. 다양한 기준 가운데 평균 사고 건수를 기준으로 범주화를 수행하였다(Cho et al., 2023; Kim et al., 2023; Jo et al., 2021). 이정 1km 단위 별 평균 사고 건수는 12.4건으로 평균 사고 건수 대비 높은 구간을 위험 도로구간(Risk Section), 평균 사고 건수 대비 낮은 구간을 일반 도로구간(Normal Section)으로 정의하였다. 교통사고는 Rare하고 Random한 이벤트이기 때문에 위험 도로구간과 일반 도로구간의 샘플 수 차이가 발생하였다. 이러한 클래스별 데이터 샘플 수 차이를 데이터 불균형이라고 표현하였다. 데이터 불균형은 분류 모델을 수행함에 다수의 클래스로 편향되게 학습되는 원인이 될 수 있고, 소수의 클래스에 대한 예측을 수행할 시 오류를 증가시킬 수 있다. 데이터의 불균형을 극복하기 위해 오버샘플링을 활용하여 소수 클래스의 샘플 수를 증가시킴으로써 보다 편향되지 않은 모델을 구현하고자 하였다.

3. 주행 안전성 평가지표 산출

기존 연구 고찰을 통해 개별 차량의 주행행태를 정량적으로 확인할 수 있는 차량 간 상호작용, 종방향 및 횡방향의 3가지 관점에서 22가지 평가지표를 선정하였다. 차량 간 상호작용 관점의 평가지표는 연속류 상황의 선‧후차량 간 후미추돌 사고 개연성을 계량화하는 지표를 선정하였다. 차량 간 상호작용 관점의 평가지표는 spacing과 headway의 평균과 표준편차, TTC, SDI의 상충건수, DRAC의 평균과 상충건수, CPI, VF(time-varying stochastic volatility) spacing, headway로 총 11가지 평가지표를 선정하였다. 이때 spacing, headway의 평균은 산출 값이 증가할수록 안전성이 증대됨으로 해석되며 spacing, headway의 표준편차나 VF 기반 spacing, headway는 산출 값이 증가할수록 안전성이 저하되는 것으로 해석된다. 종방향 관점의 평가지표는 속도 표준편차, 가속도 표준편차, jerk 표준편차, peak to peak jerk 및 VF 기반 속도, 가속도, Jerk로 총 7가지 평가지표를 선정하였다. 종방향 관점 평가지표는 산출 값이 증가할수록 안전성이 저하되는 것으로 해석할 수 있다(Ko et al., 2022). 횡방향 관점의 평가지표는 횡방향 가속도 표준편차, yaw 속도의 표준편차 및 VF 기반 횡방향 가속도, yaw 속도로 총 4가지 평가지표를 선정하였다. 횡방향 관점의 평가지표는 산출 값이 증가할수록 안전성이 저하되는 것으로 해석되며, 불규칙한 주행행태가 지속될수록 측면추돌 사고 개연성이 증가하는 것으로 해석할 수 있다(Arvin et al., 2019). 활용한 주행 안전성 평가지표별 수식을 Table 1에 제시하고, 지표별 기술통계 결과를 Table 2에 제시하였다.

Table 1.

A set of list of driving safety indicators

No.	Variable names	Indicator description		Equation
1	Speed (SD)	Standard deviation	Speed	$\sqrt{\frac{\sum_{t = 1}^{T} (x_{t} - x)^{2}}{T}}$ $x$ = measurement, $t$ = time step, $T$ = total time step
2	Acc (SD)		Acc
3	Jerk (SD)		Jerk
4	Lacc (SD)		Lateral acceleration
5	Yaw (SD)		Yaw speed
6	Spc (SD)		Spacing
7	Hdwy (SD)		Headway
8	P2Pjerk	Peak to peak jerk		$M a x (j e r k) - M i n (j e r k)$
9	Spc (AV)	Average	Spacing	$\frac{1}{T} \sum_{t = 1}^{T} x_{t}$
10	Hdwy (AV)	Average	headway	$\frac{1}{T} \sum_{t = 1}^{T} x_{t}$
11	TTC (NC)	Number of conflicts by TTC		$\frac{s_{t}}{V_{F V, t} - V_{L V, t}}$ $I f T T C < 1.5 s, t h e n c o n f l i c t$
12	SDI (NC)	Number of conflicts by SDI		$d - L S U B t L S U P L V d L S U B t L S U P F V I f S D I < 0, t h e n c o n f l i c t$
13	DRAC (AV)	Average of DRAC		$\frac{(V - L S U B t L S U P F V V) L S U B t L S U P {L V}^{2}}{2 S_{t}} I f D R A C \geq 3.35 m / s^{2}, t h e n c o n f l i c t$
14	DRAC (NC)	Number of conflicts by DRAC
15	Speed (VF)	Time-varying stochastic volatility	Speed	$\sqrt{\frac{1}{T - 1} \sum_{t = 1}^{T} (r_{t} - r)^{2}}$ $r_{t} = \ln (\frac{x_{t}}{x_{t} - 1}) \times 100 %$ $x$ = measurement, $t$ = time step, $T$ = total time step
16	Acc (VF)		Acc
17	Jerk (VF)		Jerk
18	Lacc (VF)		Lateral acceleration
19	Yaw (VF)		Yaw speed
20	Spc (VF)		Spacing
21	Hdwy (VF)		Headway
22	CPI	Crash potential index		$\frac{1}{T} \sum_{t = 1}^{T} \Pr (M A D R \leq D R A C_{t})$

Table 2.

Descriptive statistics

	Speed(SD)	Acc(SD)	Jerk(SD)	Lacc(SD)	Yaw(SD)	Spc(SD)	Hdwy(SD)	P2Pjerk	Spc(AV)	Hdwy(AV)	TTC(NC)
Mean	6.125	0.303	0.429	2.091	3.758	14.091	0.727	1.402	52.274	2.749	1520.900
Standard deviation	2.857	0.055	0.063	3.102	0.864	3.363	0.206	0.290	9.348	0.294	1203.147
Minimum	0.669	0.146	0.243	0.000	1.145	3.635	0.195	0.536	31.465	0.086	0.000
Maximum	17.498	0.584	0.883	44.356	15.690	47.982	2.190	3.346	89.445	2.006	8403

	SDI(NC)	DRAC(AV)	DRAC(NC)	Speed(VF)	Acc(VF)	Jerk(VF)	Lacc(VF)	Yaw(VF)	Spc(VF)	Hdwy(VF)	CPI
Mean	1794.300	5.954	3430.298	2.140	34.769	663.185	72.316	56.961	11.798	11.906	0.150
Standard deviation	1419.469	1.908	2692.21	0.999	8.332	166.470	22.293	14.206	2.684	2.605	0.019
Minimum	24	0.988	44	0.570	4.586	89.834	32.208	15.103	2.618	2.973	0.043
Maximum	9483	14.842	14446	7.277	61.679	1361.294	169.968	115.600	21.559	21.211	0.222

4. 상관분석

기존 연구 고찰을 통해 활용한 차량간 상호작용, 종방향 및 횡방향 관점의 22가지 주행 안전성 평가지표를 도출하였다. 이 중 통계적으로 유의미한 평가지표를 선별하기 위해 상관분석을 수행하였다. 상관분석은 두 변수 간의 관련성 또는 상호 의존성을 평가하는 통계적 분석 방법으로, 분석 결과를 통해 두 변수 간의 선형적 관계를 확인할 수 있다. 이때 상관계수 값은 –1부터 1까지의 범위를 가지며 1에 가까울수록 강한 양의 상관관계를 의미하고, -1에 가까울수록 강한 음의 상관관계를 나타낸다. 0에 가깝다면 상관관계가 약함을 의미한다. 상관관계 분석을 수행하기 전 정규성을 따르는지 검증하기 위해 Shapiro-Wilk 검정 혹은 Kolmogorov-Smirnov 검정을 수행하여야 한다. 이후 정규성 검정 결과에 따라 모수적 방법과 비모수적 방법으로 상관분석을 수행할 수 있다. 본 연구에서는 사고 건수 자료와 22가지 주행 안전성 평가지표 간의 모수적 방법으로 Pearson 상관분석을, 비모수적 방법으로 Spearman 상관분석을 수행하여 통계적으로 유의미한 주행 안전성 평가지표를 도출하고자 한다.

5. 머신러닝 분류 모델

상관분석을 통해 도출된 통계적으로 유의미한 10가지 주행 안전성 평가지표를 머신러닝 모델의 설명변수로 설정하였다. 교통사고 자료에서 평균 사고 건수를 기준으로 위험 구간과 일반 구간의 분류하고, 이를 목표변수로 설정하여 머신러닝 분류 모델을 진행하였다. 모델 간 알고리즘적 차이를 고려하여 SVM(Support Vector Machine), ANN(Artificial Neural Network), KNN(K-Nearest Neighbors) 모델을 진행하였다.

SVM은 데이터 포인트를 고차원 공간으로 매핑하여 선형 또는 비선형 결정 경계를 찾는 강력한 분류 기법이다(Cherkassky and Ma, 2004). 최대 마진을 활용하여 데이터의 결정 경계를 찾는 것을 중점으로 하며, 이를 통해 일반화 능력을 항상시키고 과적합을 방지한다(Yuan et al., 2010). SVM은 데이터 분포에 덜 민감하여 이상치를 가지는 데이터에 대한 신뢰할 수 있는 분류 결과를 도출할 수 있다. SVM은 커널 함수에 따라 서로 다른 초평면을 결정하게 되며, 데이터의 경계를 조절하는 파라미터에 따라 모델 성능이 달라진다. 본 연구에서는 SVM의 하이퍼 파라미터로 kernel, gamma, C를 활용하였다. kernel은 비선형 SVM에 kernel의 종류를 의미하며 rbf, linear, poly, sigmoid가 있다. gamma는 kernel 최적화를 돕는 파라미터로 하나의 데이터가 동일한 클래스로 분류되게 하려는 영향력의 거리를 의미한다. 즉 결정 경계의 곡률 조정값을 의미한다. C는 이상치가 포함된 경우 완벽한 분리가 불가능하기 때문에 일정 수준의 오류를 허용하는 비용을 의미한다.

ANN은 생물학적 신경망 네트워크를 기계학습과 인지과학을 통해 수학적으로 표현한 모델을 의미한다. 입력층, 은닉층, 출력층으로 구성된 계층적 구조로 이루어져 있으며, 신경 세포인 뉴런을 모방한 노드와 가중치를 통해 정보를 처리한다(Drew and Monson, 2000). ANN은 다양한 학습 알고리즘과 활성화 함수를 활용하여 데이터의 비선형 관계를 모델링한다. 본 연구에서는 ANN의 하이퍼 파라미터로 Min Batch size, Solver, Activation Function, Hidden Layer size를 활용하였다. Min Batch size는 전체 학습데이터를 배치 크기로 등분하여 각각의 배치 데이터별 순차적으로 학습하는 방법이다. Solver는 신경망 모델의 학습 결과에 따른 손실함수를 값을 최소화하는 하이퍼 파라미터 탐색 및 최적화 파라미터이다. Solver의 종류는 L-BFGS, SGD, Adam을 고려하였다. Activation Function은 입력층 또는 이전의 은닉층의 정보(가중합)을 다음 층으로의 출력값을 결정하는 함수이다. 퍼셉트론에서는 계단 함수를 사용하며 신경망에서는 다양한 함수 사용이 가능한데 sigmoid(logistic), tanh, relu 함수를 사용하였다. Hidden Layer size는 은닉층 개수와 층별 노드 개수를 의미한다.

KNN는 비모수적인 기계 학습 알고리즘으로, 새로운 사건이 발생했을 때 가장 근접한 k-이웃 값을 평균하여 예측하거나 빈도가 많은 클래스로 분류하는 탐색적 기법이다. 이는 수학적 모델이 아닌 지정하는 k에 따라 근접 이웃을 결정하고 결과를 산출함을 의미한다(Zhang et al., 2017). 간단한 개념과 직관적인 작동 방식으로 해석이 쉬운 장점이 있다. 그러나 데이터의 차원이 높아질수록 계산 비용이 증가하고, 이상치에 민감할 수 있으므로 데이터의 특성과 활용 목적에 맞게 조정이 필요하다는 단점이 있다. 본 연구에서는 KNN의 하이퍼 파리미터로 N-Neighbors, Weights, Metric을 활용하였다. N-Neighbors는 알고리즘에서 고려해야 할 이웃의 개수를 의미한다. Weights는 예측에서 사용되는 가중 함수를 의미하며 Uniform, Distance 함수를 고려하였다. Metric은 거리를 측정하는 방법을 의미하며 Minkowski, Euclidean, Manhattan 함수를 고려하였다.

6. 앙상블 학습기

앙상블의 기본적인 개념은 서로 다른 여러 개의 분류기들의 출력을 통합하여 최종 분류하는 일종의 다중 분류기 시스템(MCS; Multiple Classifier System)이라고 볼 수 있다(Dietterich, 1997; Opits and Maclin, 1999). 주어진 데이터 셋을 이용하여 여러 개의 예측 모델을 만들고 조합하여 최적의 모델을 구축하는 기법으로, 약한 학습기(weak learners)를 결합하여 하나의 강력한 학습기(strong learner)를 도출한다. 일반적으로 베이스 모델(base model)의 출력을 결합하는데 투표하여 최종 결과를 도출한다. 패턴 인식 분야에 있어서 앙상블은 하나의 분류기만 사용했을 때보다 우수한 성능을 보인다고 보고되었다(Kuncheva, 2004). Hansen and Salamon(1990)은 두 집단을 분류하는 n개의 분류기들의 에러가 0.5 이하이고, 독립적이라고 가정할 경우, 분류기의 수에 따라 기대되는 앙상블 모델의 에러는 줄어든다고 서술하였다.

분석 결과

1. 상관분석 결과

산출된 22가지 주행 안전성 평가지표와 사고 건수와의 통계적 유의성을 확인하고자 상관분석을 수행하였다. 상관분석 수행 시 이정 1km 단위로 집계된 데이터셋을 활용하였다. 데이터의 샘플 수는 총 70개로 구성하였다. 상관분석을 진행하기 전 산출된 주행 안전성 평가지표가 정규성을 따르는지 확인하기 위해 Kolmogorov-Smirnov(K-S) 분석을 수행하였다. K-S 분석 결과는 Table 3에 제시하였다. K-S 결과에 따라 정규성을 따르는 경우 Pearson 상관관계 분석, 따르지 않는 경우 Spearman 상관관계 분석을 수행하였다. 상관분석 시 신뢰수준 90% (p<0.1)을 고려하였다. 상관분석을 진행한 결과 10가지 통계적으로 유의미한 주행 안전성 평가지표를 확인하였다. 확인된 주행 안전성 평가지표는 Table 4에 제시하였다.

Table 3.

Result of Kolmogorov-Smirnov (K-S) test

One-sample Kolmogorov-Smirnov test (N=70)

NC_DRAC

NC_SDI

NC_TTC

CPI

VF_speed

VF_acc

VF_jerk

VF_yaw

VF_lacc

VF_spc

VF_hdwy

Kolmogorov-Smirnov

0.10

0.12

0.11

0.09

0.17

0.12

0.09

0.11

0.10

Asymp. Sig. (2-tailed)

0.085a

0.011a

0.044a

0.200a,b

0.000a

0.011a

0.200a,b

0.030a

0.180a

0.083a

SD_speed

SD_acc

SD_jerk

P2Pjerk

SD_lacc

SD_yaw

AV_spc

SD_spc

AV_hdwy

SD_hdwy

AV_DRAC

Kolmogorov-Smirnov

0.099

0.123

0.107

0.087

0.171

0.123

0.09

0.087

0.112

0.096

0.099

Asymp. Sig. (2-tailed)

0.006a

0.002a

0.000a

0.014a

0.000a

0.200a,b

0.056a

0.003a

0.012a

a. Lilliefors Significance Correction.

b. This is a lower bound of the true significance.

Table 4.

Correlation between driving safety indicators and number of crashes

Correlations
		VF_hdwy	VF_spc	AV_spc	VF_speed	VF_jerk	SD_acc	SD_yaw	VF_acc	SD_speed	NC_SDI
Number of crashes	Correlation	0.488*	0.485*	-0.410*	0.389**	0.329*	0.275**	0.271*	0.270*	0.249**	0.205**
	Sig. (2-tailed)	0.000	0.000	0.000	0.001	0.005	0.021	0.023	0.024	0.038	0.088
	N	70	70	70	70	70	70	70	70	70	70

*Pearson correlation is significant at the 0.1 level (2-tailed).

**Spearman correlation is significant at the 0.1 level (2-tailed).

2. 머신러닝 및 앙상블 분류 모델 분석 결과

상관분석 결과 도출된 10개의 통계적으로 유의미한 주행 안전성 평가지표를 설명변수로 설정하고, 평균 사고 건수를 기준으로 위험 도로구간과 일반 도로구간으로 범주화하여 목표변수로 설정한 후 분석을 진행하였다. 데이터 셋은 원시 상태에서는 1,960건(0 : 1,288건 / 1: 672건)으로 구성되었으며, 이후 오버샘플링 기법을 통해 데이터를 증강시켜 최종적으로 2,571건(0 : 1,288건 / 1: 1,283건)으로 구성하였다. 이때 오버샘플링은 ADASYN(Adaptive Synthetic Sampling Approach)을 사용하였다. ADASYN은 기존 오버샘플링 기법들의 데이터 편향을 줄이고 소수의 집단에 대한 합성 데이터 샘플을 적응적으로 생성하도록 고안된 방법이다(He et al., 2008). 그리고 모든 변수가 연속형 변수임으로 동일한 방식으로 정규화를 진행하였다. 정규화는 Python 라이브러리인 sklearn에서 제공하는 StandardScaler를 활용하여 평균을 0, 분산을 1로 조정하였다. Train set과 Test set은 7대 3 비율로 구분하였으며, 최종 Train set은 1,799건, Test set 722건으로 구성하였다. 머신러닝 분류 모델은 SVM, ANN, KNN을 사용하여 분석을 진행하였다. 각 분류 모델에 최적의 하이퍼 파라미터 값은 Table 5에 제시하였다. 분류 모델 분석 결과 정확도(Accuracy) 기준 SVM은 88.1%, ANN은 87.7%, KNN은 86.0%로 확인되었다.

앙상블 학습은 Python 라이브러리인 sklearn에서 제공되는 Voting Classifier을 활용하여 Hard Voting 방식을 사용하였다. Hard Voting 방식은 개별 모델들의 독립적으로 학습한 결과를 바탕으로 투표를 통해 다수가 선택한 클래스의 값을 최종 예측 결과로 결정하는 앙상블 방식이다. Hard Voting 방식은 단순하고 직관적임으로 이해하기 쉽고 구현하기 간단하다는 장점이 있다. 앙상블 학습 모델의 정확도는 90.8%로 KNN 대비 4.8%, SVM 대비 2.7% 향상된 수치를 보였다. 그밖에도 F1-Score와 특이도, 재현율 및 정밀도의 모델 평가 결과 단일 모델 대비 향상된 수치를 보였다. 3가지 모델 및 앙상블 모델의 모델 평가 결과를 Table 6에 제시하였다.

Table 5.

Optimal hyperparameter settings

Model	Hyperparameters settings
SVM	Kernel		Gamma		C
	“rbf”		1		10
ANN	Min Batch size	Solver		Activation Function		Hidden Layer size
	112	“Adam”		“relu”,		(140,140)
KNN	N-Neighbors		Weights		Metric
	4		Uniform		“Manhattan”

Table 6.

Evaluation results of the classification model

Model	Confusion Matrix			Accuracy (%)	F1-Score (%)	Specificity (%)	Recall (%)	Precision (%)
SVM		Predict (1)	Predict (0)	88.1	88.1	87.9	87.9	88.3
	Actual (1)	340	47
	Actual (0)	45	340
ANN		Predict (1)	Predict (0)	87.7	87.5	86.6	86.3	88.8
	Actual (1)	334	53
	Actual (0)	42	343
KNN		Predict (1)	Predict (0)	86.0	86.5	88.4	89.1	83.9
	Actual (1)	344	42
	Actual (0)	66	319
Ensemble		Predict (1)	Predict (0)	90.8	90.7	89.6	89.4	92.0
	Actual (1)	346	41
	Actual (0)	30	355

분석 결과를 통해 개별 차량 주행행태 자료를 기반으로 도로 위험 구간을 식별하는 모델 구현 시 단일의 모델 대비 앙상블 학습전략을 활용할 경우 보다 정확한 모델 구현이 가능함을 확인하였다.

결론

지금까지 교통사고 안전 대책은 인프라 기반의 검지체계에서 수집되는 거시적으로 집계된 교통 데이터를 활용한 사후 안전관리가 주를 이루었다. 그러나 현재 실시간 차량 주행궤적자료의 수집이 가능해짐에 따라 선제적 안전관리(Proactive Safety Management)의 필요성이 제기되고 있다. 사전에 도로 위험 구간 식별이 가능하다면 선제적 안전관리가 가능하다. 본 연구에서는 개별 차량 주행행태 자료인 PVD를 기반으로 통계적 기법과 머신러닝 모델을 종합적으로 활용하는 방안과, 도로 위험 구간 식별 모델 구현 시 앙상블 학습전략을 통해 모델의 정확도 및 견고성 향상이 가능함을 제시하고자 한다. PVD를 통해 산출한 종방향, 횡방향 및 차량간 상호작용 관점에 22가지 평가지표를 산출하고, 사고 건수 데이터와 이정 1km 단위로 매칭하여 집계하였다. 그 후 통계적 기법인 상관관계 분석을 통해 10가지 유의미한 평가지표를 도출하였다. 사고 건수 데이터는 분석 구간 내 평균 사고 건수를 기반으로 위험 도로구간과 일반 도로구간을 범주화하였다. 이때 데이터의 불균형을 극복하기 위해 오버샘플링 기법을 활용하여 데이터를 증강시켰다. 또한 데이터를 정규화하기 위해 Scaling을 수행하였다. 도출된 10가지 주행 안전성 평가지표를 설명변수로, 위험 도로구간과 일반 도로구간을 목표변수로 활용하여 SVM, ANN, KNN 모델을 수행하였다. 이후 수행된 3가지 머신러닝 모델은 앙상블 학습전략에 적용되었다. 분석 결과 단일 모델의 정확도는 SVM은 88.1%, ANN은 87.7%, KNN은 86.0%으로 확인하였다. 앙상블 모델의 정확도는 90.8%로, 개별 분류기 모델보다 최대 4.8%, 최소 2.7% 높은 수치이다. 이를 통해 선제적 안전관리를 위한 도로 위험 구간 식별 모델 구현 시 단일의 모델이 아닌 앙상블 학습전략을 활용할 경우 가장 정확한 모델 구현이 가능함을 확인할 수 있다. 따라서 앙상블 학습은 단일 모델의 한계점을 극복할 수 있으며, 최종 모델의 정확성을 개선할 수 있는 전략이다.

본 연구를 통해 다음과 같은 활용방안 도출이 가능하다. 첫째, 제시한 방법론을 통해 선제적 교통 안전관리를 위해 보다 정확한 도로 위험 구간 식별이 가능하다. 모델이 도로 위험 구간을 더욱 정확하게 식별함으로써, 교통사고를 예방하고 적절한 시점에 예방 조치가 가능하게 한다. 둘째, 정확한 위험 구간 식별은 정부 및 지방 자치단체의 제한된 자원을 보다 효율적으로 배분하는데 도움이 된다. 예를 들어, 실시간 데이터 기반 지속적으로 위험하게 도출되는 구간은 도로 개선 작업을 위한 우선순위가 될 수 있다. 이를 바탕으로 위험 도로 구간 개선을 위한 사업에 근거로 활용될 수 있다. 셋째, 지속적으로 위험하게 도출되는 구간의 결과를 공개함으로써 운전자들에게 위험 구간에 대한 인식을 높이고, 안전 운전에 대한 교육을 강화할 수 있다.

본 연구의 신뢰성을 높이기 위해서는 다음과 같은 추가적인 연구가 필요하다. 첫째, 추가적인 PVD 수집이 필요하다. 2020년 10월 한달 동안의 수집된 데이터를 활용하였기 때문에 상관분석 및 머신러닝을 수행하기에 샘플 수 확보에 한계가 있었다. 또한 PVD와 사고 건수 데이터 간의 시간적 범위가 동일하지 않았으며, PVD 데이터는 10월 한달 만을 수집하여 시간적 및 계절적 특성을 충분히 반영되지 않았다. 보다 많은 양의 샘플을 본 연구에서 개발한 방법론에 적용할 경우 연구의 신뢰도를 높일 수 있으며, 도로 위험 구간 뿐만 아니라 시간적 및 계절적 특성에 따른 식별이 가능할 것으로 기대된다. 둘째, 사고자료 기반 전체 구간의 평균 사고 건수를 기준으로 범주화하여 목표변수를 설정하였다. 이는 평균 사고 건수 외에도 사고잦은개선사업 기준이나, 전체 통행량에 사고 건수의 비율을 구간 단위로 집계하여 활용하는 등의 다양한 기준을 적용하여 목표변수 설정이 가능하다. 사고자료를 활용하여 목표변수를 설정하는 방안에 대해 추가적인 검토가 필요하다. 셋째, 본 연구에서는 개별 차량 주행행태 자료 기반 다양한 관점의 주행 안전성 평가지표 선정하고 통계적 분석을 통해 설명변수로 활용하였다는 장점이 있다. 그러나 고속도로에서의 사고 위험은 교통량, 도로 기하구조, 운전자 행동, 기상 조건 등 다양한 요인에 의해 영향을 받는다. 개별 차량 주행 정보만으로 도로 위험을 판단하기엔 한계가 존재한다. 향후 도로 기하구조 및 기상 조건을 정량적으로 확인 가능한 평가지표를 선정하고 이를 추가적으로 설명변수로 고려한 방법론을 검토할 필요가 있다. 넷째, 본 연구에서는 머신러닝의 알고리즘의 다양성을 고려하여 앙상블 학습 시 SVM, ANN, KNN을 선정하였으나 다른 머신러닝 분류 모델을 적용한 결과와 추가적인 비교가 필요할 것으로 예상된다. 또한 앙상블 학습을 위한 기법으로 가장 간단한 Hard Voting 방식을 활용하였으나, 스태킹(stacking) 등의 방식을 고려한 추가적인 분석이 진행되어야 한다. 마지막으로 실시간으로 수집되는 개별 차량 주행 정보는 대규모 데이터이므로 빠른 연산이 가능한 분류 모델이 요구된다. 본 연구의 방법론은 정확도가 향상된 모델을 도출하였으나 연산 과정이 다소 복잡하다. 이를 극복하기 위해서는 최소한의 설명변수만으로 우수한 정확도를 보이는 모델이 필요하다. 상관계수 값을 기준으로 설명변수를 조정하여 최종 모델의 정확도를 확인하고 정확도가 크게 하락하지 않는 범위 내에서의 추가적인 설명변수 검토가 필요하다. 고속도로 구간의 실시간 모니터링을 위한 도로 위험 구간 식별 모델은 교통사고 예방을 위한 중요한 연구과제이다. 향후 연구 내용에 대한 체계적인 분석을 통해 실질적으로 적용 가능한 모델 개발을 위한 다각적인 노력이 필요할 것이다.

Funding

This work is supported by the Korea Agency for Infrastructure Technology Advancement(KAIA) grant funded by the Ministry of Land, Infrastructure and Transport(Grant RS-2022-00143579).

References

AlMamlook R. E., Kwayu K. M., Alkasisbeh M. R., Frefer A. A. (2019), Comparison of Machine Learning Algorithms for Predicting Traffic Accident Severity, In 2019 IEEE Jordan International Joint Conference on Electrical Engineering and Information Technology (JEEIT) (272-276), IEEE. 10.1109/JEEIT.2019.8717393

Ara Z., Hashemi M. (2021), Identifying the Severity of Road Accident Impact on Traffic Flow by Ensemble Model, In 2021 IEEE 22nd International Conference on Information Reuse and Integration for Data Science (IRI) (115-122), IEEE. 10.1109/IRI51335.2021.00022

Archer J. (2005), Indicators for Traffic Safety Assessment and Prediction and Their Application in Micro-simulation Modelling: A Study of Urban and Suburban Intersections, KTH Royal Institute of Technology, Doctoral dissertation.

Arvin R., Kamrani M., Khattak A. J. (2019), How Instantaneous Driving Behavior Contributes to Crashes at Intersections: Extracting Useful Information from Connected Vehicle Message Data, Accident Analysis & Prevention, 127, 118-133. 10.1016/j.aap.2019.01.01430851563

Augustine T., Shukla S. (2022, April), Road Accident Prediction Using Machine Learning Approaches, In 2022 2nd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE) (808-811), IEEE. 10.1109/ICACITE53722.2022.9823499

Bagdadi O., Varhelyi A. (2013), Development Of A Method For Detecting Jerks In Safety Critical Events, Accident Analysis & Prevention, 50, 83-91. 10.1016/j.aap.2012.03.03223200443

Boo Y., Choi Y. (2022), Comparison of Mortality Prediction Models for Road Traffic Accidents: An Ensemble Technique for Imbalanced Data, BMC public health, 22(1), 1476. 10.1186/s12889-022-13719-335918672PMC9344638

Cherkassky V., Ma Y. (2004), Practical Selection of SVM Parameters and Noise Estimation for SVM Regression, Neural Networks, 17(1), 113-126. 10.1016/S0893-6080(03)00169-214690712

Cho E., Yun Y., Oh C., Lee G. (2023), Derivation of Riding Risk Precursors Using 100 Delivery Motor Scooter Naturalistic Riding Study, Accident Analysis & Prevention, 190, 107186. 10.1016/j.aap.2023.10718637369163

Cooper D. F., Ferguson N. (1976), Traffic Studies at T-Junctions. 2. A Conflict Simulation Record, Traffic Engineering & Control, 17(Analytic).

Cunto F., Saccomanno F. F. (2008), Calibration and Validation of Simulated Vehicle Safety Performance at Signalized Intersections, Accident analysis & prevention, 40(3), 1171-1179. 10.1016/j.aap.2008.01.00318460386

Dietterich T. G. (1997), Machine-learning Research, AI Magazine, 18(4), 97-97.

Drew P. J., Monson J. R. (2000), Artificial Neural Networks, Surgery, 127(1), 3-11. 10.1067/msy.2000.10217310660751

FHWA (2003), Surrogate Safety Measures from Traffic Simulation Models, Federal Highway Administration Report FHWA-RD-03-050. McLean, VA.

Hansen L. K., Salamon P. (1990), Neural network ensembles, IEEE Transactions on Pattern Analysis & Machine Intelligence, (10), 993-1001. 10.1109/34.58871

Haywar J. (1971), Near Misses as A Measure of Safety At Urban Intersections, Pennsylvania Transportation and Traffic Safety Center.

HE Haibo et al. (2008), ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning, 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), IEEE, 1322-1328. 10.1109/IJCNN.2008.4633969

Jang J., Ko J., Park J., Oh C., Kim S. (2020), Identification of Safety Benefits by Inter-vehicle Crash Risk Analysis Using Connected Vehicle Systems Data on Korean Freeways, Accident Analysis & Prevention, 144, 105675. 10.1016/j.aap.2020.10567532634761

Jo Y., Jang J., Park S., Oh C. (2021), Connected Vehicle-based Road Safety Information System (CROSS): Framework and Evaluation, Accident Analysis & Prevention, 151, 105972. 10.1016/j.aap.2021.10597233465744

Jo Y., Jung A., Park H., Park J., Oh C. (2022), Prioritizing Driving Safety Indicators Using Real-world C-ITS Data to Identify Hazardous Freeway Sections, J. Korean Soc. Transp., 40(6), Korean Society of Transportation, 863-878. 10.7470/jkst.2022.40.6.863

Kim Y., Kang K., Park J., Oh C. (2023), A Methodology for Prioritizing Safety Indicators Using Individual Vehicle Trajectory Data, Journal of Transportation Safety & Security, 1-25. 10.1080/19439962.2023.2178567

Ko J., Jang J., Oh C. (2021), Assessing the Safety Benefits of In-vehicle Warning Information by Vehicle Interaction Analysis in C-ITS Environments, J. Korean Soc. Transp., 39(1), Korean Society of Transportation, 1-13. 10.7470/jkst.2021.39.1.001

Ko J., Jang J., Oh C. (2022), A Multi-agent Driving Simulation Approach for Evaluating The Safety Benefits of Connected Vehicles, IEEE Transactions on Intelligent Transportation Systems, 23(5), 4512-4524. 10.1109/TITS.2020.3045675

Kuncheva L. I. (2004), Combining Pattern Classifiers: Methods and Algorithms, John Wiley & Sons. 10.1002/0471660264

Mahdinia I., Mohammadnazar A., Arvin R., Khattak A. J. (2021), Integration of Automated Vehicles in Mixed Traffic: Evaluating Changes in Performance of Following Human-Driven Vehicles, Accident Analysis & Prevention, 152, 106006. 10.1016/j.aap.2021.10600633556655

Njobelo G., Sando T., Sajjadi S., Mtoi E., Ozguven E. E., Sobanjo J. (2018), Safety Evaluation of The Advanced Stop Assist System in Connected Vehicle Environment, Transportation Research Record, 2672(22), 47-57. 10.1177/0361198118797831

Oh C., Park S., Ritchie S. G. (2006), A Method for Identifying Rear-end Collision Risks Using Inductive Loop Detectors, Accident Analysis & Prevention, 38(2), 295-301. 10.1016/j.aap.2005.09.00916246286

Opits D., Maclin R. (1999), Popular ensemble methods: An empirical study. Journal of artificial intelligence research, 11, 169-198. 10.1613/jair.614

Sakhare R. S., Desai J. C., Mahlberg J., Mathew J. K., Kim W., Li H., Bullock D. M. (2021), Evaluation of The Impact of Queue Trucks with Navigation Alerts Using Connected Vehicle Data, Journal of Transportation Technologies, 11(4), 561-576. 10.4236/jtts.2021.114035

Wang X., Wang T., Tarko A., Tremont P. J. (2015), The Influence of Combined Alignments on Lateral Acceleration on Mountainous Freeways: A Driving Simulator Study, Accident Analysis & Prevention, 76, 110-117. 10.1016/j.aap.2015.01.00325626165

Xiao, J. (2019), SVM and KNN Ensemble Learning for Traffic Incident Detection, Physica A: Statistical Mechanics and its Applications, 517, 29-35. 10.1016/j.physa.2018.10.060

Yuan R., Li Z., Guan X., Xu L. (2010), An SVM-based Machine Learning Method for Accurate Internet Traffic Classification, Information Systems Frontiers, 12, 149-156. 10.1007/s10796-008-9131-2

Zhang S., Li X., Zong M., Zhu X., Wang R. (2017), Efficient kNN Classification with Different Numbers of Nearest Neighbors, IEEE Transactions on Neural Networks and Learning Systems, 29(5), 1774-1785. 10.1109/TNNLS.2017.267324128422666

Journal of Korean Society of Transportation ISSN:1229-1366(Print) 2234-4217(Online) 대한교통학회지

Preview

Identification of Crash-Prone Road Segments Based on an Ensemble Machine Learning Strategy : Use of Driving Behavior Data

ABSTRACT

MAIN

Figure 1.

Overall research framework

Figure 2.

Analysis sites

Table 1.

A set of list of driving safety indicators

Table 2.

Descriptive statistics

Table 3.

Result of Kolmogorov-Smirnov (K-S) test

Table 4.

Correlation between driving safety indicators and number of crashes

Table 5.

Optimal hyperparameter settings

Table 6.

Evaluation results of the classification model

Funding

References