Article

Journal of Korean Society of Transportation. 31 December 2023. 878-891
https://doi.org/10.7470/jkst.2023.41.7.878

ABSTRACT


MAIN

  • 서론

  • 기존 문헌 고찰

  • 연구 방법론

  •   1. ARIMA model

  •   2. LSTM model

  •   3. SHAP

  • 데이터 전처리

  •   1. 연구 범위

  •   2. 데이터 수집 및 전처리

  • 분석 결과

  •   1. COVID-19 발생 현황에 따른 지역별 교통사고와 외생변수 간 상관분석

  •   2. 주요 도시 및 권역 대상 교통사고 시계열 분석

  •   3. 설명 가능한 인공지능을 활용한 변수 영향력 분석

  • 결론

서론

2019년 12월 코로나바이러스감염증-19(COVID-19; Corona virus disease 19) 감염 사례가 처음 발견되었으며 감염자가 급속도로 증가하여 2020년 3월 세계보건기구(WHO; World Health Organization)는 세계적인 대유행을 의미하는 팬데믹(Pandemic)을 선언하였다. COVID-19는 감염자의 비말에 의해 전파되어 밀접 접촉하는 환경에 취약하다. 세계 각 국가의 질병관리청은 초기에 백신, 치료제 등 뚜렷한 치료법이 충분하지 않은 상황으로 비약학적 방역 대책을 수행하였다. 국내에서는 COVID-19의 급속한 확산을 억제하기 위해 2020년 3월부터 재택근무 권장, 사적 모임 금지 등 사회적 거리두기 정책을 시행하였다. 이러한 정책들은 사회 전반에 큰 영향을 미쳤으며 교통, 경제, 문화 등 사람들의 이동과 활동에 변화를 일으켰다. COVID-19는 인구밀도와 이동량이 높은 지역을 중심으로 신속하게 확산되는 특성이 있으며 대유행 초기 인구 이동량이 급격히 낮아지는 추세를 보였다. 또한, 상대적으로 사람 간의 대면성이 낮은 승용차에 비해 대중교통 이용량이 더욱 많이 감소한 것으로 나타났으며, 지방부에서는 대중교통이 발달한 도시부에 비해 기존의 대중교통 이용자가 승용차로 전환하는 경향이 더 큰 것으로 나타났다(Won et al., 2021).

감염병의 세계적인 대유행에 따른 통행과 수단 선택의 변화는 교통안전에도 영향을 미치는데 이는 인적요인, 도로 및 주행 환경, 교통 수요 및 통행 노출 등 다양한 요인이 복합적으로 작용하여 발생하는 교통사고와 관련이 있다(AASHTO, 2010; Won et al., 2021). 그러나, 국외에서는 COVID-19가 사회에 미치는 영향과 교통 간의 관계성에 주목하여 교통안전 연구가 활발하게 진행되고 있는 반면 국내에서는 관련 연구가 부족한 실정이다. 따라서, 본 연구는 국내 COVID-19의 대유행 기간을 대상으로 시계열 예측 기법을 활용하여 교통사고를 예측하는 것을 목적으로 한다.

본 연구는 COVID-19 확진자 수, 인구의 이동을 대표하는 교통 변수, 교통사고 빈도 간 상관성을 규명하기 위해 상관분석을 수행하였으며 교통사고 빈도 시계열 예측에 유의한 변수를 도출하였다. 시계열 예측 기법으로는 통계적 이론에 기반한 ARIMA(Autoregressive Integrated Moving Average)와 휴리스틱(Heuristic) 방법 중 대표적인 시계열 딥러닝(Deep Learning)인 LSTM(Long Short-Term Memory)을 활용하였다. COVID-19에 따른 교통사고 빈도 시계열 예측 결과를 방법론 별로 비교하여 최적의 모형을 제시하였다. 연구의 결과물은 향후 전파력이 강한 감염병과 같은 외부요인이 교통안전에 미치는 영향을 파악하고 교통사고를 예측하여 적절한 안전 조치를 수행할 수 있는 정량적 기준으로 활용할 수 있다.

본 연구는 다음과 같이 구성되어 있다. 2장에서는 COVID-19에 따른 교통 연구를 중심으로 기존 문헌 고찰을 검토하였고, 3장에서는 시계열 예측 방법론을 제시하였으며 변수별 영향력과 방향성을 검토하기 위해 설명 가능한 인공지능(XAI, Explainable Artificial Intelligence) 방법론에 대해 서술하였다. 4장에서는 COVID-19 확진자 수 및 교통 간 상관분석과 교통사고 시계열 예측 결과를 제시하였으며, 마지막 장에서는 본 연구 결과를 요약하여 결론 및 향후 연구계획에 관해 서술하였다.

기존 문헌 고찰

본 연구는 교통 이용 행태에 영향을 미치는 감염병인 COVID-19에 따라 교통사고 시계열 예측 분석 수행을 목적으로 한다. 본 장에서는 COVID-19에 따른 교통사고 빈도 및 심각도 예측 분석에 수행한 연구와 COVID-19 대유행에 따른 교통 이용 행태 변화 관련 연구에 대해 문헌 고찰을 수행하였다.

전파력이 강한 COVID-19의 확산을 방지하기 위해 정부는 봉쇄 정책을 시행하였고 이동 제한으로 인해 교통사고 발생에 영향을 미친다. Lee et al.(2023)은 미국 Florida를 중심으로 COVID-19 확산 방지를 위해 통제된 교통 환경에서의 사고빈도의 변화와 미래에 발생할 수 있는 사고에 대해 시계열 예측 연구를 수행하였다. 이들이 제시한 교통사고 시계열 예측 모형에는 인구통계학 자료와 총 주행거리를 영향 요인으로 활용하였다. 팬데믹 전‧후로 비교한 결과 사고빈도와 심각도 측면에서 크게 감소한 것으로 나타났으며, 지역별로 교통사고 발생 추이에 대해 이질성이 있는 것으로 분석되었다. 다른 유사한 연구에서도 COVID-19 팬데믹 기간동안 교통 이용 패턴이 변화하고 이에 따른 교통사고 시계열 예측 분석이 수행되었다(Sekadakis et al., 2021; Patwary and Khattak, 2023).

감염병 확산 방지 정책으로 인한 이동 제한은 자동차 사고 뿐만 아니라 자전거 사고에도 영향을 미친다. Li and Zhao(2022)는 COVID-19 확산 방지를 위한 이동 제한이 자전거 교통사고 발생에 미치는 영향에 대해 연구하였다. 이들은 공유자전거 이용 행태와 자전거 교통사고 자료를 활용하여 로짓 모형을 기반으로 교통사고 빈도 예측 모형을 개발하였으며 분석 결과 봉쇄 정책 이후 사고 빈도가 감소하고 사고 심각도가 증가한 것을 확인하였다.

COVID-19 팬데믹 기간동안 발생한 교통사고 시계열 예측 분석을 수행한 다양한 연구를 통해 감염병 확산에 따라 사람들의 교통 이용 패턴이 변화하고 도로 안전에도 영향을 미치는 것을 확인하였다. 본 연구에서 수행한 교통사고 시계열 예측 분석에 활용할 영향요인을 확인하기 위해 COVID-19 확산에 따른 교통 이용 행태 변화 관련 연구에 대해 문헌 고찰을 수행하였다.

감염병의 확산을 방지하기 위해 시행된 정부의 봉쇄 정책은 인구의 이동을 억제하는 효과를 나타냈다. Hu et al.(2021)은 교통 빅데이터를 기반으로 COVID-19 기간 동안 인구 이동 추세를 정량적으로 평가하였다. 모바일 위치 데이터를 기반으로 분석한 결과 정부의 이동 제한 명령으로 인한 인구 이동 감소 폭은 이동 제한 명령 해제 시 인구 이동 증가 폭보다 큰 것으로 나타났다. 봉쇄 정책과 인구 이동 간의 관계에 대해 다룬 추가적인 연구의 결과에 따르면 단기적으로는 정책의 효과로 인한 사람들의 이동을 억제하는데 효과적이지만 장기적으로는 확산 방지를 위한 억제 정책의 효과가 떨어지는 것으로 나타났다(Arellana et al., 2020; Han and Ryu, 2022).

대중교통은 많은 사람들이 이용하는 통행 수단으로 전파 가능성이 높아 유행성이 높은 질병은 확산 경과에 따라 사람들의 교통 패턴에 변화를 유발한다(Han et al., 2021). 일부 연구에서는 COVID-19가 대중교통 이용에 미치는 영향 요인을 분석하였다. Lee et al.(2021)은 대중교통 수단에서의 COVID-19 감염 가능성에 대한 설문조사를 수행하고 순서형 로짓 모형을 구축하여 영향요인을 도출하였다. 분석 결과, COVID-19 확산 이후 대중교통 이용 빈도가 감소하고 이용 횟수당 통행 시간이 감소한 것으로 나타났다. Bhin et al.(2021)은 COVID-19로 인한 대중교통 이용 변화패턴을 분석하고자 다중선형회귀분석을 수행하였으며 인구밀도가 높고 상업지구에서 일일 통행량과 출근 통행량이 감소하는 것으로 분석되었다.

최근 대중교통의 대체 수단으로 떠오르는 공유 모빌리티의 이용에도 COVID-19 확산 패턴이 영향을 미쳤다. Shin and Choo(2022)는 감염병 확산에 따라 공유 모빌리티의 이용 변화에 미치는 영향 요인을 순서형 프로빗 모형을 기반으로 분석하고 포스트 코로나 시대의 교통부문 대응 전략을 제시하였다. 분석 결과, 통근 시 보행시간이 길수록 공유 모빌리티 이용이 증가하였으며 출퇴근 시 이동수단은 양의 영향을 미치는 것으로 나타났다.

COVID-19는 밀접 접촉 환경에서 쉽게 전파되는 감염병으로 확산 초기 이동 제한을 봉쇄 정책을 정부에서 실행하였으며 교통은 직접적으로 큰 영향을 받았다. 이러한 요인은 팬데믹 이전과 이후 교통 패턴의 변화를 유발하였으며 도로 안전에도 영향을 미쳤다. 국외에서는 COVID-19 확산 경과에 따른 교통 수요, 안전, 물류 등 다양한 분야에서 연구가 수행되었다. 그러나, 국내에서는 COVID-19에 따른 교통 수요 및 물류 관련 연구가 활발하지만 교통사고 시계열 예측 분석에 대한 연구가 미비하다. 본 연구는 COVID-19 팬데믹 기간의 교통사고 자료를 기반으로 시계열 분석을 수행하였으며 감염병에 의해 영향을 받는 교통 관련 변수를 활용하여 설명력을 보완하였다.

연구 방법론

본 연구에서는 COVID-19 팬데믹 기간 동안 교통에 미치는 영향에 대해 확인하고 변화된 교통 패턴을 기반으로 시계열 분석 기법을 활용하여 교통사고 빈도를 예측하고자 하였다. 이를 위해, COVID-19 확진자 수, 인구의 이동을 대표하는 교통 변수, 교통사고 빈도 간 상관성을 규명하기 위해 상관분석을 수행하였으며 교통사고 빈도 시계열 예측에 유의한 변수를 도출하였다. 또한, 통계 이론에 기반한 기법과 휴리스틱한 기법을 활용하여 시계열 예측 분석을 수행하였다. 본 연구의 수행과정은 Figure 1에 제시하였다.

https://cdn.apub.kr/journalsite/sites/kst/2023-041-07/N0210410708/images/kst_2023_417_878_F1.jpg
Figure 1.

Research framework

1. ARIMA model

ARIMA(p, d, q) 모델은 이전 관측치가 미래 관측치에 영향을 미친다는 이론을 기반으로 하는 시계열 분석 방법 중 하나이다(Box et al., 2015). ARIMA는 자기회귀 모델(AR; Autoregressive model)과 이동 평균 모델(MA; Moving Average)을 결합한 모델이다. 또한 시계열의 비정상성을 설명하기 위해 관측치 간의 차이를 의미하는 차분(difference)을 사용한다. 본 연구에서는 외생 변수의 영향을 고려하는 ARIMA 모델의 확장된 형태인 ARIMAX(p, d, q) 모델을 추가로 고려하였다.

2. LSTM model

LSTM은 시계열 예측 연구에 널리 사용되는 딥러닝 기법 중 하나인 순환신경망(RNN; Recurrent Neural Network)의 일종이다(Hochreiter and Schmidhuber, 1997). RNN은 실제 값과 예측 값간의 차이를 비교하는 손실 함수가 감소하는 방향으로 가중치를 반복 갱신하기 위해 그래디언트를 산출한다. 그러나, 그래디언트가 0에 수렴할 경우 가중치를 갱신할 수 없어 예측 모델의 학습이 중단되는데 이를 그래디언트 소멸 문제라고 한다. RNN은 단기 시퀀스에서는 예측에 문제가 없지만 장기 시퀀스에서는 제대로 기억하지 못하는 단점이 있다. LSTM은 일정기간 동안 정보를 기억할 수 있도록 설계하여 그래디언트 소멸 문제를 해결하였다(Fernandes et al., 2019). 본 연구에서는 시계열 분석에서 우수한 성능을 보이는 LSTM을 기반으로 교통사고 빈도 시계열 예측 분석을 수행하였다.

3. SHAP

기계학습은 다양한 분야에서 복잡한 문제를 해결해 줄 수 있는 장점으로 주목받았으나 기본 구조가 복잡하고 비선형적이며 해석 및 설명이 어렵기 때문에 블랙박스라고도 불리었다. 연구자들은 인공지능기반의 솔루션이 도출한 결과에 대해 보다 이해하기 쉽고 투명한 방식으로 접근하기를 희망하여 설명가능한 인공지능(XAI; Interpretable AI)이 발전하였다(Vilone and Longo, 2021). 설명 가능한 인공지능의 대표적인 예로, 게임 이론에 기반한 Shapley 값을 활용하여 설명하는 방법론인 SHAP(Shapley Additive exPlanations)이 있다. SHAP은 종속변수와 독립변수 간의 양의 상관관계 또는 음의 상관관계를 파악할 수 있으며, 입력 변수의 중요도를 파악할 수 있다. 본 연구에서는 딥러닝 기반의 시계열 분석 기법 중 하나인 LSTM을 활용한 사고빈도 예측 모형을 대상으로 SHAP을 적용하였다.

데이터 전처리

1. 연구 범위

본 연구는 COVID-19 기간동안 변화된 교통 지표에 따른 교통사고 발생 빈도를 시계열 예측하였다. COVID-19는 사람들이 밀접 접촉하는 환경에서 쉽게 전파되는 특징이 있어 본 연구에서는 인구가 밀집한 주요 도시 및 권역을 연구범위로 설정하였다. 설정된 공간적 범위는 주요 도시 및 권역으로 서울, 인천, 경기, 대전, 광주, 대구, 울산, 부산 8개 지역을 선정하였다. 연구의 시간적 범위는 국내 COVID-19 감염자가 최초 보고된 2020년 1월 20일부터 2022년 12월 31일까지 총 1,077일로 데이터 수집 및 구득 가능성을 고려하여 연구 대상 기간을 설정하였다. COVID-19 확산 현황에 따라 교통에 미치는 영향을 고려하여 시간적 범위를 6개 단계로 구분하였다. 시간적 범위를 구분하는 기준은 COVID-19의 확산에 따른 정부 방역 지침의 변화, 대규모 확산 사례, 바이러스 변이종 등장으로 하였다.

Phase 1은 국내 COVID-19 감염자 최초 보고 시기를 기준으로 1주차부터 29주차까지를 의미하며 Phase 2는 2차 재확산으로 인해 사회적 거리두기 2단계가 시행된 30주차부터 42주차까지이다. Phase 3은 COVID-19 3차 재확산된 43주차부터 61주차까지이며 일일 감염자 수 500명을 돌파한 4차 재확산된 62주차부터 96주차까지를 Phase 4로 설정하였다. Phase 5는 COVID-19 변이종 바이러스인 오미크론(Omicron)이 등장한 97주차부터 118주차를 뜻하며 Phase 6는 COVID-19 확산 방지를 위한 사회적 거리두기가 해제된 119주차부터 본 연구의 시간적 범위 종료 시기인 154주차까지를 의미한다. 시간적 단계(phase)의 구분 기준은 Table 1에 정리하여 제시하였다.

Table 1.

Criteria for analysis period

Phase Period Description
Phase 1 1 week-29 week First infection-Social distancing level 2(2nd resurgence)
Phase 2 30 week-42 week Social distancing level 2-3rd resurgence
Phase 3 43 week-61 week 3rd resurgence-4th resurgence(≥ 500 daily infected cases)
Phase 4 62 week-96 week 4th resurgence-Appears Omicron variant
Phase 5 97 week-118 week Appears Omicron variant-Lifting social distancing
Phase 6 119 week-154 week Lifting social distancing -

2. 데이터 수집 및 전처리

본 연구는 COVID-19 기간동안 변화된 교통 지표에 따른 교통사고 발생 빈도를 시계열 예측하기 위해 COVID-19 확진자 수, 교통 및 사회경제학 통계 데이터를 수집하였다. COVID-19 확진자 수는 시‧군‧구 단위로 일일 집계되는 데이터를 질병관리청 코로나바이러스감염증-19 웹페이지에서 수집하였다. 교통사고 발생 건수는 도로교통공단에서 운영하고 있는 교통사고분석시스템(TAAS; Traffic Accident Analysis System)에서 1일 단위로 수집하였으며 사망, 부상 등 사고 심각도 별로 구분이 가능하다. 관내/외 이동량 데이터는 통신사 모바일 데이터를 기반으로 1주 단위로 생성되며 통계청에서 운영하고 있는 빅데이터 활용 웹페이지에서 수집하였다. 여기서, 관내이동은 본인이 실거주하는 행정동 외 타 행정동을 30분 이상 방문하는 이동량을 의미하며 관외이동은 본인이 실거주하는 시군구 외 타 시군구를 30분 이상 방문하는 이동량을 의미한다. 또한, 이전 주차의 관내/외 이동량과 해당 주차의 관내/외 이동량 차이를 통해 관내/외 이동량 변화율을 도출하였다. 자동차 등록대수는 관할 행정지역에 등록된 승용차, 승합차, 화물차, 특수차량 등을 1개월 단위로 집계한 데이터로 통계청에서 운영하고 있는 국가통계포털(KOSIS; Korean Statistical Information Service)에서 수집하였다. 대중교통 이용량은 마을버스 및 농어촌버스를 포함하는 시내버스와 지하철을 이용할 때 발생하는 이용량을 의미하며 교통카드 빅데이터 통합정보시스템에서 1일 단위 OD(Origin-Destination) 데이터로 제공하고 있다. 요금소 입‧출구 교통량은 고속도로 톨게이트(tollgate) 유‧출입 교통량을 의미하며 한국도로공사 공공데이터포털에서 1일 단위로 차종별로 구분하여 제공하고 있다. 고속도로 요금소의 지리적 위치를 나타내는 주소를 기준으로 주요 도시 및 지역에 해당하는 데이터를 추출하였다. 본 연구에서 수집하여 활용한 데이터에 대한 상세 내용과 기술통계는 Tables 2-3에 제시하였다. 본 연구에서 수집한 데이터는 집계 단위가 1일, 1주, 1개월로 서로 상이하여 지역별 교통사고 시계열 예측 분석을 수행하기 위해 1일 단위로 통합 데이터 셋을 구축하였다. 집계 단위가 1일을 초과하는 관내/외 이동량, 자동차 등록대수 데이터는 해당하는 주차와 월에 반복적으로 입력하여 데이터의 시간적 위계를 일치시켰다.

Table 2.

List of variables

Variable Description
COVID-19_infected Number of daily covid-19 infected cases
Crash Number of daily traffic crashes
Crash_dead Number of daily fatal traffic crashes
Crash_injury Number of daily injury traffic crashes
Travel_in Number of weekly people traveling within the region
Travel_out Number of weekly people moving between the regions
Rate_of_change_travel_in Rate of change in travel in of the region compared to the previous week
Rate_of_change_travel_out Rate of change in travel out of the region compared to the previous week
Regist_pv Number of monthly registered passenger vehicles
Regist_van Number of monthly registered vans
Regist_truck Number of monthly registered trucks
Regist_special_veh Number of monthly registered special vehicles
Regist_motorcycle Number of monthly registered motorcycles
Regist_total Number of monthly registered all vehicles
PT_OD_origin Number of daily public transit pass tag from the origin
PT_OD_dest Number of daily public transit pass tag from the destination
Enter_tg_truck Number of daily trucks through the tollgate entrance
Exit_tg_truck Number of daily trucks through the tollgate exit
Enter_tg_pv Number of daily passenger vehicles through the tollgate entrance
Exit_tg_pv Number of daily passenger vehicles through the tollgate exit
Table 3.

Descriptive statistics

Variable Mean SD. Max. Min.
COVID-19_infected 2,381.2 8,451.6 181,911.0 0.0
Crash 46.9 46.2 229.0 1.0
Crash_dead 0.4 0.8 8.0 0.0
Crash_injury 66.6 66.6 361.0 1.0
Travel_in 6,290,847.7 5,601,525.1 18,949,896.0 1,572,852.0
Travel_out 3,084,875.2 2,905,230.7 10,686,996.0 534,531.0
Rate_of_change_travel_in -0.1 5.1 16.9 -18.2
Rate_of_change_travel_out -0.5 14.4 87.0 -50.8
Regist_pv 1,637,741.8 1,461,592.0 5,311,946.0 477,313.0
Regist_van 59,284.8 59,653.0 209,979.0 13,445.0
Regist_truck 242,345.7 232,363.6 847,730.0 70,810.0
Regist_special_veh 8,185.7 6,582.4 28,030.0 2503.0
Regist_motorcycle 1,947,558.0 1,757,107.6 6,378,632.0 566,595.0
Regist_total 169,611.8 155,774.9 459,002.0 35,569.0
PT_OD_origin 1,698,186.0 2,179,106.0 9,330,563.0 41,356.0
PT_OD_dest 1,503,256.3 2,210,975.4 9,196,781.0 9,391.0
Enter_tg_truck 20,344.5 35,551.7 143,147.0 65.0
Exit_tg_truck 328,156.0 500,015.5 1,939,223.0 7,117.0
Enter_tg_pv 20,478.1 36,618.6 147,250.0 56.0
Exit_tg_pv 327,525.3 498,366.7 1,810,095.0 7,466.0

분석 결과

본 연구를 통해 COVID-19 확산 및 방역지침 변화에 따른 지역별 교통사고 시계열 분석을 수행하기 위해 지역별 COVID-19 발생 현황과 교통 간 상관분석과 다중공선성 검정을 통해 변수를 선택하였다. 다음으로는 선택된 변수를 중심으로 지역별 기간별 교통사고 시계열 분석을 위해 LSTM과 ARIMA를 활용하였다. LSTM의 경우 독립변수가 예측에 미치는 영향을 확인하기 위해 설명가능한 인공지능 기법인 SHAP을 활용하였다. 마지막으로 분석에 활용한 교통사고 시계열 예측 모형의 성능을 비교하였다.

1. COVID-19 발생 현황에 따른 지역별 교통사고와 외생변수 간 상관분석

COVID-19 확산 및 방역지침 변화에 따른 교통사고와 교통 패턴 간의 관계성을 확인하기 전 지역별 COVID-19 확산 경과 단계 별 교통사고 발생 건수, COVID-19 확진자 수, 대중교통 도착 통행량 수 추이를 확인하였다. 시간적 단계 별로 기간의 길이가 달라 변수 별로 일 평균 값을 산출하였다. 대중교통 도착 통행량은 사람들의 통행을 나타내는 지표 중 하나로 감염병 확산 변화에 따른 비교 지표로 활용하였다. 분석 결과, 서울, 경기, 인천을 포함하는 수도권 지역과 부산 지역은 COVID-19 확산 초기부터 Phase 3까지 일일 확진자 수가 증가할수록 일일 대중교통 도착 통행량 수가 감소하였다. 해당 지역은 대중교통을 주 통행 수단으로 많은 사람들이 활용하는 곳으로 밀접 접촉으로 인한 감염병의 전파 우려가 반영된 결과이다. 동시에 대중교통 도착 통행량에 따라 사고 발생 건수가 우하향으로 감소하였다. 한편, 오미크론 변이 바이러스가 등장한 Phase 5 모든 지역에서 일일 COVID-19 확진자 수가 가장 높았으며 이전 단계 대비 일일 교통사고 발생 건수가 감소하였다. 그러나, 팬데믹 후반기로 간주되는 Phase 5에서 COVID-19 확진자 수가 급격히 증가한 시기임에도 불구하고 대중교통 이용 수가 우상향으로 증가하는 것은 치료제가 부재한 팬데믹 초기와 달리 백신 접종이 진행되었으며 장기화된 사회적 거리두기로 인한 피로도로 인한 결과로 해석할 수 있다. 이를 통해 COVID-19 확산 경향에 따라 사람들의 통행 패턴이 변화하고 이에 따라 교통 안전에도 영향을 미치는 것을 확인하였다. 자세한 도식은 Figure 2에 제시하였다.

https://cdn.apub.kr/journalsite/sites/kst/2023-041-07/N0210410708/images/kst_2023_417_878_F2.jpg
Figure 2.

COVID-19 infection, traffic and road safety trend by region-phase

교통안전과 COVID-19 확산 및 방역지침 변화에 따른 교통 관련 데이터 간 상관성을 확인하고자 스피어만 상관분석(Spearman correlation analysis)을 수행하였다. 본 연구에서 활용하고 있는 데이터는 정규성을 충족하지 않아 스피어만 상관계수를 활용하였다. 상관계수가 0.33 이상이면 두 변수 간에 강한 연관성이 있는 것으로 해석하였으며 분석에 활용할 변수로 선택하였다(Hemphill, 2003; Roche, 2021). 교통 변수들은 사람들의 이동을 대표하는 지표로 서로 관련성이 높기 때문에 시계열 예측 모형 개발에 있어 다중공선성(multicollinearity) 문제에 직면할 수 있다. 다중공선성 문제는 독립변수들 간에 강한 상관관계가 나타나 모형 개발에 부정적인 영향을 주는 것을 의미한다(Xie et al., 2016). 일부 지역과 단계에서는 서로 연관성이 높은 변수 조합이 있어 분산 팽창 계수(VIF; Variance Inflation Factor)를 산출하여 10보다 크면 분석에서 제외하였다. 분석 결과, 광주, 대구, 울산 지역은 다수의 변수가 탈락하여 분석 범위에서 제외하였으며 나머지 5개 지역을 분석 범위로 유지하였다. 상관계수가 0.33 이상이며 분산 팽창 계수 10 이하 조건을 충족하는 지역별 변수에 따른 단계(phase)는 Table 4에 제시하였다. 변수 선택 기준을 충족할 경우 “●”, 충족하지 않을 경우 “-”, 데이터가 존재하지 않는 경우 “×”로 표기하였다. 5개 지역 대부분이 대중교통 이용량과 요금소 입‧출구 교통량이 최종적으로 선택된 변수이며, 서울과 경기도는 관내/외 이동량이 COVID-19 확산 초기인 1-2단계와 변종 바이러스인 오미크론의 출현 시기인 5단계에 유의한 변수로 도출되었다.

Table 4.

Variable selection by correlation analysis and variance inflation factor

Variable Phase by region
Seoul Gyeonggi Incheon Daejeon Busan
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
COVID-19_infected - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Travel_in - - - - - - - - - - - - - - - - - - - - - - - - - -
Travel_out - - - - - - - - - - - - - - - - - - - - - - -
Rate_of_change_travel_in - - - - - - - - - - - - - - - - - - - - - - - - - - -
Rate_of_change_travel_out - - - - - - - - - - - - - - - - - - - - - - -
Regist_pv - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Regist_van - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Regist_truck - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Regist_special_veh - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Regist_motorcycle - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Regist_total - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
PT_OD_origin - - - - - - - - - - - - - - -
PT_OD_dest - - - - - - - - - - -
Enter_tg_truck × × × × × × - - - - - - - - - - - - - - - - - -
Exit_tg_truck × × × × × × - - - - - - - - -
Enter_tg_pv × × × × × × - - - - - - - - - -
Exit_tg_pv × × × × × × - - - - - - - - - - - - - - - -

2. 주요 도시 및 권역 대상 교통사고 시계열 분석

상관분석과 분산 팽창 계수를 통해 선택된 변수를 활용하여 ARIMA, ARIMAX, LSTM을 기반으로 교통사고 시계열분석을 수행하였다. 본 연구에서는 예측 성능을 비교하기 위해 MAPE(Mean Absolute Percentage Error)와 RMSE(Root Mean Squared Error)를 활용하였으며 지역과 시간 단계를 기준으로 구분하여 예측성능을 제시하였다. 본 연구에서는 외생 변수의 활용 여부를 기준으로 방법론을 구분할 수 있다. 외생 변수를 활용하지 않는 방법론은 ARIMA이며 외생 변수를 활용한 방법론은 ARIMAX와 LSTM이 있다. 방법론별 지역별 교통사고 시계열 예측 성능 평균에 대한 비교는 Figure 3에 제시하였다. 분석 결과, 서울 지역을 제외하고 나머지 4개 지역에서 LSTM이 ARIMA와 ARIMAX에 비해 예측 성능이 우수한 것으로 나타났다. 서울 지역은 외생 변수를 활용한 통계학 이론 기반의 ARIMAX의 MAPE가 11.3%로 가장 뛰어났다. 반면, 인천 지역은 외생 변수를 활용하지 않은 ARIMA의 MAPE가 19.9%로 예측성능이 좋지 못했다. 결과적으로, 지역별 교통사고를 예측할 경우 교통사고의 시계열 데이터 뿐만 아니라 교통 환경에 노출된 정도를 나타내는 변수를 추가로 활용하여 예측성능이 향상되었다.

https://cdn.apub.kr/journalsite/sites/kst/2023-041-07/N0210410708/images/kst_2023_417_878_F3.jpg
Figure 3.

Average prediction accuracy by region

또한, 주요 도시 및 권역 대상별 자세한 교통사고 시계열 분석 결과는 방법론 별로 Table 5에 제시하였다. 분석 결과에 따르면 시간 단계로 구분하였을 때, 수도권 지역인 서울, 경기, 인천 지역은 4차 재확산-오미크론 출현 기간인 phase 4에서 교통사고 예측 성능이 가장 우수하였으며 그 외 지역인 대전, 부산 지역은 3차 재확산-4차 재확산 기간인 phase 3에서 사고 예측 정확도가 높았다.

Table 5.

Result of time series crash prediction by region-phase

Model Period Seoul Gyeonggi Incheon Daejeon Busan
MAPE RMSE MAPE RMSE MAPE RMSE MAPE RMSE MAPE RMSE
ARIMA Phase 1 11.765 14.803 13.922 19.533 17.422 4.673 24.871 4.743 19.055 6.977
Phase 2 12.501 15.502 11.727 23.488 15.880 5.693 16.871 5.199 16.259 8.508
Phase 3 11.422 10.557 14.070 23.655 28.620 5.774 13.241 3.298 15.187 5.969
Phase 4 8.066 9.307 9.952 26.287 14.704 4.586 13.423 2.969 16.432 5.964
Phase 5 11.999 12.652 14.232 24.906 20.176 4.380 17.220 3.967 19.631 6.707
Phase 6 19.413 24.300 12.344 22.898 22.755 6.436 17.234 4.737 19.243 6.347
Average 12.528 14.520 12.708 23.461 19.926 5.257 17.143 4.152 17.635 6.745
ARIMAX Phase 1 10.270 12.944 14.479 24.148 15.109 4.267 30.090 5.449 23.267 7.839
Phase 2 8.553 10.895 27.854 55.111 13.516 4.734 17.359 4.283 16.991 7.532
Phase 3 9.492 9.708 9.691 17.199 33.713 6.704 14.177 3.155 8.554 4.306
Phase 4 11.495 15.138 7.520 22.929 11.996 3.420 16.277 3.467 19.271 6.711
Phase 5 7.255 8.383 9.253 16.749 18.256 4.224 17.560 3.675 16.506 6.369
Phase 6 20.905 24.017 14.194 25.951 25.029 6.918 16.730 4.460 20.128 6.339
Average 11.328 13.514 13.832 27.015 19.603 5.045 18.699 4.082 17.453 6.516
LSTM Phase 1 10.741 11.674 13.582 19.654 15.903 3.992 24.111 4.326 17.734 6.479
Phase 2 9.678 11.574 10.277 19.932 14.424 5.364 15.520 4.997 15.408 7.957
Phase 3 10.831 11.930 13.317 20.349 26.469 5.090 11.551 2.653 12.978 5.410
Phase 4 7.366 9.398 7.789 22.548 12.537 3.536 15.691 3.484 15.161 6.275
Phase 5 11.540 15.169 14.573 24.443 18.886 4.324 12.762 3.471 18.620 6.950
Phase 6 18.914 22.153 15.135 25.911 22.017 6.660 21.260 5.448 17.760 6.233
Average 11.512 13.650 12.446 22.140 18.373 4.828 16.816 4.063 16.277 6.551

3. 설명 가능한 인공지능을 활용한 변수 영향력 분석

본 연구에서는 설명 가능한 인공지능 기법을 활용하여 구조가 복잡하고 비선형성 특성이 있어 해석이 어려운 LSTM 모델에 대해 분석하였다. SHAP의 Beeswarm 플롯은 모델이 예측하고자 하는 종속변수인 사고빈도에 대해 독립변수 별로 데이터 포인트가 작용하는 영향력을 도식화한 것으로 Figure 4에 제시하였다.

https://cdn.apub.kr/journalsite/sites/kst/2023-041-07/N0210410708/images/kst_2023_417_878_F4.jpg
Figure 4.

SHAP value impact on model output by region-phase

데이터 포인트가 SHAP value 양의 영역에 있으면 긍정적인 효과를 의미하고, 음의 영역에 있으면 부정적인 효과를 의미한다. 또한, 붉은색은 영향력이 큰 데이터 포인트, 푸른색은 영향력이 작은 데이터 포인트이다. Figure 4(a)는 phase 4 기간을 예측한 모델에 대해 분석한 것으로 서울 지역 대중교통 도착량과 출발량이 많아질수록 교통사고 발생 빈도가 증가하는 것을 의미한다. Figure 4(b)는 경기 지역 고속도로 요금소에서 유출되는 화물차 교통량과 대중교통 출발량이 사고 빈도와 비례 관계인 것으로 분석되었다. 대전 지역 phase 3을 도식화한 Figure 4(d)는 유의한 변수 5개 중 대중교통 도착량이 영향력이 가장 크며 톨게이트 유출 화물차 교통량이 예측 모델에 긍정적인 효과를 발휘하는 것을 알 수 있다. Figure 4(e)에 따르면 화물차 유입 교통량이 양의 영역에 많이 위치하므로 부산 지역 phase 3에 발생한 교통사고 빈도와 양의 상관관계임을 의미한다.

결론

교통 관련 데이터를 기반으로 COVID-19 확산 및 방역 지침 변화에 따른 교통사고 시계열 예측 분석을 수행하였다. 그 결과로 사람들의 이동을 제한하는 방역 지침과 감염병 확산 현황에 따라 교통 패턴이 변화하고 교통안전에 영향을 미친다는 것을 알게 되었다. 본 연구에서는 COVID-19의 확산과 교통안전 간의 상관관계를 분석하기 위해 관련 데이터를 수집하였다. 수집된 데이터의 시간적 집계 단위를 일치시켜 통합 데이터 셋을 구축하였다. 감염병의 확산과 교통은 시‧공간적으로 다르게 변화하기 때문에 감염병 확산 및 방역 지침에 따라 6단계로 분석 기간을 분할하였다. 또한, 지역별로 COVID-19 확산 경과와 교통 패턴이 상이하기 때문에 주요 도시 및 권역을 분석 대상으로 선정하였다.

본 연구에서는 교통사고 시계열 예측 모델에 활용할 변수를 선택하기 위해 상관분석과 다중공선성 검정을 수행하였다. 서울, 경기, 인천, 대전, 부산 5개 지역에서 대중교통과 고속도로 이용이 교통사고 발생과 상관성이 높아 변수로 선택되었다. 또한, 서울과 경기는 COVID-19 확산 초기와 변종 바이러스 출현 시기에 관내/외 이동량이 유의한 변수로 채택되었다. 반면, 광주, 대구, 울산 3개 지역은 상관성과 다중공선성 조건을 충족하지 못하여 분석에서 제외하였다. 선택된 변수를 기준으로 통계학적 이론 기반의 ARIMA와 딥러닝 기반의 LSTM 기법을 활용하여 지역별 교통사고 시계열 분석을 수행하였다. 분석 결과, 딥러닝 기반의 LSTM 시계열 분석 모형의 MAPE는 평균 15.08%로 다른 통계학적 이론 기반 모형에 비행 예측성능이 우수한 것으로 나타났다. 이는, 지역별 교통사고를 설명하는 변수를 활용하여 고도화된 시계열 기법인 LSTM을 활용할 경우 보다 정확한 분석을 수행하는데 기여하는 것을 의미한다. 그러나, LSTM은 기본 구조가 복잡하고 비선형성 특징이 있어 해석이 어려운 문제가 있다. 이러한 문제를 해결하기 위해 본 연구에서는 설명 가능한 인공지능 기법인 SHAP을 활용하여 독립 변수의 영향력과 방향성을 해석하였다. 고속도로 화물차 유‧출입량과 대중교통 이용량을 대표하는 변수가 LSTM 기반 사고 빈도 모형의 예측 성능에 긍정적인 영향을 주는 것으로 도출되었다. 본 연구의 결과는 향후 감염병과 같은 재난 사태에 대해 교통에 미치는 영향을 분석하고 이에 따른 교통안전 시계열 예측 분석을 수행할 경우 기초 연구로 참고 및 활용될 수 있을 것으로 기대된다.

COVID-19의 확산은 사람들의 생활에 큰 영향을 주었으며 대표적으로 온라인 쇼핑 구매의 증가, 배달문화의 정착, 재택근무 문화 확산 등이 있다. 특히, 온라인 쇼핑 구매의 증가는 화물 택배 물량의 증가로 이어지고 그로 인해 화물 운송 차량의 총 주행거리와 주행 빈도가 증가하였다. 또한, 배달문화의 정착은 이륜차를 포함한 배달 차량의 주행이 증가하였다. 향후 연구에서는 특화된 교통 패턴에 대해 설명할 수 있는 독립변수를 활용하여 교통안전 시계열 분석 연구가 필요하다. 또한, 본 연구에서는 분석 기간을 분할하기 위해 COVID-19 확산 및 방역지침을 기준으로 활용하였으나 사회적 거리두기 정책의 장기화는 사람들에게 피로도를 가중하여 이동 제한 효과가 감소하는 문제가 있다. 향후 연구에서는 봉쇄 정책의 장기화에 따른 정부의 방역 지침 효과 분석을 수행하고 이를 연계한 시계열 예측 분석을 수행할 필요가 있다. COVID-19 팬데믹은 전국적인 대유행이 이루어졌으나 본 연구는 8개 대 도시권 중 상관성이 높고 유의한 변수가 존재하는 5개 지역을 선별하여 수행하였다. COVID-19는 지역별 시기별로 확산 정도가 서로 상이하였으며 교통 특성, 사회경제학 특성 등 여러 가지 특성이 지역별로 다르다. 정밀한 연구를 위해 지역 별 특성을 추가로 반영해야 하지만 사회경제학 특성 데이터는 수집 주기가 1개월로 다른 자료 대비 해상도가 떨어지는 한계가 있다. 향후 연구에서는 분석에서 제외된 3개 지역을 추가로 분석하기 위해 고해상도의 설명 가능한 데이터로 수집하여 분석할 필요가 있다.

Funding

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. 2022R1A2C1093424).

References

1
AASHTO (2010), Highway Safety Manual.
2
Arellana J., Marquez L., Cantillo V. (2020), COVID-19 Outbreak in Colombia: An Analysis of Its Impacts on Transport Systems, Journal of Advanced Transportation, 2020, Hindawi, 8867316. 10.1155/2020/8867316
3
Bhin M., Son S., Joh C. (2021), An Analysis of Spatial Characteristics of Change in the Number of Passengers at Individual Bus Stops under COVID-19, J. Korean Soc. Transp., 39(4), Korean Society of Transportation, 447-463. 10.7470/jkst.2021.39.4.447
4
Box G. E., Jenkins G. M., Reinsel G. C., Ljung G. M. (2015), Time series Analysis: Forecasting and Control, John Wiley & Sons.
5
Fernandes B., Silva F., Alaiz-Moretón H., Novais P., Analide C., Neves J. (2019), Traffic Flow Forecasting on Data-scarce Environments using ARIMA and LSTM Networks, In World Conference on Information Systems and Technologies, Springer International Publishing, 273-282. 10.1007/978-3-030-16181-1_26
6
Han H., Ryu G. (2022), A Study on the Changes of Population Movement and Traffic Accidents by COVID-19 Confirmed Patients, Transportation Technology and Policy, 19(4), Korean Society of Transportation, 6-10.
7
Han K., Kim D., Kang W., So J., Lee C. (2021), Analysis of the Current Status and Correlation of Traffic Demand according to the COVID-19 Indicator, J. Korea Inst. Intell. Transp. Syst., 20(6), The Korea Institute of Intelligent Transport Systems, 55-65. 10.12815/kits.2021.20.6.55
8
Hemphill J. F. (2003), Interpreting the Magnitudes of Correlation Coefficients, American Psychologist, 58(1), APA PsycNet, 78-79. 10.1037/0003-066X.58.1.7812674822
9
Hochreiter S., Schmidhuber J. (1997), Long Short-term Memory, Neural Computation, 9(8), Institute of Electrical and Electronics Engineers Inc., 1735-1780. 10.1162/neco.1997.9.8.17359377276
10
Hu S., Xiong C., Yang M., Younes H., Luo W., Zhang L. (2021), A Big-data Driven Approach to Analyzing and Modeling Human Mobility Trend under Non-pharmaceutical Interventions during COVID-19 Pandemic, Transportation Research Part C: Emerging Technologies, 124, Elsevier, 102955. 10.1016/j.trc.2020.10295533456212PMC7796660
11
Lee G., Choo S., Kim K., Joung J. (2021), Analysis of Factors Affecting Perceived Risk of COVID-19 Infection in Public Transportation, J. Korean Soc. Transp., 39(5), Korean Society of Transportation, 643-661. 10.7470/jkst.2021.39.5.643
12
Lee J., Liu H., Abdel-Aty M. (2023), Changes in Traffic Crash Patterns: Before and After the Outbreak of COVID-19 in Florida, Accident Analysis & Prevention, 190, Elsevier, 107187. 10.1016/j.aap.2023.10718737364361PMC10284453
13
Li J., Zhao Z. (2022), Impact of COVID-19 Travel-restriction Policies on Road Traffic Accident Patterns with Emphasis on Cyclists: A Case Study of New York City, Accident Analysis & Prevention, 167, Elsevier, 106586. 10.1016/j.aap.2022.10658635131653PMC8806026
14
Roche F. (2021), Assessing Subjective Criticality of Take-over Situations: Validation of Two Rating Scales, Accident Analysis & Prevention, 159, Elsevier, 106216. 10.1016/j.aap.2021.10621634144226
15
Patwary A. L., Khattak A. J. (2023), Crash Harm before and during the COVID-19 Pandemic: Evidence for Spatial Heterogeneity in Tennessee, Accident Analysis & Prevention, 183, Elsevier, 106988. 10.1016/j.aap.2023.10698836724654PMC9874053
16
Sekadakis M., Katrakazas C., Michelaraki E., Kehagia F., Yannis G. (2021), Analysis of the Impact of COVID-19 on Collisions, Fatalities and Injuries using Time Series Forecasting: The Case of Greece, Accident Analysis & Prevention, 162, Elsevier, 106391. 10.1016/j.aap.2021.10639134525414PMC8426576
17
Shin S., Choo S. (2022), Exploring the Influencing Factors on Change in Useof Sharing Mobility by the COVID-19 Pandemic: Focused on Residents in New Towns, J. Korean Soc. Transp., 40(2), Korean Society of Transportation, 230-244. 10.7470/jkst.2022.40.2.230
18
Vilone G., Longo L. (2021), Notions of Explainability and Evaluation Approaches for Explainable Artificial Intelligence, Information Fusion, 76, Elsevier, 89-106. 10.1016/j.inffus.2021.05.009
19
Won M., Jang D., Kim J., Choi J. (2021), Transport Policies Through Impact Analysis of Social Distancing Measures Responding to COVID-19 Pandemic, Korea Transport Institute General Research.
20
Xie W., Wang J., Ragland D. R. (2016), Utilizing the Eigenvectors of Freeway Loop Data Spatiotemporal Schematic for Real Time Crash Prediction, Accident Analysis & Prevention, 94, Elsevier, 59-64. 10.1016/j.aap.2016.05.01327258946
페이지 상단으로 이동하기