Article

Journal of Korean Society of Transportation. 30 June 2022. 358-379
https://doi.org/10.7470/jkst.2022.40.3.358

ABSTRACT


MAIN

  • 서론

  • 기존 문헌고찰

  •   1. 이륜차 사고 요인 분석

  •   2. 음식배달 수요와 이륜차 사고의 관계

  •   3. 기존 연구와의 차별성

  • 분석자료 및 기초분석

  •   1. 데이터 큐브 모델 기반의 다차원 이륜차 사고 요인 분석 시스템

  •   2. 데이터 수집 및 전처리

  •   3. 다차원 데이터 분석 기법

  • 실험 및 연구결과

  •   1. 실험 설계

  •   2. 시나리오 I : 이륜차 사고 비율과 토지이용 간의 관계 분석 결과

  •   3. 시나리오 II : 이륜차 사고 횟수와 잠재적 배달수요 변수 사이의 관계 분석 결과

  •   4. 음이항 회귀분석을 활용한 요인 분석결과

  • 결론 및 연구의 시사점

서론

교통사고는 전 세계적인 사회적 문제로 대두되었으며(Eun, 2020), 이로 인해 매년 약 120만 명이 사망하고, 약 5,000만 명 이상이 상해를 입는다는 연구 결과가 보고되었다(Peden, 2005; Noh and Yeo, 2021). 최근 ICT(Information Communication Technology) 등의 기술 발전과 교통사고 분야로의 적용 및 융합을 통해 교통사고의 전반적인 수치는 감소하는 추세에 있다(Hong and Gang, 2013; Nyamawe et al., 2014; Ekwonwune et al., 2018). 그러나, 교통사고의 유형을 자세히 조망해보면, 일반 차량의 교통사고 및 보행자 교통사고의 추세와는 상이하게 국내 ‧ 외적으로 이륜차와 관련된 사고의 비율은 최근 5년간 증가하는 경향을 보이고 있다(Jiang et al., 2020). 통계적으로 살펴보면, 교통사고 분석시스템(Traffic Accident Analysis System, TAAS)에 따르면, 국내에서도 지난 5년간 이륜차 사고는 약 46% 증가하는 등 이륜차 안전 문제가 심각한 사회적 이슈로 떠오르고 있다. 그 원인 중 하나로써, 최근 음식배달 서비스 시장과 공유 모빌리티 서비스 등과 같은 이륜차를 매개로 하는 온-오프라인(Online-to-Offline, O2O) 모빌리티 서비스의 성장이 대두되어 지고 있다. 배달을 이용한 외식업문화가 대중화 되고, 모바일 배달앱의 개발과 COVID-19(Coronavirus disease-2019)로 인해 배달 수요가 급증하고 있으며, 음식 배달과 사고증가의 연관성을 명시하고 있다(Lim et al., 2021). 음식배달과 같은 O2O 서비스는 배달시간 조건 등의 수요 충족을 위해 주로 이륜차를 사용한다는 배경이 존재하며, 이륜차 사용자의 위험 운전 등이 이륜차 사고의 증가로 이어진다는 분석 결과가 존재한다(Kwak and Cho, 2020). 삼성교통안전문화연구소에 따르면, 배달용 이륜차 교통사고율은 2015년 2,168건에서 2019년 6,498건으로 연평균 31.6% 증가하고 있으며, 특히 2019년도 사고율은 201.6%로 개인/업무용 이륜차 사고율인 6.6% 대비 약 31배 높은 심각한 수준을 나타내고 있음을 명시하고 있다(Samsung Traffic Safety Research Institute, 2021). 또한 배달 서비스 수요가 늘어나면서 이륜자동차 교통사고 사망자가 지난해 같은 기간에 비해 약 12% 증가한 것으로 나타나고 있어 배달 이륜자동차에 초점을 맞춰 체계적인 관리가 필요한 상황이다(Lee, 2020).

최근 이륜차 관련 연구에 따르면 지자체별 이륜차 사고건수와 사망자 구성비 혹은 시간대와 치사율 등 기본 사고 분석을 바탕으로 정책을 제안하거나(Yu et al., 2020), 이륜차 교통사고 자료를 활용하여 사고 심각도에 대한 영향인자를 신호위반, 운전자 연령, 중앙선 침범 유무, 이륜차 단독 사고 등의 교통학적 변수들만을 활용한 분석이 주로 이루어지고 있다. 그러나, 현재 증가하고 있는 이륜차 사고의 원인을 식별하고, 이를 심도있게 분석하여 이륜차 사고 예방 및 대책 수립을 지원할 수 있는 시스템은 미비한 실정이다. 따라서, 이륜차 사고의 원인을 구체적으로 식별하고, 이륜차 사고의 체계적인 사고 분석 및 대응 시스템의 개발과 적용을 통한 실효성 있는 이륜차 사고의 예방을 위한 전략 수립이 반드시 필요하다. 본 연구에서는 이륜차 사고 요인의 공학적인 분석을 취하여, 이륜차 사고와 관련된 다양한 데이터를 기반으로 그 요인에 대한 다차원 분석을 수행하는 데이터 큐브 모델 기반의 분석시스템(Factor Analytic System for Two-wheeler Accidents, FASTA)을 제안한다. 본 연구에서는 배달 수요가 실제로 이륜차 사고에 영향을 미친다고 가정하며, 잠재적 음식배달 수요와 관련된 변수들과 이륜차 사고간의 관계를 파악하고, 이를 공학적으로 분석하는 것을 그 목적으로 한다. 이러한 목적 달성을 위하여 실제 이륜차 사고 정보와 더불어 잠재적 음식배달 수요와 연관이 있는 토지이용 비율, 음식점 수 등과 같은 도시환경정보를 활용한다. 제안하는 다차원 요인 분석의 핵심 방법론으로써, 이륜차 사고 요인에 대한 다차원 분석 수행이 가능한 데이터 큐브 모델 및 OLAP(On-Line Analytic Process) 기법을 활용하며, 이를 통해 도시환경정보 등을 반영한 이륜차 사고 요인에 대해 다양한 관점에서의 정성적 분석을 수행할 수 있다. 또한, 음이항 회귀분석 기법(Negative Binomial Regression, NBR)과 같은 데이터 마이닝 기법을 활용하여 이륜차 사고 요인에 대한 정량적인 정보를 제공할 수 있으며, 이러한 분석결과를 바탕으로 의사 결정자(안전 관리자 및 정책 결정자 등)에게 이륜차 사고와 관련된 유의미한 정보를 제공하여, 효율적이고 실효성 있는 의사결정을 지원할 수 있도록 한다.

기존 문헌고찰

본 장에서는 이륜차 사고의 예방을 위한 다양한 연구들 중에서도 이륜차 사고에 대한 주요 원인을 식별하고 분석하는 연구에 대해 소개한다. 이륜차 사고는 그 특성상 발생 시 높은 확률로 인명피해로 이어지기에 반드시 해결해야 할 과제 중 하나이며, 최근에는 ICT 기반의 이륜차 과속 단속 및 모니터링, 주행환경 등의 도시환경에 따른 이륜차 사고 및 패턴 분석 등과 같은 공학적 접근 방법과 더불어, O2O기반 모빌리티 서비스에 대한 수요 증가를 사회 ‧ 경제적 측면에서 분석한 다수의 연구결과들도 발견된다(Law et al., 2009; Kim et al., 2016; Kumar and Toshniwal, 2017; Kim and Kim, 2019; Song, 2019; Hu et al., 2020; Klanjčić et al., 2021; Lim et al., 2021). 본 연구의 목적을 고려하여 선행 연구들 중 본 논문의 주제와 그 목적이 유사한 연구들을 중심으로 조사하였다.

1. 이륜차 사고 요인 분석

이륜차 사고의 요인과 심각성에 대해 분석한 연구로써, Hu et al.(2020)은 연령, 성별, 도로 상태 및 부상 심각도와 같은 다양한 요인들을 포함한 위험요인 분석 모델을 제안하였고, 차량-이륜차 간의 충돌을 분석하였다. 마찬가지로, Kumar and Toshniwal(2017)은 의사 결정 트리, 나이브 베이즈(Naive Bayes) 기법, 서포트 벡터 머신(Support Vector Machine, SVM) 등과 같은 다양한 데이터 마이닝 기법을 활용하여 이륜차 사고의 심각성에 영향을 미치는 요인과 패턴을 발견하였다. Klanjčić et al.(2021)은 유럽 내 도시를 대상으로 도시 전체에 걸친 사고 데이터 분석을 통해 이륜차 사고에 취약한 도로 요인과 보행자 안전에 영향을 미치는 도시적 특징들을 식별하였다. 마지막으로, Law et al.(2009)은 음이항 회귀 모델을 사용하여 도로 안전 규제와 의료 및 기술 발전, 정치적 수준 향상 등이 이륜차의 사망자 수 감소에 기여할 수 있음을 규명한 연구이다.

2. 음식배달 수요와 이륜차 사고의 관계

본 연구에서 조망하고자 하는 요인 중 하나인 음식배달 수요와 이륜차 사고의 관계를 규명한 연구는 다음과 같다. 먼저, Lim et al.(2021)은 배달 서비스 관련 이륜차 사고의 특성과 관련하여 신호위반과 과속의 비중이 다른 교통수단에 비해 높게 나타나고 있음을 제시하였다. 이는 배달이라는 주행환경 특성과 관련이 있으며 특히 배달 주문의 증가와 배달시간의 단축을 원하는 소비자의 요구로 인해 위험한 주행행태가 증가하면서 사고 건수도 함께 증가되고 있다고 판단하였다. Song(2019)에서는 청년층과 1인 가구가 특히 식행동에 있어서 다른 특성을 보이고 있으며, 특히 배달음식을 선호하는 경향을 보이고 있어 외식 배달 서비스 시장을 더욱 발전시키고 있다고 분석하였다. 음식업 배달서비스는 1인 가구 증가 등으로 인한 수요 확장이 나타나고 있다고 입증하고 있으며(Jeong, 2016), 2030 세대의 식생활에 대한 요인과 외식업체 서비스를 분석한 결과, ‘배달 서비스와 포장’의 주 이용층이 청년층 1인 가구라고 제시하였다(Park and Nah, 2015). 따라서, 음식배달 수요에 기반한 이륜차 사고 분석 시 청년층의 비율, 1인 가구의 분포 등과 같은 변수를 함께 추가하여 다양한 사회적 요인으로 고려할 필요가 있다.

3. 기존 연구와의 차별성

이륜차 사고에 영향을 미치는 요인분석 관련 선행연구 검토 결과, 연령, 성별, 도로상태 등의 변수들을 활용하여 분석한 논문은 있지만, 이륜차의 사고 요인을 다양한 관점에서 규명하는 연구는 미비한 실정이다. 또한, 최근 이륜차 사고 발생에 직접적인 영향을 미치는 음식배달 서비스 수요와 관련된 변수들을 반영한 연구는 거의 수행되지 않고 있다. 따라서, 본 연구에서는 이륜차 사고 횟수, 청년 비율, 가구 형태, 음식점 수와 같은 도시환경정보를 활용하여, 이러한 사회적 관점을 반영한 분석을 수행하고자 한다. 이를 위해 다양한 관점에서의 데이터 분석에 용이한 데이터 큐브 모델을 설계 ‧ 구축하여 이륜차 사고를 정성적으로 분석하고, 도시 척도에서의 거시적인 이륜차 사고 패턴과 정보를 얻고자 한다. 이와 동시에 데이터 마이닝 분석을 통해 이륜차 사고와 사고에 영향을 미치는 주요 요인들간의 관계를 정량적으로 검증하고자 한다. 본 연구에서 제안하는 시스템은 사용자가 적절하게 차원을 조절해 나가며 다차원적 측면에서 데이터를 탐색할 수 있으며, 이를 통해 기존의 데이터 분석 방법에서 발견할 수 없었던 의미 있는 정보를 발견하고 의사결정에 활용할 수 있다는 장점이 있다. 아직까지 데이터 큐브 모델을 활용한 방법을 이륜차 사고 분석에 적용한 선례가 없으며, 본 연구에서 제안하는 시스템이 다차원적인 이륜차 사고요인 분석에 선구적인 역할을 할 것으로 기대된다.

분석자료 및 기초분석

1. 데이터 큐브 모델 기반의 다차원 이륜차 사고 요인 분석 시스템

본 논문에서 제안하는 데이터 큐브 모델 기반의 다차원 이륜차 사고 요인 분석 시스템(FASTA)은 Figure 1과 같다. 먼저, 데이터 수집과 전처리부에서는 분석에 필요한 다양한 데이터들을 가공하고, 데이터 큐브 구성을 위해 통합 데이터 스토리지 역할을 하는 데이터 웨어하우스를 구축한다. 이렇게 구축된 데이터 웨어하우스로부터 데이터 큐브를 구성하고 OLAP 연산을 통해 이륜차 사고의 요인에 대해 다차원적이고 종합적인 분석을 수행하고, 음이항 회귀 모델 등과 같은 데이터 마이닝 기법을 활용하여 핵심 이륜차 사고 요인을 정량적으로 도출한다.

2. 데이터 수집 및 전처리

본 절에서는 연구에서 활용된 데이터의 종류 및 그 전처리 방법에 대해 서술한다. 본 연구에서는 교통사고분석시스템(TAAS), 국가통계포털(KOrean Statistical Information Service, KOSIS), 대한민국 식품의약품안전처(Ministry of Food and Drug Safety, MFDS)로부터 데이터를 수집 및 가공하여 분석에 활용하였다. 수집기간은 2017년부터 2019년까지이며, 지역적 분석의 용이성을 위해 행정 구역을 바탕으로 특 ‧ 광역시 ‧ 도, 시 ‧ 군 ‧ 구, 동 별로 세분화하여 집계하였다. 또한, 교통통계, 인구통계, 지역 및 사회 문화적 특성과 같은 변수들이 활용되었으며, 데이터 큐브 구성을 위해 본 데이터를 단계적으로 재구성 하였다. 특히 본 연구에서는 선행연구 결과들을 바탕으로, 이륜차를 이용한 음식배달 서비스의 성장이 이륜차 사고의 증가를 야기시킬 것이라고 가정하였고, 기존 연구에서는 반영되지 않았던 음식배달 서비스 수요와 관련된 변수들을 활용하여 이륜차 사고와 음식배달 서비스 수요와의 관계도 함께 파악하고자 하였다. 이륜차가 음식배달 뿐만 아니라 개인 이동수단 등 다양한 측면으로 사용될 수 있지만, 교통사고통계 특성상 사고당사자 세부분류 단계에서 배달용 이륜차를 따로 추출할 수 없기 때문에 모든 이륜차를 대상으로 분석하였다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F1.jpg
Figure 1.

The overall concept of FASTA

각 변수들은 공통된 특성에 따라 주요 범주로 분류되어 진다. 교통 특성 범주는 도로길이, 이륜차 비율, 등록된 총 차량수 등 이륜차 사고에 간접적으로 영향을 미칠 가능성이 있는 교통 관련 요소들을 포함하며, 토지이용 특성 범주는 크게 주거지역, 상업지역, 공업지역, 녹지지역의 비율을 포괄하고 각 지역의 특성과 용도 등에 따라 한번 더 세분화 된다. 잠재적 배달수요 특성 변수는 배달 서비스 수요에 직 ‧ 간접적인 영향을 미쳐 이륜차 사고 증가로 이어질 가능성이 높은 변수들을 다룬다. 선행연구에서 음식배달 서비스의 주요 소비층으로 분석된 1인 가구의 수와 청년층 비율에 대한 정보를 포함하고 있으며, 청년층 비율의 경우 범주의 특성을 고려하여 인구통계특성 범주로 포함시켰다. 인구통계특성 변수에는 연령 및 지역별 인구조사 정보가 포함되어있다. 본 연구에서 사용된 데이터와 설명은 Table 1, Table 2에서 다시 한번 정리한다.

Table 1.

Descriptions of the data sources and categories

Data sources Main category Variables
Traffic Accidents Analysis System (TAAS) Transportation Road length, Two-wheeled ratio,
Total vehicle, etc.
Korean Statistical Information Service (KOSIS) Transportation
Demography
Land use
Potential delivery demand
Population, Rural population,
Urban population, Young adult ratio,
Elderly ratio, Single-person household,
Residential area, Commercial area,
Industry area, Green area, etc.
Ministry of Food and Drug Safety (MFDS) Potential delivery demand The number of restaurants
Table 2.

The classification of features and description in our experiments

Classification Feature name Description Unit
Transportation
characteristics
Road length The length of the road in an area Meter (m)
Total vehicle Number of all vehicles registered in an area Count (vehicle)
Two-wheeled
vehicle
Percentage of registered two-wheelers in an area
Including two-wheelers, motorcycles, etc.
(not including personal mobility (PM) or bicycles)
Definition: number of two-wheelers / total vehicles
Ratio (%)
Two-wheeled
accident ratio
Two-wheeler accidents ratio to population
Definition: two-wheeler accidents / region total population
Ratio (%)
Land use
characteristics
Residential
area
Percentage of residential areas
Details: Including dedicated residential areas, general residential areas, and
semi-residential areas
Definition: residential area / total area
Ratio (%)
Commercial
area
Percentage of commercial areas
Details: Including central commercial areas, general commercial areas,
neighborhood commercial areas, and distribution commercial areas
Definition: commercial area / total area
Ratio (%)
Industry area Percentage of industrial areas
Details: Including dedicated industrial areas, general industrial areas, and
semi-industrial areas
Definition: industrial area / total area
Ratio (%)
Green area Percentage of green areas
Details: Including conservation green areas, production green areas, and
natural green areas
Definition: green area / total area
Ratio (%)
Potential
delivery
demand
characteristics
Restaurants Number of restaurants in one area Count (restaurant)
Single person
household
Single person households in one area Count (household)
Demography
characteristics
Young adult
population
The proportion of young people in an area
19 to 34 years of age
(in accordance with the ‘Youth Basic Act’ regulations)
Definition: population 19 to 34 years of age / total population in an area
Ratio (%)
Elderly
population
The proportion of the elderly population in an area
Over 65 years of age
Definition: population over 65 years of age / total population in area
Ratio (%)
Rural
population
Percentage of population living in non-urban areas
Definition: non-urban population / total population
Ratio (%)
Urban
population
Percentage of population living in urban areas
Land of use criteria
Definition: urban population / total population
Ratio (%)

다음으로, 데이터 전처리 과정에서는 데이터의 기초통계 분석(Table 3 참조), 오류데이터 제거, 변수 타입 변환 등을 수행한다. 특히, 결측값 등과 같은 유효하지 않은 데이터를 제거하여 분석 모델의 설명력을 향상시킨다. 우선 데이터큐브 모델은 정성적인 분석 과정으로서, 데이터의 형식을 모두 범주형 데이터(categorical data)로 만드는 작업이 필요하다. 따라서 데이터 카테고리화 및 재그룹화를 통해 제안하는 데이터 큐브 모델의 구성에 용이하도록 전처리를 수행하였다. Figure 2는 사용되는 변수 중 하나인 “음식점 수”에 대한 카테고리화 과정을 예시 중의 하나로서 보여준다. 그룹화하는데 사용한 기준인 사분위수(Quantile)는 데이터 표본을 4개의 동일한 간격으로 나눈 값으로, 사분위수를 통해 주어진 데이터의 범위와 분포를 비교적 균질성있게 평가할 수 있기에 본 연구에서는 사분위수를 기준으로 나누어 그룹화 하였다. 음식점 수 경우 역시 연속형 데이터 이므로 사분위수 범위를 기준으로 총 4개의 그룹으로 카테고리화 하여 범주형 데이터로 변환한 뒤 분석에 활용하는 것이 데이터 큐브 모델에서 패턴을 찾는다. 음이항 회귀분석을 위한 전처리 과정에서는 상관관계 분석을 통해 상관성이 높은 변수(상관계수 0.7 이상)들은 제외하고, 여러 번의 모형 시뮬레이션을 통해 독립변수의 영향력을 살펴보고 Voung test를 통한 모형 검증 등을 수행하였다. 또한 본 연구에서는 모든 데이터셋의 numerical value 범위의 차이를 왜곡하지 않고 공통 척도로 변경하기 위해 min-max scaling을 사용하여 모든 특징값이 [0,1] 범위에 위치하도록 정규화하였다.

Table 3.

The descriptive statistics of data

Classification Feature name Min 1st Qu. Median Mean 3rd Qu Max.
Transportation
characteristics
Road length 55,276 311,715 410,852 486,087 579,672 2,230,195
Total vehicle 26,817 132,593 310,940 437,833 588,030 2,330,550
Two-wheeled vehicle 1.209 3.583 4.931 5,650 7.310 17.063
Two-wheeled accident ratio 0.0000333 0.0002487 0.0003558 0.0003866 0.0004766 0.0015239
Land use
characteristics
Residential area 0.12 11.79 16.66 21.87 24.33 91.50
Commercial area 0.000 1.290 1.920 3.081 3.170 44.240
Industry area 0.000 0.910 4.040 6.836 9.150 51.380
Green area 0.00 54.53 70.81 64.76 80.49 92.82
Potential delivery
demand characteristics
Restaurants 219 833 2,336 2,859 4,117 15,039
Single person household 1,661 7,712 17,685 26,845 39,078 137,355
Demography
characteristics
Young adult population 0.1026 0.1395 0.1831 0.1784 0.2110 0.3212
Elderly population 7.30 13.40 17.80 20.08 26.40 38.90
Rural population 0.00 0.00 14.30 25.28 48.70 93.90
Urban population 6.10 51.30 85.70 74.72 100.00 100.00

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F2.jpg
Figure 2.

Boxplot for the number of restaurants by city and district

3. 다차원 데이터 분석 기법

본 절에서는 이륜차 사고의 다차원적 분석을 위하여 데이터 큐브 모델과 OLAP 기법, 그리고 데이터 마이닝 방법론 중 하나인 음이항 회귀분석 기법에 대하여 서술한다.

1) 데이터 큐브 모델의 구성

데이터 큐브 모델은 주어진 데이터를 다양한 차원으로 모델링하여 데이터를 조망할 수 있으며, 본 논문에서는 이를 활용하여 이륜차 사고 요인 분석을 수행하고자 한다. 데이터 큐브의 구성을 위하여, 가장 보편적인 다차원 모델링 기법 중 하나인 스타 스키마(star schema)를 활용한다(Figure 3 참조). 스타 스키마는 차원(dimension) 테이블과 사실(fact) 테이블로 구성되어 있으며, 일반적으로, 차원은 사용자가 관찰하고자 하는 관점이나 실체(entities)이다. 사실 테이블은 각 차원 테이블의 키(key)와 측정값(measurement)을 포함한다. 본 연구에서는 시간, 위치, 토지이용, 교통, 인구통계, 잠재적 배달수요 라는 6개의 차원 테이블을 정의하고, 이륜차 사고 횟수, 이륜차 사고 비율을 측정값으로 활용하여 이륜차 사고의 요인을 다양한 관점에서 조망하고자 한다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F3.jpg
Figure 3.

Star schema of data cube model in FASTA

2) 개념 계층 및 OLAP 연산

데이터 큐브를 활용한 다차원 분석의 수행을 위해서, 주어진 데이터를 추상화 수준으로 표현할 수 있는 개념 계층도(concept hierarchy)를 구성한다. 개념계층도는 차원 테이블에서의 하위 개념 집합으로부터 보다 상위의 일반적인 개념들로 사상의 연속(a sequence of mapping)을 의미한다(Schymik et al., 2007; Dogan and Brown, 2014). 이러한 개념계층은 관리자의 분석 목적에 따라 추상화 정도를 조절함으로써, 다차원적 분석을 수행하는데 활용된다(Dogan and Brown, 2014). 일반적으로 개념 계층도는 계층적 트리 구조의 형태를 가지며, 본 연구에서는 앞서 정의한 각 차원 테이블의 개념 계층도를 구성하였다(Figure 4 참조). 시간 차원의 부분적 순서는 일, 주, 월, 분기 및 연도로 구성되어 있고, ‘일(day) < {월(month) < 분기(quarter); 주(week)} < 년(year)’의 위계를 가진다(Figure 4(a) 참조). 토지 이용의 개념 계층은 주요 토지이용의 최상위 단계인 주거형, 상업형, 공업형, 녹지형(residential, commercial, industrial, green) 등의 ‘general type’과 최하위 단계인 ‘minor type’으로 구성된다. 예를 들어 ‘주거(Residential)’의 토지이용에는 전용주거(dedicated residential), 일반주거(general residential), 준주거(semi-residential) 등 크게 3개의 하위단계가 포함되며 전용주거 하위단에는 1종(type 1), 2종(type 2) 등이 포함된다. 위치, 교통, 잠재적 배달 수요, 인구 통계 변수와 같은 다른 개념 계층도 유사하게 묘사된다. 다양한 개념 계층은 사용자가 다양한 관점에서 데이터를 유연하게 이해하는 데 도움이 될 수 있다(Noh and Yeo, 2021). 또한, 이를 통해 확장 가능한 분석 시스템을 설계하고 사용자에게 친숙한 환경을 제공할 수 있는 OLAP 연산으로 다차원 및 대화형 쿼리를 수행할 수 있다(Duo et al., 2009; Eavis et al., 2010; Lee et al., 2010; Noh et al., 2017).

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F4.jpg
Figure 4.

Concept hierarchis of data cube: (a) time; (b) location; (c) transportation; (d) land use; (e) potential delivery; (f) demo graphy dimensions

한편, OLAP를 활용하여 방대한 양의 데이터를 관리할 수 있으며, 흩어진 데이터들의 집계(aggregation)과 요약(summerazation)을 위한 도구로서의 역할을 수행한다. 이를 위해, OLAP 연산을 활용할 수 있으며, 그 예로써, 롤업(roll-up), 드릴다운(drill-down), 슬라이스(slice), 다이스(dice) 등이 존재한다. OLAP 연산에 대해 자세히 살펴보면, 먼저, 롤업 연산은 대상 차원(관리자가 선택한 차원)에 대한 개념계층에 따라 데이터 큐브 내 데이터의 추상화 정도를 확장하거나, 차원 축소를 통해 데이터의 일반화(generalization)를 수행하는 연산이다. 반면, 드릴다운 연산은 롤업의 반대 개념으로써, 대상 차원의 정보를 더욱 상세히 제공하는 구체화(specialization) 연산 중 하나이다. 슬라이스 연산은 주어진 데이터 큐브에서 한 차원을 선택하여 부분적인 큐브(sub-cube)를 만드는 연산이며, 다이스 연산은 2개 이상의 차원을 선택하여 부분적인 큐브를 만드는데 활용되는 연산이다. 이러한 OLAP 연산을 통해 본 시스템의 사용자는 적절하게 차원을 조절해 나가며 다차원적 측면에서 데이터를 탐색할 수 있다는 장점이 있으며, 이를 통해 기존의 데이터 분석 방법에서 발견할 수 없었던 의미 있는 정보를 발견하고 의사결정에 활용할 수 있다. 앞서 서술한 OLAP 연산에 대한 과정 예시는 Figure 5와 같다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F5.jpg
Figure 5.

The process of OLAP operation

정리하자면, 본 논문에서는 데이터 큐브 모델을 활용한 다차원 분석 수행을 위해 연구에 적합한 개념 계층도를 구성하여 다양한 차원에서 데이터를 조망하였으며, 시간, 위치, 토지이용, 교통, 인구통계, 잠재적 배달수요라는 총 6개의 차원 테이블을 활용하여 각 차원과 측정값인 이륜차 사고 횟수, 이륜차 사고 비율과의 관계를 정성적으로 분석하였다. 그 중에서도 본 연구에서 가장 중점적으로 살펴보고 싶은 토지이용차원과 이륜차 사고 비율, 잠재적 배달수요와 이륜차 사고 횟수와의 관계를 분석한 시나리오를 제시한다.

3) 이륜차 사고 요인 분석을 위한 음이항 회귀분석 모델

본 연구에서는 이륜차 사고에 영향을 미치는 요인을 정량적으로 분석하기 위해 데이터 마이닝 기법을 채택하여, 데이터 큐브 모델을 통해 얻은 정성적인 단서들을 기반으로 한 정량적인 분석을 진행한다. 분석에 앞서 이륜차 사고의 총 사고 횟수 분포를 살펴보면(Figure 6 참조), 사고(실험에서 종속 변수)는 희귀 사건이고, 음의 값이 아니며 가산이 가능한 변수라는 사실을 파악할 수 있다. 이러한 특성을 가진 데이터를 설명하기 위해 주로 Poisson 회귀분석 또는 음이항 회귀분석 모델이 자주 사용된다(Poch and Mannering, 1996; Liu et al., 2005; Saccomanno et al., 2001; Kośmicki and Pieńkowski, 2013; He et al., 2021; Sun et al., 2021). 하지만 Poisson 분포는 평균과 분산이 같다는 강력한 가정을 가지고 있기 때문에 과대 산포의 문제가 발생할 수 있다(Liu et al., 2005). 본 실험에서 데이터를 적합 시켜 확인해 본 결과 회귀 계수 추정치의 표준 오차가 편향되는 과대 산포의 문제가 발생하였기 때문에 음이항 회귀 모델을 채택한다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F6.jpg
Figure 6.

Total number of two-wheeler accidents by city and district (2017-2019)

음이항 분포는 평균과 분산이 동일한 Poisson 분포를 보완하는 Poisson-gamma 분포를 기반으로 한다. 평균 파라미터 μi>0와 과대산포 파라미터 𝛼>0으로 가정하며, 이는 NB(μi,α)로 표시된다. 평균은 μi이고, 분산은 μi+αμi2가 되며, Equation 1과 같은 확률 질량 함수를 산출한다.

(1)
Pr(Y=yi|μi,α)=Γ(yi+α-1)Γ(yi+1)Γ(α-1)(αμi+1)-α-1αμiαμi+1yi

더하여 회귀 모델을 평가하기 위해 AIC(Akaike’s Information Criteria)를 사용한다. AIC는 자유 파라미터의 수 K와 최대우도(Maximum log-likelihood)로 구성되어 있고, Equation 2와 같이 정의한다(Banks and Joyner, 2017).

(2)
AIC=-2ML+2K

보통 AIC값이 작을수록 모형이 우수하다고 볼 수 있다(Hadi et al., 1995).

정리하자면, 최적의 회귀 모델 채택을 위해 Poisson 회귀분석과 음이항 회귀분석의 결과를 함께 비교하였으며 본 연구와 더 적합하다고 도출된 음이항 회귀분석을 적용한다. 일반적으로 회귀 모형 분석은 종속변수와 다른 변수들 사이의 관계를 이해하는 데 도움이 된다. 따라서 본 연구에서는 데이터 큐브 모델을 통해 얻은 정성적인 결과를 정량적으로 뒷받침하기 위해 이륜차 사고 횟수를 종속변수로, 도로 길이, 주거 ‧ 상업지역 비율, 1인 가구, 음식점 수, 청년, 노인, 농촌인구 비율을 독립 변수로 설정하여 이륜차 사고와 각 요인들간의 관계를 정량적으로 분석한다.

실험 및 연구결과

1. 실험 설계

본 절에서는 수집된 데이터를 활용하여 분석을 수행하고 데이터의 흐름을 파악하고자 한다. Figure 7은 이륜차 1만대 당 이륜차 사고수와 국내 음식배달 서비스 시장규모의 추세를 나타낸다. 2015년부터 2019년까지의 연도별 이륜차 사고율을 살펴보면, 국내 이륜차 사고율은 매년 증가하고 있으며 특히 음식배달 서비스 시장규모의 성장패턴과 유사하게 증가하고 있다. 본 연구에서는 이러한 이륜차 사고의 증가가 국내 음식배달 서비스 수요와 연관이 있을 것으로 예상한다. 또한 추가적으로 지역별 이륜차 사고 수의 차이를 파악하기 위해 지리정보시스템(GIS)을 활용하여 시 ‧ 군 ‧ 구별 인구 당 이륜차 사고수를 분석한다(Figure 8 참조). 그 결과 전남 강경군과 대구 중구가 인구수 대비 이륜차 사고가 가장 많고, 충남 계룡시와 강원 정선군이 가장 적은 것으로 나타났으며 이를 통해 지역간 이륜차 사고율의 차이를 파악할 수 있다. 그러나 비도시지역의 이륜차 이용빈도 자체가 낮기 때문에 영향력을 쉽게 추정할 수 없다는 한계가 있다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F7.jpg
Figure 7.

The number of two-wheeler accidents per 10,000 units and the trend of food delivery service market size (2015-2019)

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F8.jpg
Figure 8.

Two-wheeler accidents by population in Republic of Korea

본 연구에서는 심도 있는 분석을 위해 다차원 분석을 수행하여 이륜차 사고와 이륜차 사고에 영향을 미치는 다양한 요인들간의 관계를 깊이 있게 이해하고자 한다. OLAP 연산을 이용한 다차원 분석은 시각에 따라 데이터를 탐색하고 설명하는 정성적인 분석 방법이며, 사고에 대한 유의미한 정보를 제공해 준다. 이후에는 분석된 결과를 바탕으로 데이터 마이닝 기술 중 하나인 음이항 회귀분석을 수행하여 정량적인 검증을 한다. 본 연구에서는 이륜차 사고 비율과 토지이용 간의 관계 분석, 이륜차 사고 건수와 잠재적 배달수요 간의 관계 분석, 크게 두 가지의 분석 시나리오를 예시로서 채택한다. 시나리오 분석 이후 음이항 회귀 분석을 통해 시나리오 기반의 결과를 정량적으로 분석한다.

2. 시나리오 I : 이륜차 사고 비율과 토지이용 간의 관계 분석 결과

본 절에서는 토지이용 비율에 따른 이륜차 사고 비율을 분석하였다. 먼저 Figure 9는 2017년부터 2019년까지 광역시 ‧ 도별 인구 당 이륜차 사고 비율을 나타내고 있으며, 다음의 OLAP 연산 과정을 통해 얻어진다.

Drill-down on time (from “all” to “year”)

Drill-down on location (from “all” to “metro_province”)

Dice for (measure = “two-wheeler accident ratio”) and

(time= [“2017” | “2018” | “2019”] in year) and

(location = “all” in metro_province) and

(transportation = “all”) and

(land use = “all”) and

(potential delivery = “all”) and

(demography = “all”)

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F9.jpg
Figure 9.

Two-wheeler accidents ratio to population by metropolitan city and province (2017-2019)

전반적으로 해마다 이륜차 사고 비율이 급증하고 있으며, 특히 대부분의 지역에서 2019년도에 높은 사고율을 기록하고 있다. 지역별로는 대구(광역시)가 이륜차 사고 비율이 0.00073으로 가장 높았고, 인천(광역시)이 0.00019로 가장 낮게 나타났다. 따라서 2019년도를 중심으로 대구와 인천의 이륜차 사고를 심층 분석하여 두 지역의 사고율의 차이를 유발하는 원인을 파악하고 비교하고자 한다. 심층적인 분석을 위해 앞선 결과에 이어서 OLAP 연산을 추가적으로 수행한다.

Drill-down on time (from “all” to “year”)

Drill-down on location (from “metro_province” to “city_district”)

Dice for (measure = “two-wheeler accident ratio”) and

(time= “2019” in year) and

(location = “all” in metro_province) and

(transportation = “all”) and

(land use = “all”) and

(potential delivery = “all”) and

(demography = “all”)

Slice on location (city_district = [“Daegu City” | “Incheon City”])

위의 OLAP 연산을 통해 얻어진 Figure 10은 지역적 차원에서 이륜차 사고 비율에 대한 더 자세한 결과를 보여준다. 대구에서는 중구, 인천에서는 동구가 각각 사고율이 0.00125, 0.0001로 가장 높고 낮았다는 것을 알 수 있다. 본 실험에서는 이륜차를 이용한 음식 배달이 주택가나 상업지역 근처에서 자주 이용되기 때문에 토지이용 특성이 이륜차 사고 비율에 영향을 미칠 수 있을 것이라고 가정했다. 실제로 두 도시의 토지 이용 비율은 확연히 다르게 나타났다. Figure 11Figure 12는 두 도시(대구, 인천)와 이들 도시들의 구별 토지 이용 비율을 각각의 유형별로 나타낸 것이다. 대구는 인천에 비해 주거지와 상업지역의 비율이 더 높았으며 이를 통해 주거지역과 상업지역의 비율이 이륜차 사고 비율과 양(+)의 관계를 맺고 있다는 사실을 유추할 수 있다. 반면 공업지역의 비율은 사고와 음(-)의 관계이며, 녹지지역의 비율은 사고와 큰 관계가 없는 것으로 보여진다. 이번 시나리오 분석 결과를 통해 의사결정자들은 상업지역과 주거지역에서 이륜차 사고비율이 높다는 정보를 얻을 수 있다. 이러한 결과는 도시 척도에서의 거시적인 이륜차 사고패턴 확인 및 집중 순찰 우선순위 대응지역 설정 등의 효율적인 의사결정에 적용될 수 있다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F10.jpg
Figure 10.

Two-wheeler accidents ratio to population by city and district (2019)

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F11.jpg
Figure 11.

Comparison of land use ratio in Daeju and Incheon

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F12.jpg
Figure 12.

Comparison of land use ratio in city and district: (a) residential ratio; (b) commercial ratio; (c) industrial ratio; and (d) green ratio

3. 시나리오 II : 이륜차 사고 횟수와 잠재적 배달수요 변수 사이의 관계 분석 결과

두 번째 시나리오에서는 이륜차 사고 횟수와 잠재적 배달수요 특성, 그 중에서도 특히 1인 가구와의 관계를 식별한다. 먼저 특 ‧ 광역시 ‧ 도별 이륜차 사고 건수를 OLAP 연산을 통해 다음과 같이 드릴다운(drill down)한다.

Drill-down on time (from “all” to “year”)

Drill-down on location (from “all” to “metro_province”)

Dice for (measure = “the number of two-wheeler accident”) and

(time= “2019” in year) and

(location = “all” in metro_province) and

(transportation = “all”) and

(land use = “all”) and

(potential delivery = “all”) and

(demography = “all”)

그 결과, Figure 13은 서울특별시와 경기도의 이륜차 사고 건수가 4,759건, 4,534건으로 다른 지역들에 비해 극명하게 높다는 사실을 보여준다. 이들 지역은 크게 수도권 지역으로 통칭할 수 있으며, 수도권 지역을 중심으로 이륜차 사고 횟수와 연관이 있을 것 같은 변수에 대한 차원을 조정할 수 있다. 특히 본 연구에서는, 1인 가구가 해마다 증가하고 있으며(Kim et al., 2018), 음식배달 서비스의 주요 소비자이기 때문에 이륜차 사고와 서로 관계가 있을 것으로 추정하였다(Jang et al., 2011; Roh and Park, 2019). 따라서 이륜차 사고 횟수와 가구 유형 간의 관계를 파악하기 위해 잠재적 배달 수요에 대한 차원을 조정하였으며, 아래의 OLAP 연산을 통해 서울과 경기도 두 지역의 1인 가구 그룹별 이륜차 사고 건수를 도출하였다.

Drill-down on time (from “all” to “year”)

Drill-down on location (from “all” to “metro_province”)

Drill-down on potential delivery (from “all” to “space sub-type”)

Dice for (measure = “the number of two-wheeler accident”) and

(time= “2019” in year) and

(location = “all” in metro_province) and

(transportation = “all”) and

(land use = “all”) and

(potential delivery = “single-person” in space type) and

(demography = “all”)

Slice on location (metro_province = [“Gyeonggi-do” | “Seoul Metropolitan City”])

Slice on potential delivery (space sub-type = [“HH-G1” | “HH-G2” | “HH-G3” | “HH-G4”])

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F13.jpg
Figure 13.

Number of two-wheeler accidents by Metropolitan City and Province

앞선 OLAP 연산에 대한 결과인 Figure 14는 수도권의 이륜차 사고 건수와 1인 가구 그룹 사이의 관계를 나타낸다. 데이터 전처리 단계에서 1인 가구 데이터는 사분위수에 따라 총 4개의 그룹으로 그룹화 되어졌다. HH-1 그룹은 1인 가구 비율이 적은 그룹을 의미하고 HH-4는 높은 그룹을 의미한다. 그 결과 1인 가구 비율이 높은 그룹에서 사고 건수가 증가하는 경향을 보였으며, 세부적으로 시 ‧ 군 ‧ 구 차원에서 이륜차 사고가 자주 발생한 지역을 조사하기 위해 다음의 OLAP 연산을 통해 가장 많은 사고 발생 건수를 포함한 위치 차원으로 HH-4 그룹을 구분했다.

Drill-down on time (from “all” to “year”)

Drill-down on location (from “metro_province” to “city_district”)

Drill-down on potential delivery (from “all” to “space sub-type”)

Dice for (measure = “the number of two-wheeler accident”) and

(time= “2019” in year) and

(location = “all” in city_district) and

(transportation = “all”) and

(land use = “all”) and

(potential delivery = “single-person” in space type) and

(demography = “all”)

Slice on location (metro_province = [“Gyeonggi-do” | “Seoul Metropolitan City”])

Slice on potential delivery (space sub-type = [“HH-G4”])

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F14.jpg
Figure 14.

Number of two-wheeler accidents by one person household group in capital area

그 결과로서, Figure 15는 경기도 수원시와 서울시 강남구가 각각 423건, 337건으로 사고 건수가 가장 많은 지역임을 보여준다. 또한 이들 지역이 HH-4 그룹에 포함된 다른 도시들의 평균 음식점 수에 비해 더 많은 식당 수를 가진다는 것을 알 수 있다(Figure 16 참조). 따라서 이륜차 사고는 1인 가구 수와 인근 음식점 수와도 관련이 있다고 예상 해볼 수 있다.

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F15.jpg
Figure 15.

The number of two-wheeler accidents in the area belonging to Group 4

https://static.apub.kr/journalsite/sites/kst/2022-040-03/N0210400307/images/kst_40_03_07_F16.jpg
Figure 16.

Comparison between the average number of restaurants in Group 4 and the number of restaurants in Suwon-si and Gangnam-gu

요약하자면, 두 번째 시나리오에서는 이륜차 사고가 가장 많이 발생한 두 지역에 대한 다차원 분석을 수행하였으며, 가구 유형이 1인 가구일 경우 이륜차 사고가 더 많이 발생하는 것을 확인하였다. 또한 그 중에서도 1인 가구의 비중이 높은 지역이 다른 지역들에 비해 평균 음식점 수가 많은 것으로 나타났고 이륜차 사고 건수 역시 많게 나타났다. 1인 가구는 가구 특성상 더 많은 음식배달 서비스를 이용하므로 이륜차의 사용을 증가시키는 요인이 되며, 이러한 요인들이 결국 이륜차 사용량과 사고 증가에 영향을 미치는 변수로 작용하였음을 추정할 수 있다.

4. 음이항 회귀분석을 활용한 요인 분석결과

본 절에서는 다차원 분석의 정량적인 결과로서 데이터 마이닝 기술 중 하나인 음이항 회귀 모델의 분석 결과를 설명한다. 최적의 회귀 모델을 선택하기 위해 Poisson 회귀 분석과 음이항 회귀 분석의 결과를 함께 비교하였으며, 평가 지표로는 AIC(Akaike Information Criteria)가 사용되었다. Table 4는 본 연구에서 사용된 변수와 변수의 범주를 제시하고 있으며, Poisson 회귀 모형과 음이항 회귀 모형에 대한 결과를 함께 나타낸다. 일반적으로 AIC 값이 작을수록 더 나은 모형이며, 검정 결과 음이항 회귀 모형이 더 적합하다고 해석할 수 있다(Poisson 회귀 모형의 AIC 값: 5,182.5, 음이항 회귀 모형의 AIC 값: 2,227.8, 검정에 대한 통계적 유의확률: ≤0.01)). 따라서, 본 연구는 음이항 회귀 모델을 채택하였으며, 그 결과 도로 길이, 주거지역 비율, 1인 가구, 농촌인구 총 4가지의 유의미한 변수가 도출되었다. 교통 특성 범주에서, 도로 길이 변수는 약 95%의 유의한 확률로 이륜차 사고에 양(+)의 영향을 주는 변수로 식별 되었다. 도로 길이가 1,000km 증가하면 약 0.24건의 이륜차 사고가 발생할 수 있음을 보여준다(각 변수들의 단위는 Table 2에 표기). 이는 도로의 길이가 길수록 사고에 노출될 가능성이 높다는 가정과 일치한다. 토지 이용 특성 범주에서는, 약 95%의 확률로 주거지역의 비율이 사고에 양의 영향을 주고, 주거지역의 비율이 100% 증가할 경우 약 0.5건의 이륜차 사고가 발생한다는 결론을 도출할 수 있다. 상업지역 비율 변수는 통계적으로 유의하지는 않지만, 이륜차 사고에 양의 영향을 주는 변수로 판단된다. 높은 주거 ‧ 상업 지역의 비율이 이륜차 사고를 초래할 것이라는 가설과 일치하는 결과이며, 향후 다른 변수와 재결합하여 더욱 유의미한 결과를 도출 할 것으로 기대 된다. 또한 이와 같은 결과는 OLAP에서 제시한 정보를 정량적으로 설명하고 있다. 잠재적 배달수요의 범주에서는, 1인 가구 변수가 거의 99%의 통계적 유의성을 보이며, 이륜차 사고에 양의 영향을 미친다고 해석된다. 1인 가구가 약 10만 가구 증가하면 약 2.2건의 이륜차 사고를 일으킬 수 있다는 정량적인 결과를 확인 할 수 있다. 이러한 결과는 음식 배달의 주요 소비자인 1인 가구(Jang et al., 2011; Kim et al., 2018)의 비중이 높은 지역에서 음식 배달이 증가하며, 이로 인해 이륜차 사용과 사고에 노출될 위험이 높을 수 있다는 사실을 뒷받침 해준다. 음식점 수 변수의 경우 통계적으로 유의한 결과는 아니지만, 이륜차 사고에 양의 영향을 미친다고 보여지며 이는 음식점 수가 이륜차 사고 증가에 간접적으로 영향을 미칠 수 있다고 유추할 수 있다. 이 결과들은 다차원 관점을 바탕으로 한 시나리오 기반 분석의 서술적 결과를 뒷받침할 수 있다. 마지막으로, 인구통계학적 범주의 모든 변수들이 이륜차 사고에 음(-)의 영향을 미친다는 결론이 도출 되었다. 농촌인구 변수는 99%, 청년 및 노인 인구 변수는 약 90%의 확률로 통계적 유의성을 보였다. 본 실험의 기준인 95%에는 미치지 못했으나, 충분히 유의한 결과라고 보여진다. 농촌인구 변수의 경우 농촌인구가 100% 증가하면 약 1.5건의 이륜차 사고가 감소 한다는 결과를 보여준다. 그러나 비도시지역의 이륜차 이용빈도 자체가 낮기 때문에 영향력을 쉽게 추정할 수 없다는 한계가 있으며, 음의 영향으로 도출된 이유에는 비도시지역에 비해 도시 지역의 이륜차 수요가 월등히 높기 때문에 이는 향후 연구의 방향성으로 확립하고자 한다. 본 실험의 요인 분석 결과들은 추후 도시계획 또는 교통안전 측면에서 이륜차 안전을 고려한 정책수립 및 의사결정시 보다 가치 있고 유의미한 결과를 제공하며, 과학적이고 공학적인 근거를 함께 설정할 수 있을 것으로 기대된다.

Table 4.

Result of analysis using poisson and negative binomial regression

Classification Variables Poisson regression Negative binomial regression
Estimate z-value Estimate z-value
Intercept 5.107**** 46.793 4.551**** 7.992
Transportation
characteristics
Road length 0.242**** 9.756 0.248* 1.673
Land use
characteristics
Residential ratio 0.768**** 15.598 0.552* 1.894
Commercial ratio 0.614**** 4.108 0.710 0.931
Potential delivery
demand characteristics
Single person household 1.424**** 28.449 2.248**** 7.054
Number of restaurant 0.007 0.605 0.006 0.076
Demography delivery
characteristics
Young adult population -3.371**** -7.304 -3.182 -1.347
Elderly population -3.112**** -12.709 -1.653 -1.483
Rural population -1.606**** -23.759 -1.507**** -6.253
AIC 5,182.5 2,227.8

note: *p<0.05, **p<0.01, ***p<0.001, ****p=0

결론 및 연구의 시사점

본 연구에서는 국가 오픈공공데이터를 활용하여, 국내 이륜차 사고 영향 요인을 다차원으로 분석하였다. 이에 대한 주요 내용 및 시사점은 다음과 같다. 첫째, 위치, 시간, 교통, 토지이용, 인구통계, 잠재적 배달 수요 등과 같은 다양한 요인에 따라 개념 계층도를 구성하여 데이터 큐브 모델을 구축하였다. 둘째, OLAP 연산에 의한 다차원 분석을 수행하고 이륜차 사고 요인에 대한 정성적인 결과를 도출하였다. 셋째, 이륜차 사고와 관련된 요인을 정량적으로 이해하기 위해 데이터 마이닝 기술 중 하나인 음이항 회귀 분석을 수행하여 검증하였다. 제안된 시스템의 주요 목표는 이륜차 사고를 심층적으로 분석하고 도시의 사고 패턴을 이해함으로써 의사 결정자들에게 도로 환경을 보다 안전하게 개선할 수 있는 통찰력을 제공하는 것이다.

본 연구 방법론의 핵심은 다양한 공공데이터를 활용한 데이터 큐브 모델 설계와 음이항 회귀 분석을 실시하는 것이다. 실험 결과에서는 데이터 큐브 모델을 사용한 두 가지 시나리오 기반 분석 결과를 간략히 설명하였다. 크게 이륜차 사고 비율과 토지 이용 사이의 관계 분석과 이륜차 사고 횟수와 1인 가구 사이의 관계 분석 두 가지 시나리오를 제시하고 있으며, 다차원 분석을 통해 이륜차 사고에 대한 포괄적인 분석 결과를 생성 하고, 사고에 영향을 미치는 요인들을 깊이 있게 이해할 수 있는 유용한 정보들을 제공한다. 더하여 데이터 큐브 모형은 시스템 관리자가 관점에 따라 차원을 추가하고 선택 ‧ 조절하며 분석할 수 있다는 장점이 있다. 한편, 현상과 이력을 기반으로 한 정성적인 분석으로 요인들 간의 관계를 명확히 하는 데 한계가 있기 때문에 분석 결과를 정량적으로 입증하기 위하여 음이항 회귀 모델을 채택했다. 그 결과, 도로 길이, 주거지역의 비율, 1인 가구 비율 등의 변수들이 이륜차 사고에 양의 영향을 미치며, 농촌인구의 경우 음의 영향을 미치는 것으로 확인되었다.

이처럼 제안된 분석 시스템은 다양한 측면에서 이륜차 사고 요인을 분석하고 각 요인 별 영향 정도를 판단할 수 있도록 지원하고, 정성적 분석과 정량적 분석을 포괄하여 장단점을 보완하면서 유용한 패턴을 발굴한다는 점에 의의를 두고 있다.

최근 국내에서는 신속한 음식배달 서비스 수요를 위한 주요 교통수단으로 이륜차가 크게 자리잡고 있으며, 이에 따라 이륜차 사고가 해마다 증가하고 있다. 따라서 잠재적 배달수요 및 인구통계학적 특성 등과 같은 다양한 도시환경적 정보들을 결합하여 효율적으로 이륜차 사고를 예방하기 위한 시스템인 FASTA를 제안한다. 제안된 시스템은 국내의 음식배달 서비스 등 사회적 요인을 고려한 효율적인 이륜차 사고 분석 시스템의 부족에서 시작되었다. 제안된 분석 시스템의 주요 목표는 사고를 유발하는 요인을 식별하고 유용한 정보를 제공하는 것에 있으며, 미래의 충돌을 예측하는 것이 아니라는 점에 유의해야 한다. 또한 본 연구는 추후 이륜차 사용이 점점 증가하고 있는 COVID-19 현실을 포함하도록 FASTA 시스템을 확장할 계획이며, 추가 데이터 마이닝 분석 방법 또한 고려하여 더욱 강화된 시스템을 만들어 의사결정자가 사고 식별 전략을 수립하고 다양한 요인을 고려한 이륜차 사고 원인 정밀조사 및 예방에 앞장 설 수 있도록 도울 것이다. 따라서 본 연구는 향후 이륜차 사고 원인을 분석하고 도시 사고 패턴을 파악하는 데 좋은 지침이 될 것으로 판단된다. 또한 관리자들에게 이륜차 안전에 대해 보다 풍부하고 밀도 있는 관점을 제공하고, 집중 순찰 지역 및 우선순위 대응 지역 결정 등과 같은 이륜차 사고를 예방하는데 보다 효과적인 기초자료로 활용될 것으로 기대된다.

Acknowledgements

This research was supported by Korea Ministry of Land, Infrastructure and Transport (MOLIT) as “Innovative Talent Education Program for Smart City”.

본 논문은 대한교통학회 제85회 학술발표회(2021.11.10.-11)에서 발표된 내용을 수정 ‧ 보완하여 작성된 것입니다.

References

1
Banks H. T., Joyner M. L. (2017), AIC under the Framework of Least Squares Estimation, Applied Mathematics Letters, 74, 33-45. 10.1016/j.aml.2017.05.005
2
Dogan G., Brown T. (2014), ProTru: A Provenance Based Trust Architecture for Wireless Sensor Networks, Internation Journal of Network Management, December 2012, 17-31. 10.1002/nem
3
Duo Z., Chengxiang Z., Jiawei H. (2009), Topic Cube: Topic Modeling for OLAP on Multidimensional Text Databases, Society for Industrial and Applied Mathematics - 9th SIAM International Conference on Data Mining 2009, Proceedings in Applied Mathematics, 3, 1117-1128. 10.1137/1.9781611972795.96
4
Eavis T., Dimitrov G., Dimitrov I., Cueva D., Lopez A., Taleb A. (2010), Parallel OLAP with the Sidera Server, Future Generation Computer Systems, 26(2), 259-266. 10.1016/j.future.2008.10.007
5
Ekwonwune E. N., Ngozi N. C. A., Eberechi O. O. (2018), ICT Devices: Vital Tools for Enhancing Road Traffic Monitoring, Communications and Network, 10(03), 43-50. 10.4236/cn.2018.103004
6
Eun S. J. (2020), Trends in Mortality from Road Traffic Injuries in South Korea, 1983-2017: Joinpoint Regression and Age-period-cohort Analyses, Accident Analysis and Prevention, 134(October 2019), 105325. 10.1016/j.aap.2019.105325
7
Hadi M. A., Aruldhas J., Chow L. F., Wattleworth J. A. (1995), Estimating Safety Effects of Cross-section Design for Various Highway Types Using Negative Binomial Regression, Transportation Research Record, 1500, 169-177.
8
He B., Wei C., Zhu Z., Zhang X., Song Z. (2021), Lognormal and Gamma Mixed Negative Binomial Model for Defects Prediction in Steel Products, 1203-1207. 10.1109/DDCLS52934.2021.9455556
9
Hong G. S., Gang G. P. (2013), Traffic Safety Innovation in ITS Convergence Technology, Information and Communications Magazine, 30(11), 24-31. 10.6109/jicce.2013.11.1.030
10
Hu L., Hu X., Wan J., Lin M., Huang J. (2020), The Injury Epidemiology of Adult Riders in Vehicle-two-wheeler Crashes in China, Ningbo, 2011-2015, Journal of Safety Research, 72, 21-28. 10.1016/j.jsr.2019.12.011
11
Jang Y. J., Kim W. G., Yang I. S. (2011), Mature Consumers' Patronage Motives and the Importance of Attributes Regarding HMR Based on the Food-related Lifestyles of the Upper Middle Class, International Journal of Hospitality Management, 30(1), 55-63. 10.1016/j.ijhm.2010.06.001
12
Jeong H. S. (2016), Changes in the Industrial Characteristics and Employment Structure of Restaurants and Pubs, The June Issue of the Monthly Labor Review, 65-75, Korea Labor Institute.
13
Jiang F., Yuen K. K. R., Lee E. W. M. (2020), Analysis of Motorcycle Accidents Using Association Rule Mining-based Framework with Parameter Optimization and GIS Technology, Journal of Safety Research, 75, 292-309. 10.1016/j.jsr.2020.09.004
14
Kim D., Kim K., Choe D., Jung J. (2016), Service Issues and Policy Directions for Promoting the O2O Industry in Korea, Jounal of Society for E-Business Studies. 10.7838/jsebs.2016.21.4.137
15
Kim J., Kim S. (2019), A Study on User Experience of Mobility Platform Service: Focused on kakao Taxi and Tada, Journal of Digital Convergence, 17(7), 351-357. 10.14400/JDC.2019.17.7.351
16
Kim S., Lee K., Lee Y. (2018), Selection Attributes of Home Meal Replacement by Food-related Lifestyles of Single-person Households in South Korea, Food Quality and Preference, 66(June 2017), 44-51. 10.1016/j.foodqual.2018.01.004
17
Klanjčić M., Gauvin L., Tizzoni M., Szell M. (2021), Identifying Urban Features for Vulnerable Road User Safety in Europe. 10.31235/osf.io/89cyu
18
KOrean Statistical Information Service, https://kosis.kr/index/index.do , 2021.3.15
19
Kośmicki E., Pieńkowski D. (2013), W Poszukiwaniu Koncepcji Współczesnej Modernizacji Gospodarki i Społeczeństwa (Próba Eksplikacji Głównych Problemów), Problemy Ekorozwoju, 8(1), 115-123.
20
Kumar S., Toshniwal D. (2017), Severity Analysis of Powered Two Wheeler Traffic Accidents in Uttarakhand, India, European Transport Research Review, 9(2), 1-10. 10.1007/s12544-017-0242-z
21
Kwak Y. A., Cho Y. S. (2020), Strategy of Food Retailer and Delivery Rider's Accident in South Korea, Journal of Distribution Science, 18(5), 49-60. 10.15722/jds.18.5.202005.49
22
Law T. H., Noland R. B., Evans A. W. (2009), Factors Associated with the Relationship between Motorcycle Deaths and Economic Growth, Accident Analysis and Prevention, 41(2), 234-240. 10.1016/j.aap.2008.11.005
23
Lee J. S. (2020), Directions for Improvement of Traffic Safety for Two-Wheeler Vehicles, KOTI Special Edition, 24-29.
24
Lee K. Y., Chung Y. D., Kim M. H. (2010), An Efficient Method for Maintaining Data Cubes Incrementally, Information Sciences, 180(6), 928-948. 10.1016/j.ins.2009.11.037
25
Lim J., Kim H., Cho H., Lee H. (2021), A Study on the Driving Behavior of Delivery Two Wheeled Vehicles: Focusing on Apartment Complexes, Journal of the Korea Academia-Industrial Cooperation Society, 22(9), 19-27. 10.5762/kais.2021.22.9.19
26
Liu H., Davidson R. A., Rosowsky D. V., Stedinger J. R. (2005), Negative Binomial Regression of Electric Power Outages in Hurricanes, Journal of Infrastructure Systems, 11(4), 258-267. 10.1061/(asce)1076-0342(2005)11:4(258)
27
Ministry of Food and Drug Safety, Retrieved February 25, 2021, from https://www.mfds.go.kr/index.do
28
Noh B., Son J., Park H., Chang S. (2017), In-depth Analysis of Energy Efficiency Related Factors in Commercial Buildings Using Data Cube and Association Rule Mining, Sustainability (Switzerland), 9(11). 10.3390/su9112119
29
Noh B., Yeo H. (2021), SafetyCube: Framework for Potential Pedestrian Risk Analysis Using Multi-dimensional OLAP, Accident Analysis and Prevention, 155(April), 106104. 10.1016/j.aap.2021.106104
30
Nyamawe A. S., Nyamawe A. S., Mbosso E. C. (2014), Road Safety: Adoption of ICT for Tracking Vehicles' Over-speeding in Tanzania. International Journal of Computer Applications, 96(16), 12-15. 10.5120/16877-6876
31
Park H. W., Nah K. (2015), Study on Restaurant Francise Service Reflected on a Single Household Consumer Patterns-Focus on 2030 Generation, Journal of Digital Design, 15(3), 697-704. 10.17280/jdd.2015.15.3.066
32
Peden M. (2005), Global Collaboration on Road Traffic Injury Prevention, International Journal of Injury Control and Safety Promotion, 12(2), 85-91. 10.1080/15660970500086130
33
Poch M., Mannering F. (1996), Negative Binomial Analysis of Intersection-accident Frequencies, Journal of Transportation Engineering, 122(2), 105-113. 10.1061/(ASCE)0733-947X(1996)122:2(105)
34
Roh M., Park K. (2019), Adoption of O2O Food Delivery Services in South Korea: The Moderating Role of Moral Obligation in Meal Preparation, International Journal of Information Management, 47(October 2018), 262-273. 10.1016/j.ijinfomgt.2018.09.017
35
Saccomanno F. F., Grossi R., Greco D., Mehmood A. (2001), Identifying Black Spots along Highway SS107 in Southern Italy Using Two Models, Journal of Transportation Engineering, 127(6), 515-522. 10.1061/(ASCE)0733-947X(2001)127:6(515)
36
Samsung Traffic Safety Research Institute, http://sts.samsungfire.com/, 2021.06.15
37
Schymik G., Corral K., Schuff D., St. Louis R. (2007), Architecting a Dimensional Document Warehouse, Proceedings of the Annual Hawaii International Conference on System Sciences, 1-8. 10.1109/HICSS.2007.85
38
Song J. W. (2019), An Effect of Food Delivery App Service Convenience of Rising-generation Single Households on the Continuous Use Intention: Focusing on Moderating Effect of Willingness to Pay Delivery App Service Charge, Food Service Industry Journal, 15(3), 161-176.
39
Sun S., Bi J., Guillen M., Pérez-Marín A. M. (2021), Driving Risk Assessment Using Near-miss Events Based on Panel Poisson Regression and Panel Negative Binomial Regression, Entropy, 23(7), 1-22. 10.3390/e23070829
40
Traffic Accident Analysis System, Retrieved March 10, 2021, from http://taas.koroad.or.kr/
41
Yu J. H., Choi I. B., Song S. H. (2020), A Study on Prevention of Traffic Accidents Through Motorcycle Accident Characteristics Analysis, Transportation Technology and Policy, 17(1), Korean Society of Transportation, 29-36.
페이지 상단으로 이동하기