서론
선행연구 고찰
1. 코로나19 발생 전후 통행패턴 분석 연구
2. 스마트카드 데이터를 활용한 통행패턴 및 목적 추정 연구
데이터 구축
1. 스마트카드 데이터
2. 가구통행실태조사 데이터(Korean National Household Travel Survey)
3. 데이터 전처리
분석 방법
분석 결과
1. 코로나19 발생 전후 대중교통 통행량 비교
2. 군집화 결과 비교
3. 군집별 통행목적 추정
4. 이용자 연령대 및 통행목적별 통행패턴 변화
결과 해석
1. 고령화로 인한 영향
2. 통행패턴의 공간적 변화
결론
서론
코로나바이러스감염증(COVID-19, 이하 코로나19)는 2019년 말 중국에서 처음 발생한 이후 전 세계적으로 급속도로 확산되었다. 2020년 3월 세계보건기구(WHO)가 코로나19를 팬데믹으로 공식 선언하였으며(Maier and Brockmann 2020), 이에 따라 각국은 전염병 확산 방지를 위한 다양한 사회적 거리두기 정책들을 실시하였다. 우리나라 역시 해외 출입국 제한, 대중 행사 및 사적모임 인원 제한 등, 일련의 방역 관련 조치들을 실시하였다. 이러한 정부 방역 지침들은 코로나19 감염 위험을 감소시키는 데 있어 효과적인 반면, 이는 경제적 및 사회적 변화 뿐만 아니라 개인의 일상과 업무 환경에도 다양한 변화들을 초래했다. 특히, 재택근무, 온라인 학습, 전자상거래와 같은 비대면 활동 등의 증가는 개인의 통행패턴에도 뚜렷한 영향을 미쳤다(Bucsky, 2020; Hadjidemetriou et al., 2020).
코로나19 감염을 우려한 대중교통 이용 기피 현상이 확산되면서 발생한 큰 폭의 대중교통 이용 감소는 전 세계적인 현상으로 나타났다(Hadjidemetriou et al., 2020; Lim, 2020; Parker et al., 2021; Zhu et al., 2021). 국토교통부와 한국교통안전공단의 대중교통 이용실태 분석 결과에 따르면, 2020년 기준 전년 대비 일 평균 대중교통 이용률은 27.0% 감소하였다. 특히, 주중보다 주말과 공휴일의 대중교통 이용률은 전년 대비 36.1% 감소하여 감소 폭이 더 큰 것으로 나타났다(Bin and Son, 2021). 이와 같이, 코로나19는 출퇴근 등의 필수 통행보다 공휴일·주말에 나타나는 여가·여행 등의 목적통행에 더 많은 영향을 주는 것으로 보고해 왔다(Kim and Jung, 2022). 더불어, 많은 선행연구에서 코로나19로 인한 통행패턴 변화는 개인의 사회경제적 특성에 따라 차이가 있는 것으로 보고해 왔다(Almlöf et al., 2021; Brough et al., 2021; Hu and Chen, 2021; Parker et al., 2021; Qi et al., 2021).
이에, 본 연구는 코로나19 발생 이후 연령대별로 대중교통 이용자들의 통행패턴 및 통행목적의 변화를 분석하고자 한다. 이를 위하여, 코로나19 발생 전후인 2017년과 2021년의 스마트카드 데이터를 활용하여 두 시기의 대중교통 통행량과 통행패턴 차이를 이용자 유형에 따라 세부적으로 비교하였다. 또한, 가구통행실태조사 자료를 활용하여 군집 별로 통행목적을 부여하였고, k-means 군집화 알고리즘을 활용하여 통행 특징에 따른 스마트카드 이용자 군집화를 수행하였다. 이를 통해, 스마트카드 데이터와 가구통행실태조사 데이터의 각각의 한계점을 상호 보완하였으며, 코로나19 발생 이후 대중교통 이용자들의 통행목적 변화를 분석하였다. 본 연구의 결과는 향후 재난 상황 대비 대중교통 인프라 최적화를 위한 중요한 통찰을 제공할 것이며, 특히 교통 취약 계층을 지원하기 위한 정책 수립의 기초 자료로 활용될 것으로 기대된다.
선행연구 고찰
1. 코로나19 발생 전후 통행패턴 분석 연구
코로나19의 확산 이후 대중교통 통행행태의 변화와 관련된 연구가 국내ㆍ외에서 다수 수행되었다(Lee et al., 2020; Park, 2020). Lee et al.(2020)이 코로나19 발생 전후인 2019년과 2020년 1월부터 3월까지 국내 도로 교통량 차이를 분석한 결과, 2020년 상반기 전국 일 평균 교통량이 2019년 같은 기간 대비 9.7% 감소하였다. 또한, Park(2020)이 2020년 1월부터 3월까지 서울시 지하철 이용 인구의 변화를 분석한 결과, 직장이 밀집한 역은 여가통행이 많은 역보다 이용량 감소 폭이 작은 것으로 나타났다. 이는 비필수 통행인 여가통행보다 필수 통행인 통근통행이 코로나19의 영향을 적게 받는다는 것을 의미한다.
한편, 개인의 사회ㆍ경제적 계층에 따라 코로나19 시기에 발생한 통행행태에 유의미한 차이가 있음을 규명한 연구들도 수행되었다. 특히, 저소득층, 교육 수준이 낮고 유색인종 가구가 많은 지역일수록 코로나19 팬데믹 기간 동안 대중교통 이용률이 덜 감소한 것으로 보고되었다(Almlöf et al., 2021; Brough et al., 2021; Hu and Chen, 2021; Parker et al., 2021; Qi et al., 2021). Almlöf et al.(2021)은 스웨덴의 스마트카드 데이터를 분석하여 개인의 통행패턴 변화가 다양한 사회경제적 요인과 밀접한 관련이 있다고 보고하였다. Brough et al.(2021)은 코로나19 발생 이후 미국 워싱턴주 킹카운티의 통행행태에 관한 사회경제적 계층의 차이를 분석한 결과, 교육 및 소득이 낮은 계층이 이동의 감소가 더 적은 것을 확인하였다. Hu and Chen(2021)은 코로나19 발생 이후 미국 시카고의 사회경제적 계층별 지하철 이용량을 분석한 결과, 소득수준, 교육 수준, 인종 및 직종에 따라 지하철 이용량 감소가 상이하게 나타났음을 보고하였다. Parker et al.(2021)은 팬데믹기간 동안 미국에서 감염을 피하기 위한 대중교통 이용자의 통행수단 변경이 증가하였지만, 저소득층은 통행 횟수 및 통행 거리가 상대적으로 덜 감소한 것으로 분석하였다. Qi et al.(2021)은 미국 내 20개 대도시 지역을 대상으로 랜덤효과 패널 데이터 모델을 활용하여 코로나19가 대중교통 이용객 감소에 미치는 영향 및 사회경제적 요인을 분석하였다. 그 결과, 중위 가구 소득, 학사 이상의 인구 비율 및 고용률, 아시아인 인구 비율이 높은 지역일수록 코로나19 팬데믹 기간 동안 대중교통 이용률이 더 많이 감소한 반면 인구의 빈곤율이 높고 히스패닉 인구의 비율이 높은 지역은 대중교통 이용률이 더 적게 감소할 가능성이 큰 것으로 나타났다.
이상의 선행연구들의 결과를 고찰해 볼 때, 코로나19 발생 전후로 통행량의 큰 폭의 감소가 나타났으며, 통행패턴 변화는 시간적 변화 및 사회경제적 특성에 따라 차이가 있는 것으로 나타났다. 그러나, 대부분의 선행연구들은 주로 통행빈도의 감소율만을 비교하였다는 한계를 가진다. 코로나19 발생 이후 대중교통 이용에 있어서 이용자 유형별 불균형을 해소하기 위해서는 이용자 유형 간 통행패턴 변화를 고려하는 것은 물론, 동시에 그 원인을 파악하기 위한 통행목적 고려가 필수적이라 할 수 있다.
2. 스마트카드 데이터를 활용한 통행패턴 및 목적 추정 연구
서울시를 비롯한 수도권에서는 스마트카드 기반의 자동요금징수 시스템(AFC, Automatic Fare Collection)을 통해 대중교통 서비스를 운영한다. 수집된 데이터는 일일 약 2천만개의 통행 데이터를 포함하며, 이는 수도권에서의 이용률이 거의 100%에 달하는 전수조사 수준의 자료라는 장점을 갖는다. 이러한 장점으로 많은 연구자들은 각국에서 수집된 스마트카드 데이터를 활용하여 대중교통 이용자들의 통행패턴 및 특징을 분석하였다. Ma et al.(2013)는 베이징의 스마트카드 데이터를 기반으로 DBSCAN(Density-based Spatial Clustering of Application with Noise)과 k-Means++ 등의 군집 분석기법을 적용하여 대중교통 이용자들의 통행패턴과 통행 정규성을 분석하였다. Sari et al.(2019)은 런던의 스마트카드 데이터를 분석하여 대중교통 이용자들의 거주지와 활동지를 추정하는 휴리스틱 모델(heuristic model)을 활용하고, 그 결과를 London Travel Demand Survey(LTDS)를 사용하여 검증하였다.
그러나, 스마트카드 데이터는 교통수요 예측의 핵심적 변수인 개인정보 및 통행목적 정보를 포함하지 않는 한계를 가진다. 이를 극복하기 위해 최근 머신러닝 방법론을 통해 스마트카드 데이터와 다른 유형의 데이터를 결합하여 부재한 정보를 추정하는 연구들이 수행되고 있다(Kim et al., 2021; Kusakabe and Asakura, 2014; Medina, 2018; Pieroni et al., 2021). Kim et al.(2021)은 가구통행실태조사 자료로 학습한 랜덤 포레스트 모델을 서울시 스마트카드 데이터에 적용하여 스마트카드 데이터 내 통행목적을 추정하였다. 독립변수들은 가구통행실태조사 데이터로부터 추출된 출발 및 하차 시각, 활동 시간, 목적지의 토지 이용률 등이 포함되어 있다. 이와 유사하게 Kusakabe and Asakura(2014)는 일본 오사카의 스마트카드 데이터와 설문조사 데이터를 융합한 데이터를 활용하여 나이브 베이즈 확률모델(Naive Bayes classifier)에 따라 통행목적을 추정하였다. Medina(2018)는 싱가포르의 스마트카드 데이터와 가구통행실태조사 자료를 결합하여 승객의 재직여부에 따라 달라지는 통행목적을 추정하고 목적별 통행행태를 분석하였다. Pieroni et al.(2021)은 스마트카드 데이터와 GPS 데이터를 결합하여 다양한 소득 계층에서의 통행패턴의 차이를 분석하였다.
이와 같이, 여러 선행연구들은 스마트카드 데이터의 한계를 극복하고자 다양한 방법론을 통해 가구통행실태조사 데이터나 GPS 데이터 등의 추가 정보를 기존 스마트카드 데이터에 결합하여 통행목적에 따른 교통수요 예측을 수행해왔다. 이러한 대부분의 연구들은 주로 이용자의 인구사회적 특성에 따른 통행패턴과 통헹목적의 차이를 중심으로 분석을 진행해왔다. 그러나, 코로나19를 전후로 하여 이용자 특성별 통행패턴 및 목적의 변화를 다룬 연구는 상대적으로 부족한 실정이다.
데이터 구축
1. 스마트카드 데이터
스마트카드 데이터에는 하루 평균 약 2,000만건의 통행에 대한 정보가 존재하며, 각 승객들의 승하차 시각, 승하차 역, 총 통행시간, 환승 횟수 등 다양한 통행 정보가 포함되어 있다. 이러한 데이터는 대중교통의 문제점을 보다 정밀하게 파악하고 이를 개선하기 위한 정책 수립에 유용하게 활용될 수 있다. 본 연구에서는 코로나19 발생 전후 대중교통 이용자들의 통행패턴 및 통행목적 변화를 파악하기 위하여 2017년 5월 16일부터 19일까지의 4일간 평일 스마트카드 데이터와 코로나19가 심각했던 시기인 2021년 10월 1일부터 7일까지의 주말과 월요일을 제외한 4일간 평일 스마트카드 데이터를 분석하였다. 2021년 10월은 수도권에서 4인 이상 사적 모임 금지 및 다중 이용 시설 운영시간을 22시까지로 제한하는 등의 엄격한 거리두기 4단계 조치가 시행된 시기로, 이로 인한 통행패턴 변화가 명확하게 드러난 시기라 판단되어 연구범위로 설정되었다. 더불어, 전반적인 통행패턴이 평일과 크게 다른 주말의 데이터와 공휴일이었던 2021년 10월 4일 월요일 데이터는 본 연구의 범위에서 제외되었다. 본 연구에서 사용된 스마트카드 데이터 내 통행 정보들은 Table 1과 같다.
Table 1.
Columns in smartcard data
2. 가구통행실태조사 데이터(Korean National Household Travel Survey)
대한민국의 가구통행실태조사 데이터(K-NHTS, Korean National Household Travel Survey)는 5년마다 전국 단위로 진행되는 설문조사를 통해 가구원들의 통행 정보가 수집된 데이터이다. 이 자료는 서울 전체 통행량의 1.5%에 해당하는 약 97만개의 통행량 정보를 가지고 있는 표본 자료로, 가구원들의 모든 일일 통행에 대해 기종점(OD)이 존재하고 그 패턴은 일정하다고 가정한다(Min et al., 2022). 해당 데이터는 인터넷을 통해 공공에 공개되기 때문에 접근성이 좋으며 가구원들의 개인적인 정보와 더불어 통행목적에 대한 상세한 정보 또한 포함하고 있으므로 다양한 교통 연구에서 활용되어 왔다.
가구통행실태조사 자료는 총 3가지의 카테고리로 이루어져 있으며 카테고리 안에는 61가지의 다양한 정보가 포함된다. 첫 번째 카테고리는 연봉과 가구원 수와 같은 가구 정보가, 두 번째 카테고리는 나이, 성별, 취업 상태 등의 개인정보가 포함되어 있다. 마지막 카테고리는 통행목적, 출발 및 귀가 시간과 같은 통행정보로 이루어져 있다. 본 연구에서는 2016년도 가구통행실태조사 데이터 중 서울 지역에서 취득된 데이터만 추출하여 개인정보와 통행정보 카테고리를 전처리한 후 분석에 활용하였다. 분석에 사용된 가구통행실태조사 데이터 내 통행 및 개인정보들은 Table 2와 같다. 스마트카드 데이터와는 달리 가구통행실태조사 데이터에는 각 통행의 목적이 명시되어 있어, 이를 활용하여 스마트카드 데이터에 기록된 각 통행의 목적을 추정하였다. 본 연구에서 사용된 스마트카드 데이터의 시점과 가구통행실태조사 데이터의 시점이 일치하지 않다는 한계가 존재하나, 이러한 방식으로 통행목적을 추정한 많은 선행연구들(Kusakabe and Asakura, 2014; Min et al., 2022; Jeon et al., 2019)을 참고하여 2016년 가구통행실태조사 데이터를 활용하여 2017년과 2021년 스마트카드 데이터의 통행목적 추정 및 범용적 해석이 가능하다 판단하였다.
Table 2.
Columns in K-NHTS data
3. 데이터 전처리
본 연구에서는 승객의 연속된 통행패턴을 파악하기 위하여, 각 요일별로 스마트카드 데이터에 기록된 수단통행들을 고유한 카드 ID 별로 집계하여 개별 승객의 통행 사슬(trip chain)을 구축하였다. 개인은 하나의 통행목적을 달성하기 위해 대개 다수의 교통수단을 이용하여 이동한다. 이때 발생하는 각 수단별 통행을 수단통행이라 하고, 단일 통행목적을 달성하기 위하여 하나 이상의 수단통행으로 이루어진 통행 전체를 목적통행(trip)이라 한다(Sejong City Council, 2023). 만일 하루 동안 동일한 카드를 사용하여 여러 차례 대중교통을 이용한 경우, 이 연속적인 통행은 해당 승객의 card ID를 통해 확인이 가능하다. 이 방법으로 동일한 card ID로 기록된 모든 수단통행들을 하나로 연결하여 개별 승객의 통행 사슬을 형성하였으며, 이 과정은 하단의 Figure 1에 제시한 바와 같다. 본 연구에서는 하루 동안 하나의 활동만을 수행한, 즉 하루 2회의 목적통행을 행한 승객을 분석 대상으로 설정하였다. 하루에 단 한번의 수단통행만을 하였거나, 혹은 4회 이상 수단통행을 행한 승객은 통행목적이 모호하거나 두 개 이상의 목적을 위해 통행하였다고 판단하였기에 연구 분석 대상에서 제외하였다. 즉, 동일한 card ID 로 묶인 수단통행의 개수가 두 개에서 최대 세 개로 이루어진 통행 사슬만을 분석 대상으로 선정하였다.
하루 동안 두 번 혹은 세 번 통행한 승객들의 card ID를 기반으로 통행 사슬을 생성한 뒤, n번째 통행 종료와 n+1번째 통행 시작 사이의 시간 차이를 활동 시간(AD, Activity Duration)이라 정의하였다. 이 활동 시간은 승객들이 특정한 통행목적을 달성하기 위해 소비하는 시간으로 간주되어, 통행목적을 분석하는 데 핵심 지표로 활용되었다. 본 연구에서는 두 개의 연속된 통행 사이 활동 시간이 30분 이하일 경우 해당 시간은 환승에 쓰인 시간이라 간주하여 유효한 활동 시간으로 고려하지 않았다. 따라서, 연구의 분석 대상은 단일목적을 가진 통행 사슬만을 한정하였고, 30분 미만의 활동 시간이 포함되거나 30분 이상의 활동 시간이 두 번 이상 발생한 통행 사슬은 분석에서 제외하였다. 이 과정을 Figure 2에 도식화하여 제시하였으며, 활동 시간이 30분 미만일 경우 환승으로 판단하여 해당 두 통행을 사실상 한 개의 통행으로 합하여 전처리하였다.
분석 방법
본 연구의 분석 방법론 및 절차는 Min(2021), Min et al.(2022)의 연구에 기반하여 다음과 같이 진행되었다. 우선, 스마트카드 데이터를 활용하여 하루 동안 대중교통을 총 2회 또는 3회 이용한 승객들을 대상으로 통행 사슬을 생성하였다. 이어서 각 통행 사슬 중에서 30분 이상의 활동 시간이 단 하나만 존재하는 통행 사슬들을 선별하였다. 이러한 전처리 과정을 2017년도와 2021년도 스마트카드 데이터에 동일하게 적용하였다. 또한, 가구통행실태조사 데이터의 속 61개의 열들 중에서 통행목적에 관련된 열만을 선택하였고 정규화 스케일링을 거쳐 전체적인 데이터의 분포를 조정하였다. 데이터 전처리 이후에는 대중교통 이용자들의 전반적인 통행패턴이 2017년도에 비해 2021년도에 어떠한 변화를 보였는지를 분석하였으며, 스마트카드 데이터에 k-means 군집화 방법론을 적용하여 군집 분석을 수행하였다.
k-means 군집화 알고리즘은 데이터를 총 k개의 군집으로 분류하는 비지도 학습 방식의 알고리즘으로, 각 군집 내 분산을 최소화하며 다른 군집 간의 분산은 최대화하는 방식으로 작동한다. 첫 단계에서는 k개의 초기 군집 중심을 임의로 선택한 다음, 각 데이터 포인트들을 가장 가까운 거리에 있는 군집 중심에 할당한다. 이때, 거리를 계산하는 방식은 유클리디안 거리(Euclidean distance)을 활용하였다. 두 개의 점 와 가 각각 와 의 좌표를 가질 때 유클리디안 거리 수식은 Equation 1과 같다:
다음으로, 각 군집의 중심은 해당 군집에 속한 새로운 데이터 포인트들의 평균값으로 재설정된다. 이 군집 배정 과정은 군집 중점이 더이상 변하지 않거나, 사전에 지정한 반복 횟수에 도달할 때까지 반복된다. 이러한 k-means 군집화 알고리즘은 O(n)의 시간 복잡도를 가지므로, 대량의 데이터에 대한 분석에서 다른 군집 분석 알고리즘들에 비해 계산 효율성이 높다. 이러한 이유로 k-means 군집화 알고리즘은 다양한 연구들에서 활용되어왔다(Seo and Yun, 2017).
한편, k-means 군집화 알고리즘에서 적절한 k 값, 즉 군집의 수는 모델의 성능에 결정적인 영향을 미친다(Ma et al., 2013; Jiang et al., 2012). 따라서 본 연구에서는 최적의 k값을 찾기 위하여 Dindex를 활용하였다. Dindex는 군집 내 관성을 기반으로 산출한 군집화 이득을 통해 최적의 k값을 결정하는 방식이다 (Lebart et al., 2000). 군집 내 관성은 군집 내 데이터 포인트들 간의 밀접도를 나타내며, Equation 2로 정의된다:
군집화 이득은 연속된 두 군집화 결과 사이의 군집 내 관성 차이로 계산된다. 예를 들어, 개의 군집으로 구성된 군집화 결과 와 개의 군집으로 생성된 군집화 결과 가 주어진 경우, 군집 내 관성에 대한 군집화 이득은 Equation 3로 계산된다:
군집화 이득이 클수록, 해당 군집 수에서의 군집화 결과가 이전 군집 수에 비해 더 우수하다는 것을 나타낸다. 이러한 뚜렷한 군집화 이득 변화 지점을 ‘knee point’라고 지칭하며, 해당 지점을 최적의 군집의 수로 채택한다(Lebart et al., 2000). Figure 3과 같이 R 프로그래밍 언어의 NB Cluster 패키지를 이용하여 생성한 Dindex 기반 그래프를 제시하였다. Figure 3의 결과에 따르면, 군집의 수가 4개일 때 군집화 이득이 가장 큰 것으로 관찰되었으며, 이러한 결과는 스마트카드 데이터를 총 4개의 군집으로 분류하는 것이 가장 적절함을 시사한다.
최종 군집의 개수를 결정한 후, k-means 군집화 알고리즘을 이용하여 스마트카드 데이터 내에서 비슷한 시간적 특성을 가진 통행들을 동일한 군집으로 분류하였다. 이 과정에서, 군집 분석의 모수(parameter)로 사용된 시간적 변수들은 첫 하차 시각(First Alight Time, FAT)과 활동 시간(Activity Duration) 두 가지였다. 즉, 승객들이 탑승하여 목적지로 이동 후 첫 하차 시각과 통행목적을 수행하는 활동 지속 시간에 따라 승객들을 분류하였다. 이때 데이터 전처리 과정에서 두 변수를 모두 분 단위로 환산하여 단위를 통일시키고 정규화를 통해 변수의 범위를 재조정한 후 동일한 가중치를 부여하여 군집 분류에 활용하였다. 이러한 가정은 관련 선행연구에서 사용되었던 가정을 참고하였다(Min, 2021; Min et al., 2022). 해당 연구에서 사용된 k-means 군집화 알고리즘에 대한 수식은 Equation 4와 같다:
위 수식에서 는 i번째 군집을 의미하며, 는 군집 에 속하는 승객 a의 통행 특성을 나타내는 벡터 형태의 데이터 포인트이다. 의 첫 번째 원소는 승객 의 첫 하차 시각(FAT)인 , 두 번째 원소는 승객 의 활동 시간인 로 이루어진다. 각 데이터 포인트 값과 군집의 중심값인 간의 거리를 최소화 하는 방향으로 최적의 군집 를 정의하였고, 이를 통해 승객들을 통행 특성의 유사도에 따라 총 4가지 군집으로 분류하였다.
분석 결과
1. 코로나19 발생 전후 대중교통 통행량 비교
본 연구는 스마트카드 데이터를 기반으로 코로나19 발생 전후 연령대별 대중교통 통행량 변화를 비교하였다. 이때 연령대는 어린이(0-12세), 학생(13-18세), 일반인(19-64세), 그리고 노인(65세 이상)으로 구분하였다. 분석 결과, 2017년도와 2021년도의 일반인과 그 외 기타 이용자 유형 간의 대중교통 이용 비율은 크게 다르지 않았다. Figure 4에 따르면, 2017년도에는 일반인의 비율이 86%, 기타 이용자의 비율이 14%로 나타났으며, 이와 유사하게 2021년도에는 일반인의 비율 85%, 기타 이용자의 비율이 15%로 나타났다. 기타 이용자 내에서는 2017년 대비 2021년에 노인 승객의 이용 비율이 6%에서 9%로 소폭 증가한 반면, 학생 승객의 이용 비율은 7%에서 5%로 감소하는 경향을 보였다. 그러나 이러한 변화는 전체적인 대중교통 이용 비율 변화 측면에서 볼 때 미미한 것으로 평가되었다.
그러나, 연령대별로 세분화하여 두 시기의 대중교통 이용객 수 변화를 조사한 결과, 몇몇 유형에서는 뚜렷한 변화가 나타났다. Figure 5에 따르면, 일반인 승객의 경우 통행량이 1,361만에서 1,191만으로 2017년 대비 13%의 감소가 관찰되었으며, 노인 승객은 약 102만에서 123만으로 20% 증가하였다. 또한, 학생과 어린이 승객의 통행량에서는 약 40%의 감소가 나타났다. 학생 승객 수는 114만에서 71만, 어린이 승객 수는 11만에서 6만으로 큰 폭으로 감소하였다. 이를 통해, 코로나19로 인한 대중교통 통행량 변화는 승객의 연령대에 따라 다르게 나타나는 것을 확인할 수 있다.
2. 군집화 결과 비교
2017년도와 2021년도 스마트카드 데이터를 첫 하차 시각과 활동 시간을 기반으로 총 4개의 그룹으로 군집화하여 변화를 비교하였으며 해당 결과는 Table 3에서 확인할 수 있다. 결과적으로, 2021년 대비 2017년의 전체 대중교통 통행량은 확연히 감소한 것으로 확인되었다. 특히, 단일목적통행의 경우 수치가 15,903,612에서 13,935,548로 줄어든 것으로 관찰되었다. 추가적으로, 대다수의 군집에서 첫 하차 시각은 약 30분 앞당겨진 것으로 분석되며, 활동 시간 또한 소폭 감소한 경향을 보였다. 이러한 변화는 사회적 거리두기 지침 및 대중교통의 운영 시간 제한의 영향으로 일반 시민들의 일상 활동이 코로나 전 시기에 비해 조금 더 일찍 종료되고, 활동 기간이 상대적으로 짧아진 것으로 해석된다. 그렇지만, 궁극적으로 두 연도 간의 통행패턴에서의 근본적인 변화는 크게 나타나지 않는 것으로 분석되었다.
Table 3.
Clustering of total public transportation traffic based on smartcard data
3. 군집별 통행목적 추정
본 연구에서는 스마트카드 데이터에 부재한 통행목적을 추정하기 위해 가구통행실태조사 데이터를 활용하였고, 해당 결과는 Table 4를 통해 확인할 수 있다. 스마트카드 데이터의 군집화 방법론을 동일하게 적용하여 첫 하차 시각과 활동 시간을 기반으로 2016년 가구통행실태조사 데이터를 총 4개의 군집으로 군집화하였다. 그 결과, 각 군집에서의 평균 첫 하차 시각과 활동 시간은 스마트카드 데이터의 군집 평균값과 최소 30분에서 최대 2시간 차이로 나타났다. 이러한 오차의 크기는 군집마다 다르게 나타났는데, 이는 군집 내의 통행량 크기나 해당 군집을 대표하는 통행목적의 정기성에 따라 발생한 차이라고 해석된다.
따라서, 각각 4개의 가구통행실태조사 군집과 스마트카드 데이터 군집들을 첫 하차 시각과 활동 시간의 평균, 표준편차, 군집에 할당된 승객 수 값이 가장 유사하게 나타난 군집끼리 1대1로 대응시킴으로써 스마트카드 데이터 군집들의 통행목적을 추정하였다.
Table 4.
Clustering of total public transportation traffic based on K-NHTS data
Table 5를 통해 통행목적 추정 결과를 보면, 군집 1은 전체의 약 98%로 출근 및 통학 목적의 승객들로 구성되어 있음을 알 수 있었으며, 군집 2 역시 약 82%의 승객들이 출근 및 통학 목적으로 이동한 것으로 나타났다. 반면에 군집 3과 4는 여가 목적으로 통행하는 승객의 비율이 높게 나타났다.
Table 5.
Result for trip purpose imputation
4. 이용자 연령대 및 통행목적별 통행패턴 변화
군집화 결과를 기반으로 연령대별 통행패턴 및 목적을 분석한 결과, 각 군집마다 몇 가지 유의미한 변화들이 발견되었다. 이에 대한 상세 분석 값은 하단의 Table 6을 통해 제시되었다. 군집 1은 출근 및 통근을 목적으로 오전 8시 30분 경에 처음 하차하는 승객들에 대한 군집이다. 해당 군집에서 2021년도 첫 하차 시각은 2017년도 대비 크게 달라지지 않았으나 활동 시간은 전반적으로 짧아진 것으로 나타났다. 특히, 학생 승객들의 활동 시간이 가장 큰 폭으로 짧아진 것으로 확인되었다. 또한, 노인과 학생 이용자 수가 크게 변화한 것으로 나타났으며, 코로나19 발생 이후 노인 이용자 수는 54.2% 증가한 반면 학생 이용자 수는 73.6% 감소하는 뚜렷한 변화가 확인되었다.
한편, 군집 2는 출근 및 통학을 목적으로 대중교통을 이용하는 승객들로 구성되어 있으며, 대체로 오전 10시 30분경에 대중교통에서 처음 하차하며 약 2시간의 활동 시간을 가지는 특징을 보였다. 본 군집에서는 코로나19의 영향으로 첫 하차 시각이 약 1시간 앞당겨졌으며, 그 중에서도 학생 이용자의 첫 하차 시각이 2017년 평균 10시 32분에서 2021년에는 오전 9시 10분으로 크게 변화하는 행태가 관찰되었다. 활동 시간은 유형별로 약간의 감소가 발견되었으나 큰 차이는 나타나지 않았다. 그러나, 특정 연령대의 이용자 수는 큰 변화가 있었는데, 노인 이용자 수는 2017년에 비해 96.2% 증가하였고, 반면 어린이 이용자 수는 66.7% 감소하였다.
다음으로 군집 3은 군집 2와 마찬가지로 주로 오전 10시 30분에서 11시 정도에 대중교통에서 처음 하차하지만, 군집 2와는 다르게 여가 목적으로 약 5시간 정도의 활동을 하는 이용자들에 대한 군집으로 정의되었다. 다른 군집들과 마찬가지로 모든 연령대의 첫 하차시간이 30분에서 한 시간가량 앞당겨졌으며 활동 시간 또한 2017년도 대비 조금씩 짧아진 것으로 나타났다. 대중교통 이용자 수도 전반적으로 모든 연령대 유형에서 2017년 대비 감소한 것으로 나타났다.
마지막으로, 군집 4 역시 여가 목적의 통행을 하며 오후 4시쯤 처음 하차하며 약 2시간 정도의 활동 시간을 가지는 승객들에 대한 군집이다. 2017년에 비해 첫 하차 시각은 앞당겨졌고 활동 시간은 소폭 길어진 것으로 나타났다. 해당 그룹에서의 노인 이용객 수는 2017년 대비 41% 증가하였고, 그 외 나머지 유형의 이용객 수는 감소한 것으로 나타났다.
Table 6.
Analysis by age group for each cluster
결과 해석
1. 고령화로 인한 영향
본 연구의 결과는 코로나19로 인한 변화 이외에도 여러 인구사회적 요인들로 인해 큰 영향을 받았다고 볼 수 있다. 특히, 펜데믹 상황에도 불구하고 노인 승객의 통행량이 증가한 결과는 대한민국의 급속한 고령화와 밀접한 관련이 있을 것으로 판단된다. Figure 6은 대한민국 통계청 자료를 바탕으로 지난 10년간의 인구 피라미드 변화를 보여주고 있다. 2011년 대한민국의 총 인구는 51,744,876명이며 평균 연령은 38.4세였다. 이 연구에서 주요하게 다룬 2017년과 2021년의 경우, 2017년의 총 인구는 51,361,911명, 평균 연령은 41.2세였고, 2021년에는 총 인구 49,936,638명에 평균 연령이 43.3세를 기록하였다. 이렇게 대한민국의 평균 연령이 점차 증가함에 따라 Figure 6의 인구 피라미드 그래프가 위로 상승하는 추세를 보이는 것을 확인할 수 있다. 이를 통해 대한민국의 총 인구 수는 감소하는 반면 노인 인구의 비율은 지속적으로 증가하고 있다는 점을 확인할 수 있다. 이러한 인구 동향을 고려할 때, 코로나19의 여파에도 불구하고 고령화로 인한 노인 승객의 절대적인 수가 증가하여, 코로나19 발생 이후 노인 승객의 대중교통 통행량이 증가한 것으로 해석될 수 있다.
그러나, 이러한 인구 구조 변화와 별개로 코로나19 발생 이후 대중교통 통행량에 의미 있는 변화가 발생하였다는 것은 분명하다. Table 7은 각 이용자 유형별로 단일활동 통행량 변화율을 인구 변화율로 나누어, 인구의 변화를 고려했을 때 대중교통의 통행량이 얼마나 급격하게 변화하였는지를 나타낸다. 그 결과 모든 이용자 유형에서 해당 비율이 1을 초과한 것을 확인할 수 있었다. 이는 인구 변화에 비해 대중교통의 통행량 변화가 상대적으로 더 큰 폭으로 발생하였음을 의미한다. 특히, 노인 승객 유형에서만 통행량이 증가한 것을 확인할 수 있었다. 이는 팬데믹 시기에도 불구하고 노인 계층은 여전히 대중교통에 대한 높은 의존도를 가지며, 자가용이나 택시와 같은 다른 이동 수단으로의 전환이 상대적으로 제한적임을 의미한다. 이러한 분석 결과는 노인 계층이 다른 이용자 유형에 비하여 상대적으로 취약한 계층이며, 이에 대응하기 위한 노인 계층에 대한 지원 정책 및 대중교통 이용 패턴에 대한 면밀한 추가 연구가 필요함을 시사한다.
Table 7.
Transit volume changes with respect to population changes
2. 통행패턴의 공간적 변화
또한, 통행패턴의 변화를 보다 상세하게 파악하고자, 코로나19 발생 이후 대중교통 통행의 공간적 변화를 추가적으로 분석하였다. 여가 목적이 아닌 필수 목적의 통행을 중심으로 분석하기 위해 출발지와 목적지가 서로 다른 구를 연결하는 중장거리 통행만을 주요 분석 대상으로 설정하였다. 분석 결과, 일반인 승객의 대중교통 통행패턴에서는 2017년과 2021년 사이에 큰 공간적인 차이는 나타나지 않았다. Table 8은 년도별 일반인 승객의 주요 통행구간을 비교한 내용이며, Figure 7는 이를 서울시 지도 상에 표현한 것이다. 2017년에 비해 2021년에 일반인 승객의 통행량이 전반적으로 감소하였으나, 주요 출발 및 목적지는 크게 다르지 않았으며 강남 지역에서는 여전히 높은 통행량을 기록하였다.
Table 8.
Most frequented areas by general passengers
반면, 노인 통행패턴의 경우 다소 다른 양상을 보였다. Table 9와 Figure 8을 통해 확인할 수 있는 바와 같이, 2017년에 종로구와 강남구 지역에서 가장 높았던 노인 승객의 통행량은 2021년에는 오직 강남구 주변 지역에만 집중되었으며, 종로구 지역 통행량은 감소하였다. 특히, Table 10에 따르면, 노인 승객들이 2017년도에 가장 많이 통행하던 구간인 서초구 및 강남구 지역은 2021년도에도 여전히 높은 통행량을 기록한 반면, 전체 노인 통행량 중 3위와 4위를 차지하였던 종로구와 동대문구 지역에서의 통행량은 2021년에 약 6.12%에서 10.0% 가량 감소하여 각각 9위와 15위를 기록하였다.
Table 9.
Most frequented areas by elderly passengers
Table 10.
Rank change in most frequented areas by elderly passengers
이러한 결과는 현대 사회에서 노인층의 통행목적 및 사회 참여도 변화를 시사하는 중요한 지표로 해석될 수 있다. 2021년에 여전히 높은 강남구 지역의 높은 노인 통행량은, 노인 승객 통행량이 대폭 증가한 군집 2의 통행목적이 출근인 점과 강남 지역의 높은 기업 밀집도를 고려하였을 때, 고령화에 따른 노인층의 노동시장 참여도 증가를 반영하는 것으로 해석된다. 반면, 종로구 및 동대문구 통행량에서의 감소는 코로나19의 영향으로 노인의 여가 목적 활동이 감소된 결과라고 판단된다. 본 연구의 군집 분석 결과에 따르면, 총 4개의 노인 승객 군집들 중 유일하게 여가 목적으로 통행하며 평균 5시간 가량의 활동 시간을 가지는 승객들에 대한 군집만이 통행량 감소를 기록했다. 종로구는 공원 및 고령자 전용 서비스 시설들이 밀집되어 있는 지역으로, 노인들의 여가 활동이 특히 활발한 지역으로 알려져 있다(The Seoul Institute, 2012). 종합적으로, 종로구 지역에서의 노인 통행량 감소는 코로나19 발생 이후 노인들의 여가 목적 통행량이 감소하였다는 것을 간접적으로 나타내며 이는 본 연구의 통행목적 추정 결과와 논리적으로 유사성을 갖는다.
결론
본 연구는 코로나19로 인한 대중교통 통행행태 및 목적의 변화를 스마트카드 내 이용자 유형별로 세분화하여 분석하였다. 이를 위해 2017년과 2021년의 스마트카드 데이터를 활용하여 코로나19 발생 전후 통행량을 비교하였으며 k-means 군집화 알고리즘을 통해 유사한 통행패턴을 가진 군집들을 정의하였다. 또한, 가구통행실태조사 데이터를 추가적으로 활용하여 각 군집의 통행목적을 추정하였다. 이어, 각 군집에서 이용자 유형별로 통행패턴의 시공간적 특징 및 변화를 분석하였다.
분석 결과, 코로나19로 인한 대중교통 통행량 변화는 다양한 이용자 유형에 따라 차이가 있는 것으로 나타났다. 특히, 군집별로 노인 이용자 수가 전반적으로 증가한 것으로 나타났는데, 이는 고령화로 인한 노인 인구 수의 증가에 기인한 것으로 유추할 수 있다. 아울러, 경제활동 참여율이 높은 청장년층의 대부분은 의무통행과 여가통행을 병행하는 것과 달리, 고령층의 경우 사회경제적 수준이 낮은 고령층 위주로 생계형 노동을 위한 의무통행을 하는 경향성이 있으며(Lee and Sohn, 2021), 이를 통해 코로나19 기간 중 생계형 노인이 급증한 것으로도 추측할 수 있다. 한편, 노인층은 상대적으로 전염병에 취약하다는 점을 고려할 때, 대중교통의 철저한 방역으로 대중교통에서의 감염 위험을 최소화 할 필요가 있다(Cho et al., 2020). 더불어 노약자의 대중교통 이용률이 높다는 점에서 버스나 지하철 등의 대중교통수단에 노약자석 및 환승 무빙워크 등 편의시설 확대를 위한 정책적 지원이 요구된다. 또한, 고령자의 통행패턴에 영향을 미치는 다양한 요인들을 고려하여 적절한 교통시설 공급 전략을 마련하는 것이 중요하다(Choo et al., 2011). 본 연구는 세분화된 이용자 유형별 통행행태 및 목적 분석을 통해 특성화된 정책적 지원 및 제반시설 공급 전략 등의 기반 마련을 위한 정책적 시사점을 제공하였다는데 의의가 있다.
본 연구의 한계점 및 후속 연구의 과제는 다음과 같다. 연간 상시 수집되는 스마트카드 데이터와는 달리, 가구통행실태조사 데이터는 5년 주기로 제한되어 수집되기 때문에, 양 데이터 간 시점이 불일치하는 문제가 있다. 이로 인해, 본 연구는 스마트카드 데이터의 2017년 및 2021년 시점과 일치하는 가구통행실태조사 데이터를 구득할 수 없는 한계가 존재한다. 따라서, 향후 연구에서는 가구통행실태조사 자료를 최신화하고, 더불어 가구통행실태조사 외 연도별 통행행태 자료를 추가적으로 활용하여 분석의 신뢰도를 높이는 방안을 모색할 필요가 있다. 또한, 데이터 구득의 한계로 인해 본 연구에서는 코로나19에 따른 통행패턴의 변화를 2021년 10월에만 제한하여 분석하였다. 따라서, 향후 연구에서는 보다 광범위한 시간적 범위의 스마트카드 데이터를 확보하여, 코로나19 거리두기 정책 변화에 따른 통행패턴 및 목적의 변화를 조사할 필요가 있다. 끝으로, 이질적인 두 데이터 속 군집들에 대해 유사한 통행 특성을 가진 군집 간 1:1 매칭을 통해 통행목적을 추정하는 데서 더 나아가, 후속 연구는 통계적 기법을 활용하여 군집 간의 유사도를 측정 및 분석할 필요성이 있다. Shin et al.(2022)의 연구에서 Hidden Markov model(HMM)을 사용하여 도시철도 역세권을 여러 군집으로 분류하고 각 군집별로 발생하는 활동을 추정한 사례를 볼 때, 스마트카드 데이터의 통행목적을 추정하는 경우에도 이러한 방법론을 사용할 수 있을 것이다.










