Article

Journal of Korean Society of Transportation. 31 October 2022. 717-734
https://doi.org/10.7470/jkst.2022.40.5.717

ABSTRACT


MAIN

  • 서론

  • 선행연구 검토

  • 분석자료

  •   1. 데이터 전처리

  •   2. 기초통계분석

  • 연구방법론

  •   1. 다항 로지스틱회귀분석

  •   2. DNN(Deep Neural Network)

  •   3. Confusion Matrix

  • 모형 추정 결과

  •   1. 데이터 분류

  •   2. 다항 로지스틱회귀분석 결과

  •   3. DNN 학습결과

  •   4. Confusion Matrix 결과

  • 결론

서론

비만이란, 체내에 체지방이 정상보다 과다하게 많은 양이 축적된 상태로 고혈압, 당뇨병, 이상지질혈증 등과 같은 질병들의 발생 위험을 증가시킬 수 있다. 세계보건기구(World Health Organization, WHO)에서는 비만을 ‘건강을 해칠 정도의 지방조직에 비정상이거나 과도한 지방이 축적된 상태’로 정의하였으며, 장기 치료가 필요한 질병으로 규정하였다(WHO, 2000). 이러한 비만을 치료하고 예방하기 위해서는 정확한 측정이 필수적이다. 비만을 측정하는 가장 정확한 방법은 체내 지방량을 측정하고 평가하는 것이지만, 실제 지방량을 정확하게 측정하는 것은 매우 복잡하고 특수한 시설을 필요로 하여 많은 어려움이 존재한다(Kim, 2000). 따라서 이러한 문제점으로 인해 비만 측정 시 주로 간접측정법이 사용되고 있으며, 이 중 가장 널리 사용되고 있는 방법은 체질량지수(Body Mass Index, BMI)를 활용한 방법이다.

BMI란 몸무게(kg)를 키(m)의 제곱으로 나눈 값으로, 체지방량과 상관관계가 높은 것으로 나타나 비만 측정에 가장 널리 사용되는 방법이다. 비만의 기준은 각 나라별, 기구별로 BMI 수치에 따라 상이하게 정의되고 있다. WHO에서는 BMI 수치가 25 이상을 과체중으로, 30 이상을 비만으로 정의하고 있으며, 이는 사망률 및 비만 관련 질병들이 이를 기점으로 증가하는 것에 근거하고 있다. 우리나라에서는 BMI 수치가 23 이상을 과체중으로, 25 이상을 비만으로 정의하고 있으며, 세부적으로 1단계 비만(25≤BMI<30), 2단계 비만(30≤BMI<35), 3단계 비만(35≤BMI, 고도비만)으로 정의하고 있다. 이러한 기준은 우리나라 성인에게서 비만 관련 질병의 증가가 BMI 수치 25를 기점으로 유의미하게 증가하는 것에 근거하고 있다(Korean Society for the Study of Obesity, 2020).

이러한 비만의 원인으로는 일반적으로 일차성 비만과 이차성 비만이 있으며, 일차성 비만이 전체의 90% 이상으로 대부분의 비만이 이에 해당한다(Korean Society for the Study of Obesity, 2020). 일차성 비만은 에너지 소모량보다 에너지 섭취량이 많은 상태에서 체지방량이 증가하게 되어 발생하는 것이다. 일차성 비만의 원인은 하나의 원인만으로 설명하기 어려우며, 식습관, 생활습관 등 다양한 요인들이 복합적으로 영향을 미치는 것으로 알려져 있다. 주된 원인으로는 과도한 음식 섭취로 인한 에너지(칼로리) 과잉과 상대적인 활동량 감소로 인한 에너지 소모량 감소로 여겨지고 있다.

이 중 활동량은 생활습관과 밀접한 관련이 있다. 일상생활에서 발생하는 활동량의 대부분은 통행에서 발생한다. 통행 중 보행활동은 활동량을 증가시키는 주된 활동이며, 일상생활에서 건강증진을 위한 운동효과를 가져올 수 있다. 하지만, 교통수단은 접근시간과 대기시간을 최소화하는 방향으로 발전하였다. 도보에서 자가용, 대중교통, 자전거, 최근 새로운 수단으로 등장한 공유 모빌리티(Sharing Mobility)와 같은 수단으로 변화하게 되었으며, 이에 따라 보행시간은 감소하고 있는 추세이다. 2020년 지역사회건강조사 결과에 따르면, 걷기 실천율(최근 1주일 동안 1일 30분 이상 걷기를 5일 이상 실천한 사람의 분율)의 전국 중앙값은 2011년 41.7%에서 2020년 37.4%로 크게 감소한 것으로 나타났다(KDCA, 2021). 이러한 통행행태는 도시 및 교통시설 등과 같은 거주지의 도시환경과 깊은 관련이 있으며, 도시계획측면에서 이와 관련한 연구가 활발하게 진행되고 있다. 이러한 배경에서 등장한 건강도시 개념은 의료적 측면의 정책뿐만 아니라, 도시의 물리적 환경 개선을 통한 시민들의 건강 증진을 도모하고자 하는 것이다. 이는 주변 물리적 환경이 거주민의 행태에 영향을 미친다는 가설을 기반으로 하며, 보행을 증진시킬 수 있는 보행친화적 환경 조성의 필요성을 강조한다. 따라서 건강도시 이론을 바탕으로 사람들이 이용할 수 있는 공간, 교통수단과 같은 지역적 요인도 개인의 건강에 영향을 미칠 것으로 판단된다.

본 연구는 이러한 현황을 고려하여, 지역의 도시 및 교통환경이 개인의 건강수준에 미치는 영향을 분석하는데 목적을 두고 있다. 또한, 영향요인들을 도출하여 이를 통해 개인의 건강수준을 예측하고, 이와 관련한 정책적 시사점을 도출하여 건강도시 설계에 적합한 교통계획에 기여하고자 하였다.

선행연구 검토

Chun(2016)은 도시환경이 건강에 미치는 영향을 분석하고자, 개인특성과 물리적, 사회적 도시환경이 지역의 비만인구비율과 주관적 건강인지율에 미치는 영향에 대해 분석을 진행하였다. 서울열린데이터 광장에서 제공하는 2014년 서울시 25개 자치구의 비만도 통계자료를 활용하였으며, 공간계량경제모형을 활용하여 도시환경과 비만인구비율 및 주관적 건강인구비율 간의 관계를 분석하였다. 비만인구비율모형의 SEM(Spatial Error Model) 추정결과 흡연율과 음주율은 비만인구비율에 양의 영향을 미치는 것으로 분석되었으며, 이를 통해 관련 판매시설 규제정책을 도시계획에 반영할 필요성을 주장하였다. 자전거도로 연장은 음의 영향을 미치는 것으로 드러났으며, 도시계획적 측면에서 대중교통 및 자전거이용을 활성화시킬 수 있는 계획 수립의 필요성을 주장하였다.

Jang and Son(2017)은 교통환경 및 지역별 특성이 해당 지역주민의 건강수준에 미치는 영향을 분석하고자 하였다. 2013년 국민생활체육참여 실태조사 데이터를 활용하였으며, 공간적 범위를 광역시 ‧ 도 단위로 설정하였다. 종속변수는 체질량지수를 활용하여 저체중, 정상, 과체중, 비만으로 구분하여 분석을 진행하였다. 체질량지수와 개인특성 간의 관계를 규명하기 위해 다항 로지스틱회귀모형을 활용하였으며, 지역특성과 체질량지수 사이의 관계를 규명하기 위해 독립표본 t-검정을 활용하였다. 지역특성과 체질량지수 간의 관계분석결과 BMI가 높은 지역일수록 자가용등록대수가 많은 것으로 나타났다. 이를 대중교통보다 자가용을 많이 이용하는 지역인 것으로 해석하여, 시민들의 활동량이 적은 것으로 판단하였다. BMI가 높은 지역의 대중교통 접근시간은 비교적 낮은 것으로 나타났으며, BMI가 낮은 지역에서는 대중교통 접근시간, 이용횟수 모두 비교적 낮은 것으로 나타났다. 이를 환승거리가 짧은 것으로 해석하였으며, 이에 따라 활동량이 적은 것으로 판단하였다.

Shin et al.(2009)은 대중교통, 도보 등과 같은 보행 친화적 교통수단 이용자들의 통근행태가 체질량지수에 미치는 영향을 분석하였다. 2008년 6월부터 7월까지 수도권에 거주하는 직장인을 대상으로 실시한 1,285개의 설문조사자료를 분석에 활용하였다. 경로분석결과, 차외시간은 체질량지수에 음의 영향을 미치는 것으로 나타났으며, 차내시간은 양의 영향을 미치는 것으로 분석되었다. 이 중 차외시간은 대부분 걷는 시간으로 판단하였으며, 걷는 시간이 증가하면 활동량은 증가하기 때문에 체질량지수가 감소한 것으로 해석하였다. 이에 따라 승용차보다 보행 친화적 교통수단을 이용하는 것이 걷는 시간을 증가시키고 신체활동량이 증가하여 체질량지수를 감소시킬 것으로 판단하였다. 이러한 결과를 토대로, 대중교통수단 이용이 개인의 편익에도 긍정적으로 영향을 미치며, 보행 친화적 교통수단 이용에 대한 인식의 전환 유도에 기여할 것으로 판단하였다.

Lee et al.(2019)은 도시와 농촌지역 청소년의 비만에 미치는 영향요인을 비교분석하였다. 2013년 청소년 건강행태조사 자료 중 26,513명의 자료를 분석에 활용하였다. 도시와 농촌지역 간 개인 특성 차이에 대하여 교차분석 및 t-test를 진행하였으며, 거주지역과 BMI 그룹의 건강행태 특성 차이 분석에 이원분산분석을 활용하였으며, 비만에 미치는 영향요인을 도출하기 위해 다항 로지스틱회귀분석을 진행하였다. 분석결과, 과체중 및 저체중은 대도시에, 비만은 농촌지역에 많은 것으로 드러났다. 또한, 주관적 건강수준이 보통 또는 불건강하다고 생각할수록 과체중과 비만일 가능성이 높게 나타났다. 이러한 결과를 바탕으로, 청소년의 비만 문제 해결을 위해 거주지역 특성을 반영한 프로그램 개발 및 도입의 필요성을 주장하였다.

Murphy et al.(2017)은 식료품점의 밀도, 접근성, 야채 및 과일 섭취량과 체질량지수 간의 관계를 분석하였다. Melbourne 거주자를 대상으로 키, 체중 데이터가 불분명한 응답자, 임산부, 체질량지수가 50 이상인 응답자를 제외한 3,128명의 응답자료를 연구에 활용하였다. 분석결과, 사회 ‧ 경제적으로 불리한 지역에 거주하는 응답자가 야채 및 과일 섭취량이 낮고 체질량지수가 높게 나타났으며, 식료품점과 패스트푸드점에 대한 접근성이 높은 것으로 분석되었다. 또한, 800m와 1,000m 내 식료품점의 밀도가 높을수록 체질량지수에 음의 영향을 미치는 것으로 드러났다. 이러한 결과를 식료품점이 인접해 있을수록 도보 이외의 교통수단에 대한 의존도가 낮아질 것으로 해석하였으며, 식료품점의 접근성을 개선하기 위한 도시계획의 필요성을 주장하였다.

Feng et al.(2019)은 통근 행태가 건강에 미치는 영향을 분석하였다. 비만과 통근시간, 통근수단 간 관계분석을 위해, 홍콩 직장인 990명을 대상으로 실시한 설문조사자료를 활용하여 다항 로지스틱회귀분석을 진행하였다. 분석결과, 대중교통 및 도보/자전거를 이용하여 통근하는 응답자는 자동차/택시로 통근하는 응답자에 비해 비만 위험이 낮은 것으로 분석되었다. 또한, 통근시간이 ‘90-119분’인 응답자가 통근시간이 ‘30분 이내’인 응답자에 비해 180% 더 높은 비만 위험성을 가지는 것으로 나타났다. 이를 고려하여, 교통 지원 제도, 근로 인센티브, 대중교통 요금 보조금 제도와 같은 교통 보조금 정책을 통한 시민들의 건강 증진 필요성을 주장하였다.

Daniel et al.(2013)은 식품 매장까지의 거리, 과일 및 야채 소비, 식품 매장까지 이용하는 교통수단과 체질량지수 간의 관계를 분석하였다. 필라델피아 거주자 1,440명을 대상으로 한 설문조사 중, 1,266명의 응답을 활용하여 선형 회귀분석을 진행하였다. 분석결과, 대중교통을 이용하여 식품 매장으로 접근하는 응답자는 여성, 흑인인 경우 체질량지수가 높은 것으로 나타났다. 복합교통수단을 이용하여 식품 매장을 이용하는 응답자는 흑인, 기타 인종인 경우 체질량지수가 높은 것으로 분석되었다.

Barbara et al.(2009)은 보행 가능한 공간을 나타내는 변수인 엔트로피지수, 공원 및 대중교통 정류장까지의 거리 등과 체질량지수 간의 관계를 분석하였다. Utah 주 운전 면허소지자의 데이터 중 5,000명의 자료를 활용하였다. 체질량지수, 과체중 및 비만과 변수들 간의 관계를 분석하기 위해 일반화 추정 방정식을 활용하였다. 분석결과, 여성의 경우에 경전철 정류장 접근성은 체질량지수 및 비만 위험에 음의 영향을 미치는 것으로 드러났다. 성인의 경우, 학교 접근성은 대중교통 및 도보와 음의 상관관계를 가지는 것으로 나타났다. 이러한 결과를 고려하여, 대중교통 중심 개발을 통한 보행환경 개선의 필요성을 주장하였다.

선행연구 검토결과, 지역특성요인과 개인의 건강수준의 관계에 대한 연구는 공간적 범위가 시 ‧ 도 단위로 광범위한 연구가 대부분으로 나타났다. 하지만, 도시 및 교통환경은 보다 작은 범위인 거주지 인근에서 개인의 행태에 영향을 미칠 것으로 판단된다. 또한, 교통수단과 개인의 건강수준의 관계에 대한 연구는 최근 도입된 공유 경제형 모빌리티 서비스를 반영한 분석은 미흡한 것으로 나타났다. 공유 모빌리티(Sharing Mobility) 서비스란 자동차, 자전거, 전동킥보드 등과 같은 교통수단을 필요에 따라 이용할 수 있도록 제공하는 교통서비스를 뜻하며(Sung, 2018), 특히 공유 모빌리티 서비스 중 개인형 이동수단(Personal Mobility, PM)을 활용한 서비스가 최근 주목받고 있다. PM은 공유 자전거, 공유 전동킥보드와 같이, 주로 전기를 동력으로 활용하는 1인 또는 2인이 이용할 수 있는 교통수단을 의미하며, 이러한 서비스는 주로 보행을 대체하는 수단으로 활용되는 것으로 알려져있다(Choi and Jung, 2020; Kim et al., 2021). 이를 고려하여, 거주지의 공유 PM 서비스 활성화는 시민들의 보행량을 감소시킬 것으로 예상되며, 시민들의 활동량을 감소시킬 것으로 판단된다.

따라서 본 연구에서는 시 ‧ 군 ‧ 구 단위의 공간적 범위에 대한 분석으로, 보다 세밀한 분석을 진행하고자 하였다. 또한, 최근 도입된 공유 자전거, 공유 전동킥보드의 영향을 반영하여, 새로운 교통수단의 도입이 개인의 건강수준에 미치는 영향을 분석한다는 점에서 차별성이 존재한다. 추가적으로 이러한 영향요인들을 활용하여 개인의 건강수준을 예측한 연구는 미흡한 것으로 나타났다. 개인의 건강수준을 예측하는 것은 건강도시 설계 시 도시 및 교통설계 요소들을 반영한 비만 인구 비율을 산출하여, 건강도시 설계 지표로 활용될 수 있을 것으로 판단된다. 따라서 본 연구에서는 도출한 영향요인들을 활용하여, 개인의 건강수준을 예측한다는 점에서 기존 연구들과의 차이가 있다.

분석자료

2018년부터 2020년까지의 최근 3개년도 지역사회건강조사(Community Health Survey, 2018, 2019, 2020) 중, 수도권 거주자를 대상으로 분석을 진행하였다. 총 220,497개의 데이터를 수집하였으며, 설문조사 내용은 기본정보, 가구조사, 주관적 건강수준, 건강행태, 예방접종 및 검진, 이환, 의료이용, 사고 및 중독, 사회 물리적 환경, 심폐소생술, 교육 및 경제활동, 코로나바이러스감염증-19(2020)에 대한 내용으로 이루어져 있다.

1. 데이터 전처리

수집한 220,497개의 데이터 중, 종속변수로 활용한 개인의 건강수준을 체질량지수를 활용하여 판단하기 위해, 체질량지수 수치가 불분명한 응답 21,469개를 제외하였다. 또한, 체질량지수 수치가 이상치인 응답자를 제거하기 위해, 정규변환 후 6배의 표준편차를 벗어나는 값을 이상치로 설정하였다. 6배의 표준편차 범위는 불량률이 100만개 중 0.002개로 아주 낮은 상태를 의미하므로, 통계적으로 이를 벗어난 값은 이상치로 판단이 가능하다(Beak, 2000). 따라서 이를 반영하여 이상치 92개를 추가적으로 제외하였다. 독립변수로 활용한 주관적 건강수준, 흡연빈도, 음주빈도 등과 같은 항목에 대해 응답이 불분명한 응답자 2,869개를 제외 후, 최종적으로 196,067개의 조사자료를 연구에 활용하였다. 지역사회건강조사에서 제공하는 데이터는 거주지가 시 ‧ 군 ‧ 구 단위이기 때문에, 도시 및 교통환경 특성을 반영하기 위해 지역변수를 시 ‧ 군 ‧ 구 단위로 데이터를 수집하여 연구에 활용하였다. 최종적으로, 18개의 개인특성변수와 5개의 지역변수를 Table 1과 같이 개인별로 구축하였다.

2. 기초통계분석

기초통계분석결과, Table 2와 같이 분석되었다. BMI 그룹은 저체중 4.4%, 정상 62.7%, 비만 32.9%로 저체중이 비교적 적게 나타났으며, 정상이 비만에 비해 약 2배 많은 것으로 나타났다. 응답자의 평균 연령은 50.61세로, 성별은 여성이 남성에 비해 비교적 많은 것으로 나타났다. 기초생활수급자는 3.2%로 나타났으며, 자동차 운전자는 54.9%로, 오토바이운전자는 2.8%로 비교적 적은 것으로 나타났다. 경제 비활동자가 39.1%로 경제 활동자에 비해 적은 것으로 나타났으며, 주간 아침식사횟수는 아침식사를 하지 않는 응답자가 20.3%로 나타났으며, 주 ‘5-7회’ 아침식사를 하는 응답자가 62.7%로 가장 높게 나타났다. 주관적 스트레스 수준은 거의 느끼지 않는 응답자가 20.1%로 나타났으며, 조금 느끼는 응답자가 54.2%로 가장 높게 나타났다. 공유 자전거 서비스 지역에 거주하는 응답자는 48.0%로 나타났으며, 공유 PM 서비스 지역에 거주하는 응답자는 47.7%로 나타났다. 이때 공유 PM 서비스는 조사시작일 전 서비스가 된 지역을 서비스 지역으로 설정하였으며, 2018년에는 설문조사 시작일 전 도입된 지역이 존재하지 않은 것으로 나타났다.

Table 1.

Design of variable

Variable Description
Personal
variable
Age Continuous variable (unit: age)
Sex Categorical variable (1=male, 0=female)
Apartment resident Categorical variable (1=resident, 0=non-resident)
Number of household members
(over 19)
Continuous variable (unit: person)
Recipient of basic living Categorical variable (1=recipient, 0=non-recipient)
Perceived health status Ordinal variable (1=very good ~ 5=very bad)
Smoking frequency Ordinal variable (0=non-smoker ~ 3=everyday)
Drinking frequency Ordinal variable (0=non-drinking ~ 5=more than 4 times a week)
Car driver Categorical variable (1=driver, 0=non-driver)
Motorcycle driver Categorical variable (1=driver, 0=non-driver)
Number of breakfast a week Ordinal variable (0=not eating ~ 3=5-7 times a week)
Perceived stress level Ordinal variable (0=hardly feel any stress ~ 3=feel a lot of stress)
Experience of depression Categorical variable (1=experienced person, 0=non-experienced person)
Person diagnosed with
hypertension
Categorical variable (1=experienced person, 0=non-experienced person)
Person diagnosed with diabetes Categorical variable (1=experienced person, 0=non-experienced person)
Economically inactive person Categorical variable (1=inactive person, 0=active person)
Person living with spouse Categorical variable (1=living with spouse, 0=not living with spouse)
BMI group Categorical variable (1=low weight (BMI<18.5),
2=normal (18.5≤≤
Regional
variable
Ratio of park area Continuous variable (unit: ratio)
Ratio of public sports facilities Continuous variable (unit: ratio)
Traffic volume of public
transportation
Continuous variable (unit: 1,000,000, total peak (7-9 am) traffic volume)
Service area of sharing bike Categorical variable (1=service area, 0=non-service area)
Service area of sharing
personal mobility
Categorical variable (1=service area, 0=non-service area)
Table 2.

Descriptive statistics of the dependent variable and independent variable

Variable Mean Std. Dev. Min Max
Dependent variable BMI group 2.28 0.540 1 3
Independent variable Age 50.61 17.280 19 110
Male 0.46 0.498 0 1
Apartment resident 0.54 0.498 0 1
Number of household members (over 19) 2.50 1.031 1 9
Recipient of basic living 0.03 0.177 0 1
Perceived health status 2.64 0.850 1 5
Smoking frequency 0.68 1.087 0 3
Drinking frequency 1.92 1.659 0 5
Car driver 0.55 0.498 0 1
Motorcycle driver 0.03 0.165 0 1
Number of breakfast a week 3.15 1.222 1 4
Perceived stress level 2.09 0.745 1 4
Experience of depression 0.06 0.246 0 1
Person diagnosed with hypertension 0.24 0.428 0 1
Person diagnosed with diabetes 0.10 0.298 0 1
Economically inactive person 0.39 0.488 0 1
Person living with spouse 0.64 0.481 0 1
Area of parks 0.0598 0.0530 0.0000 0.2732
Area of public sports facilities 0.0031 0.0053 0.0000 0.0294
Traffic volume of public transportation 10.0567 9.3855 0.0000 39.0920
Service area of sharing bike 0.48 0.500 0 1
Service area of sharing personal mobility 0.48 0.499 0 1

개인 및 지역특성에 따른 BMI 그룹특성 분석결과, Table 3과 같이 분석되었다. 먼저, 성별에서 비만인구비율은 여성보다 남성이 14.2% 더 높은 것으로 드러났다. 이는 여성들의 체중감량과 신체조건을 중시하는 대한민국의 문화의 특성으로 판단되기도 하며, 남성들의 과도한 음주 및 과식 등과 같은 행위에 비해 활동량이 감소하여 이러한 차이가 발생하는 것으로 해석된다(Jang and Son, 2017). 아파트 거주자가 비거주자보다 비만인구비율이 3% 낮은 것으로 나타났다. 아파트와 일반주택의 차이는 이용할 수 있는 복리시설과 관련이 있을 것으로 판단된다. 현대식 아파트는 단지 내 다양한 복리시설들이 입주하여 접근성이 뛰어난 반면, 일반주택의 경우 아파트에 비해 접근성이 낮을 것으로 판단된다. 따라서 아파트 거주자는 근린생활시설, 주민 운동시설 등의 이용에 대한 높은 편의성으로, 일반주택 거주자에 비해 비만인구비율이 낮은 것으로 판단된다. 기초생활수급자는 비수급자보다 비만인구비율이 3% 높은 것으로 드러났다. 기초생활수급자는 경제적인 어려움으로 인한 균형적인 영양분 섭취가 어려울 것으로 판단되며, 비수급자에 비해 불균형한 영양섭취로 비만인구비율이 많은 것으로 판단된다. 자동차 운전자가 비운전자보다 비만인구비율이 4.5% 높게 나타났으며, 오토바이 운전자 또한 비운전자보다 11.7% 높은 것으로 드러났다. 자동차와 오토바이는 대중교통과 같은 다른 수단에 비해 상대적 활동량이 적어, 이와 같은 결과가 나타난 것으로 판단된다. 특히, 오토바이 운전자인 경우 오토바이를 이용하는 직업을 가지는 경우가 비교적 많을 것으로 판단되며, 이에 따라 활동량이 자동차 운전자보다 적어 비만인구비율 차이가 큰 것으로 판단된다. 우울감 경험자는 비경험자보다 비만인구비율이 0.4% 높게 나타났으며, 고혈압 진단경험자는 비경험자보다 19.5%, 당뇨병 진단경험자는 14.3% 높은 것으로 분석되었다. 이는 고혈압과 당뇨병, 스트레스 및 우울감은 비만과의 상관성이 높기 때문에 나타난 결과로 판단된다(Moon et al., 2001; Kim et al., 2014). 다음으로 경제 비활동자가 경제 활동자보다 비만인구비율이 4.1% 낮게 나타났다. 이는 경제 활동자는 주로 좌식 생활 습관으로 활동량이 낮은 반면, 경제 비활동자는 비교적 많은 시간적 여유로 상대적인 활동량이 비교적 많을 것으로 판단된다. 배우자와 동거하는 경우에는 비동거자보다 4.2% 많은 것으로 드러났다. 이는 결혼 후 동거하는 경우, 미혼인 경우보다 규칙적인 식사로 영양섭취량이 높아진 것으로 판단된다(Jang et al., 2012; Kim and Lee, 2015). 공유 자전거 서비스 지역에 거주하는 경우, 비거주자보다 비만인구비율이 2.5% 낮은 것으로 나타났다. 또한, 유사하게 공유 PM 서비스 지역에 거주하는 경우 비거주자보다 3.2% 낮은 것으로 나타났다. 이는 공유 자전거, 공유 PM은 주로 접근수단인 보행을 대체하는 수단으로 이용되는 것을 고려하면 의외의 결과로 판단된다(Choi and Jung, 2020; Kim et al., 2021). 하지만, 목적통행이 통근목적과 여가목적통행이 유사한 비율을 가지는 것을 고려하여(Kim et al., 2021), 여가목적으로 이용하는 경우 자동차, 대중교통 등보다 활동량이 비교적 높기 때문에 나타난 결과로 판단된다.

Table 3.

Distribution of BMI group according to dummy variable

Dummy variable BMI group
Low weight (y=1) Normal (y=2) Obesity (y=3)
Sex (1=male) 0 6.3% (6,729) 67.3% (71,928) 26.4% (28,190)
1 2.1% (1,883) 57.2% (51,073) 40.6% (36,264)
Apartment resident (1=resident) 0 4.2% (3,740) 61.3% (55,170) 34.5% (31,043)
1 4.6% (4,872) 63.9% (67,831) 31.5% (33,411)
Recipient of basic living (1=recipient) 0 4.4% (8,266) 62.9% (119,279) 32.8% (62,190)
1 5.5% (346) 58.8% (3,722) 35.8% (2,264)
Car driver (1=driver) 0 6.1% (5,359) 63.5% (56,182) 30.4% (26,907)
1 3.0% (3,253) 62.1% (66,819) 34.9% (37,547)
Motorcycle driver (1=driver) 0 4.5% (8,481) 63.0% (120,052) 32.5% (62,014)
1 2.4% (131) 53.4% (2,949) 44.2% (2,440)
Experience of depression
(1=experienced)
0 4.3% (7,852) 62.8% (115,174) 32.9% (60,328)
1 6.0% (760) 61.6% (7,827) 32.5% (4,126)
Person diagnosed with hypertension
(1=experienced)
0 5.3% (7,859) 66.6% (99,088) 28.2% (41,927)
1 1.6% (753) 50.7% (23,913) 47.7% (22,527)
Person diagnosed with diabetes
(1=experienced)
0 4.7% (8,271) 63.9% (112,836) 31.5% (55,583)
1 1.8% (341) 52.5% (10,165) 45.8% (8,871)
Economically inactive person
(1=inactive)
0 3.7% (4,372) 61.9% (73,854) 34.5% (41,119)
1 5.5% (4,240) 64.1% (49,147) 30.4% (23,335)
Person living with spouse
(1=living with spouse)
0 6.8% (4,791) 63.1% (44,762) 30.2% (21,403)
1 3.1% (3,821) 62.5% (78,239) 34.4% (43,051)
Service area of sharing bike
(1=service area)
0 4.1% (4,193) 61.8% (62,979) 34.1% (34,701)
1 4.7% (4,419) 63.7% (60,022) 31.6% (29,753)
Service area of sharing personal mobility
(1=service area)
0 4.3% (4,461) 61.3% (62,830) 34.4% (35,288)
1 4.4% (4,151) 64.4% (60,171) 31.2% (29,166)

연구방법론

본 연구에서 활용한 방법론은 다항 로지스틱 회귀분석과 딥러닝 알고리즘 중 DNN(Deep Neural Network)이다. 다항 로지스틱 회귀분석은 개인의 건강수준에 유의미한 영향을 미치는 요인들을 판별하고, 관계를 식별하기 위해 사용하였다. 나아가, 구축한 모형을 적용하여 장래 건강도시 설계 지표로의 활용하기 위해 개인의 건강수준을 예측하고, 성능을 평가하고자 하였다. 추가적으로 최근 활발히 이용되고 있는 예측방법 중, 딥러닝 알고리즘의 DNN을 활용하여 개인의 건강수준을 예측하였다. 이를 통해, 정교한 가정과 신뢰도를 기반으로 한 전통적 통계분석 방법과 예측 성공 확률을 향상시키고자 하는 딥러닝 방법을 비교하여, 개인의 건강수준 예측에 적합한 방법을 선정하고 제안하고자 하였다. 이를 위해, confusion matrix를 사용하여 두 방법론의 예측 성능을 비교·평가하였다.

1. 다항 로지스틱회귀분석

본 연구에서 종속변수로 활용한 BMI 그룹은 1=저체중(BMI<18.5), 2=정상(18.5≤BMI<25), 3=비만(25≤BMI) 3가지 범주로 구성되어 있다. 이처럼 예측변수의 값에 따른 분류분석에는 로지스틱 회귀모형이 유용하게 이용된다(Lee et al., 2005; Min and Choi, 2012; Kim and Kim, 2020). 로지스틱 회귀분석은 종속변수가 범주형인 경우, 종속변수와 독립변수 간의 관계를 분석하기 위해 주로 활용되는 모형으로, 확률효용이론에 따라 효용이 확률함수로 표현되며 의사결정주체는 가장 높은 효용을 가지는 대안을 선택한다고 가정한다. 또한, 특정 사건이 발생할 확률을 추정하는 분석방법으로, 종속변수의 예측값은 확률값으로 항상 0과 1사이의 값을 가지게 된다. 종속변수의 범주 개수에 따라 사용하는 방법이 다르며, 종속변수가 2가지 범주인 경우 이분형 로지스틱 회귀분석을, 종속변수가 3개 이상의 범주를 가지는 경우 다항 로지스틱 회귀분석을 활용한다(Lee et al., 2005; Min and Choi, 2012; Kim and Kim, 2020).

본 연구에서는 종속변수인 BMI group을 3가지 범주로 구분하였으므로, 다항 로지스틱 회귀분석을 활용하였다. 종속변수가 3가지 이상의 범주를 가지므로, 기준범주를 정상(Y=2)으로 설정하였다. 따라서 k개의 독립변수를 가지며, 기준범주에 비해 j 범주를 선택하게 될 확률의 비는 Equation 1과 같이 표현할 수 있다. 이때, β는 응답자의 k 번째 독립변수가 기준범주에 비해 범주 j를 선택할 확률에 미치는 영향력을 나타내는 계수이다. 이를 응답자가 j 범주를 선택할 확률로 정리하면, 다항 로지스틱 회귀모형이 Equation 2와 같이 도출된다(Lee et al., 2005; Min and Choi, 2012; Kim and Kim, 2020).

(1)
logP(Y=j)P(Y=2)=k=1Kβjkxk
(2)
P(y=j)=exp(βj0+k=1Kβjkxk)j=1Jexp(βj0+k=1Kβjkxk)

2. DNN(Deep Neural Network)

본 연구에서는 도시환경요인을 고려한 개인의 건강수준 예측을 통해, 건강도시 설계에 기여하고자 하였다. 이러한 예측에는 전통적 통계모형을 활용한 방법과 최근 널리 활용되고 있는 딥러닝 모델을 활용한 방법이 있다. 종속변수로 활용한 BMI group은 3가지 범주로 구분되어 있기 때문에, 이러한 분류분석에는 전통적 통계방법인 다항 로지스틱회귀모형이 주로 활용된다. 또한, 분류문제에 활용되는 딥러닝 방법은 주로 DNN 알고리즘이 활용된다. 따라서 두 가지 방법의 예측 성능을 비교하여, 이를 통해 건강도시 설계 지표 산출을 위해 적합한 방법론을 제안하고자 하였다.

DNN은 인공신경망(Artificial Neural Network)의 한계점을 개선한 알고리즘으로, 입력층과 출력층 사이 2개 이상의 은닉층을 가지는 알고리즘이다. 이러한 DNN은 비선형관계에 대하여 모델링이 가능하며, 연속형 변수와 범주형 변수에 관계없이 분석이 용이하다는 장점이 있다. DNN의 학습 방식은 순전파 방식과 역전파 방식으로 나뉘어지며, 순전파 방식은 입력데이터 값을 연결하여 모형의 예측값을 도출하는 방법, 역전파 방식은 예측값과 실제값의 차이를 최소화하는 연결가중치를 갱신하는 방법이다. 이러한 가중치를 갱신하는 방법으로는 손실함수를 가중치에 대하여, 편미분 후 가중치를 기울기 방향으로 이동하는 과정을 반복하는 것으로, 실제값과 예측값의 차이를 최소화하는 가중치를 찾는 방법이다.

DNN 알고리즘 내 데이터 흐름은 입력데이터에 연결 가중치를 곱하여, 다음 노드로 전달하는 과정을 반복하여 출력층으로 값을 이동시키는 과정으로 이루어진다. 입력값을 xi라 할 때, wij는 연결된 노드 간의 가중치를 의미하며, 위와 같은 데이터 흐름을 따라 가중치가 곱해진 모든 값이 합산된 가중합(uj)이 Equation 3과 같이 도출된다. 이때, 가중합이 은닉층 입력값으로 사용되어 다음 층으로 전파될 때 활성화 함수를 활용한다. 본 연구에서 활용한 입력층과 은닉층의 활성화 함수는 ReLU(Rectified Linear Unit)로, 입력값이 음수인 경우는 모두 0으로 처리되고 양수인 경우 입력값을 출력하여, sigmoid 함수의 가중치 소실 및 발산의 문제를 해결한 함수이다. 마지막 출력층의 활성화 함수는 softmax 함수를 활용하였다. softmax 함수는 3가지 이상의 범주를 분류하는 다중 클래스 분류에서 주로 사용되는 활성화 함수로 범주 n개일 때, n차원의 벡터를 입력받아 각 범주에 속할 확률을 추정하는 함수로 Equation 4와 같이 표현할 수 있다. 이때, n은 범주의 개수, k는 k번째 범주, yk는 n차원의 벡터에서 k번째 원소를 의미한다. 또한, 손실함수로는 softmax와 결합하여 분류해야할 클래스가 3개 이상인 경우, 주로 활용되는 categorical cross entropy를 적용하였으며, Equation 5와 같이 표현된다. 이때 tk는 실제 값이다.

(3)
uj=i=1Ij=1Jwijxi
(4)
f(y)k=eykk=1neyk
(5)
CE=-kntklog(f(y)k)

3. Confusion Matrix

Confusion matrix는 예측 방법론들의 성능을 비교 및 평가하기 위해 널리 활용되어 왔다. 본 연구에서 활용한 다항 로지스틱회귀모형과 DNN 모델은 예측 방법론이므로, confusion matrix의 평가지표를 기준으로 비교 및 평가할 수 있다(Bayraci and Susuz, 2019; Ayon et al., 2020). confusion matrix란 오차(혼동) 행렬로, TP(Ture Positive), TN(True Negative), FP(False Positive), FN(False Negative)를 활용하여 각 평가지표를 산출할 수 있으며, 본 연구에서는 accuracy(정확도), precision(정밀도), recall(재현율), f1-score를 활용하였다. accuracy는 저체중을 저체중으로, 정상을 정상으로, 비만을 비만으로 정확하게 분류한 비율로 Equation 6과 같이 표현할 수 있다. precision은 positive로 예측하여 분류한 것들 중 실제 positive인 비율로 Equation 7과 같이 표현된다. recall은 실제 positive 중 모델이 positive로 예측하여 분류한 비율로 Equation 8과 같이 표현할 수 있다. 마지막으로, f1-score은 precision과 recall의 조화평균으로 0과 1사이의 값을 가지며 1에 가까울수록 모델의 성능이 우수한 것으로 해석할 수 있다. 데이터가 불균형한 경우 주로 활용하는 평가지표이며 Equation 9와 같이 산출할 수 있다. 본 연구에서 활용한 저체중, 정상, 비만 데이터가 비교적 불균형하기 때문에 f1-score을 활용하여 두 모델을 비교분석하고자 하였다. 본 연구에서의 confusion matrix는 BMI를 저체중, 정상, 비만 3가지로 클래스를 분류하였으므로, Table 4와 같이 표현된다.

(6)
Accuracy=TP+TNTP+TN+FP+FN
(7)
Precision=TPTP+FP
(8)
Recall=TPTP+FN
(9)
f1-score=2*(Precision*Recall)Precision+Recall
Table 4.

Confusion matrix

Actual Predict
Low weight Normal Obesity
Low weight Low weight TP FN FN
Normal FN TN TN
Obesity FP TN TN
Normal Low weight TN FP TN
Normal FN TP FN
Obesity TN FP TN
Obesity Low weight TN TN FP
Normal TN TN FP
Obesity FN FN TP

모형 추정 결과

1. 데이터 분류

본 연구에서는 다항 로지스틱회귀분석과 DNN의 성능을 비교분석하기 위해, 데이터를 동일한 조건으로 설정하였다. 총 196,067개의 데이터를 sklearn에서 제공하는 train_test_split을 활용하여, train data와 test data의 비율을 8:2로 데이터를 분류하였다. 데이터 분류결과, train data 156,853개, test data 39,214개로 분류되었으며 train data로 영향요인 도출 및 모델 형성 후, test data로 개인의 건강수준 예측을 진행하여 모델의 성능을 평가하였다.

2. 다항 로지스틱회귀분석 결과

도시환경이 개인의 건강수준(BMI)에 미치는 영향 요인을 분석하기 위해, 수도권 거주자를 대상으로 최근 3개년도의 지역사회건강조사자료를 활용하여 다항 로지스틱회귀분석을 진행하였다. 종속변수로 활용한 BMI 그룹은 BMI를 기준으로 저체중, 정상, 비만 3가지로 분류하여 구축하였다. 독립변수로는 개인특성변수인 연령, 성별, 자동차 운전여부, 오토바이 운전여부 등 17개의 변수를 활용하였으며, 지역특성변수는 공원면적비율, 공공체육시설면적비율, 대중교통 이용량, 공공자전거 서비스 지역여부, 공유 PM 서비스 지역여부로 총 5개의 변수를 활용하였다.

다항 로지스틱회귀분석결과는 Table 5와 같다. ρ2는 0.316로 나타났으며, 저체중에서는 14개의 변수가, 비만에서는 20개의 변수가 유의하게 나타났다. 저체중과 비만에서 연령, 성별, 아파트 거주자, 가구원수, 주관적 건강수준, 연간 음주빈도, 자동차 운전자, 주간 아침식사횟수, 고혈압 진단경험자, 당뇨병 진단경험자, 경제 비활동자, 배우자 동거자는 모두 유의하게 나타났다.

Table 5.

Multinomial logistic regression model estimation for BMI group

Variable Low weight Obesity
β S.E. p-value β S.E. p-value
Constant -1.800*** 0.0901 0.000 -0.910*** 0.0410 0.000
Age -0.021*** 0.0010 0.000 -0.007*** 0.0005 0.000
Male -0.821*** 0.0363 0.000 0.596*** 0.0143 0.000
Apartment resident 0.057** 0.0264 0.032 -0.081*** 0.0117 0.000
Number of household members 0.029** 0.0122 0.018 -0.042*** 0.0057 0.000
Recipient of basic living 0.159** 0.0678 0.019 -0.003 0.0325 0.919
Perceived health status 0.276*** 0.0170 0.000 0.161*** 0.0074 0.000
Smoking frequency 0.094*** 0.0158 0.000 -0.003 0.0062 0.632
Drinking frequency -0.076*** 0.0093 0.000 -0.033*** 0.0038 0.000
Car driver -0.325*** 0.0292 0.000 0.025* 0.0136 0.063
Motorcycle driver 0.156 0.1024 0.129 0.148*** 0.0326 0.000
Number of breakfast a week -0.023** 0.0110 0.038 -0.045*** 0.0052 0.000
Perceived stress level 0.016 0.0184 0.390 0.037*** 0.0081 0.000
Experience of depression 0.059 0.0478 0.218 -0.056** 0.0239 0.021
Person diagnosed with hypertension -0.653*** 0.0487 0.000 0.831*** 0.0148 0.000
Person diagnosed with diabetes -0.465*** 0.0674 0.000 0.240*** 0.0191 0.000
Economically inactive person 0.280*** 0.0273 0.000 -0.138*** 0.0132 0.000
Person living with spouse -0.449*** 0.0288 0.000 0.118*** 0.0132 0.000
Area of parks -0.014 0.2663 0.959 -0.334*** 0.1206 0.006
Area of public sports facilities 3.011 2.4360 0.216 -3.148*** 1.1379 0.006
Traffic volume of public transportation 0.002 0.0014 0.126 -0.003*** 0.0007 0.000
Service area of sharing bike 0.007 0.0286 0.808 -0.022* 0.0129 0.082
Service area of sharing personal mobility -0.038 0.0264 0.148 -0.094*** 0.0117 0.000
N 156,853
LL(0) -172,320.63
LL(β) -117,873.87
McFadden pesudo-R2(ρ2) 0.316

*p<0.1, **p<0.05, ***p<0.01

이 중 저체중과 비만에 대한 영향이 상반되는 변수는 성별, 아파트거주자, 가구원수, 자동차운전자, 고혈압 진단경험자, 당뇨병 진단경험자, 경제 비활동자, 배우자 동거자로 나타났다. 먼저, 성별은 Jang and Son(2017)의 연구와 같은 결과로, 남성인 경우 정상보다 저체중일 가능성이 낮으며, 비만일 가능성이 높은 것으로 나타났다. 이는 기초통계분석결과에서와 같이 남성의 비만율은 40.6%, 여성의 비만율은 26.4%로, 남성의 비만율이 여성보다 높게 나타난 결과로 판단된다. 아파트 거주자인 경우 정상보다 저체중일 가능성이 높으며, 비만일 가능성은 낮은 것으로 나타났다. 이는 대부분의 현대식 아파트는 단지 내 복리시설이 존재하여, 근린생활시설, 주민 운동시설 등에 대한 접근성이 일반주택보다 높기 때문에 나타난 결과로 판단된다. 이처럼 아파트는 시설 이용에 있어서 우수한 편의성을 갖추고 있으므로, 시민들의 이용을 촉진시켜 상대적 활동량이 많은 것으로 판단된다. 자동차 운전자는 Shin et al.(2009)의 연구에서 차내시간이 체질량지수에 양의 영향을 미치며 차외시간은 음의 영향을 미치는 것을 고려하여 해석할 수 있다. 자동차 운전자인 경우 정상보다 저체중일 가능성이 낮으며, 비만일 가능성이 높은 것으로 나타났다. 자동차 운전자는 차내시간이 타교통수단보다 많고 차외시간은 적을 것으로 판단된다. 따라서 활동량이 감소함에 따라 에너지 소비량이 감소하여 비만일 가능성이 높은 것으로 해석된다. 고혈압 진단경험자와 당뇨병 진단경험자인 경우 정상보다 저체중일 가능성이 낮게 나타났으며, 비만일 가능성은 높게 나타났다. 고혈압과 당뇨병은 대표적인 비만의 합병증으로 알려져있으며, 혈압과 비만의 상관관계는 양의 상관관계를 가지는 것으로 입증되어 있으므로(Moon et al., 2001), 이와 같은 관계가 나타난 것으로 판단된다. 경제 비활동자인 경우 정상보다 저체중일 가능성이 높은 것으로 나타났으며, 비만일 가능성이 낮은 것으로 나타났다. 한국보건산업진흥원의 노동시간과 비만의 관련성 분석결과에 따르면, 노동시간이 주 40시간 이하인 노동자보다 주 52시간을 초과하는 노동자의 비만율이 높은 것으로 나타났다(Korea Health Industry Development Institute Report, 2019). 이처럼 경제 비활동자인 경우 경제 활동자보다 많은 여가시간을 가질 수 있기 때문에, 비만일 가능성이 낮게 나타난 것으로 판단된다. 배우자와 동거하는 응답자인 경우 정상보다 저체중일 가능성이 낮으며, 비만일 가능성이 높은 것으로 나타났다. 이는 여성의 경우 배우자가 없는 응답자가 배우자가 있는 응답자보다 허리둘레가 낮은 선행연구결과와(Jang et al., 2012), 기혼 남성인 경우 미혼 남성보다 비만일 확률이 1.77배 높은 선행연구결과를 고려하여 해석할 수 있다(Kim and Lee, 2015). 이러한 결과는 배우자와 동거하는 경우 비교적 규칙적인 식사로 인해 에너지 섭취량이 많은 것으로 판단된다.

저체중과 비만에 같은 영향을 주는 변수는 연령, 주관적 건강수준, 연간 음주빈도, 주간 아침식사횟수가 유의하게 나타났다. 이 중 연령은 고연령일수록 저체중과 비만보다, 정상일 가능성이 높게 나타났다. Jang and Son(2017)의 연구에서는 저체중에 대해서는 같은 연구결과가 나타났지만, 비만에 대해서는 정상보다 비만일 가능성이 높게 나타나 상반된 연구결과가 나타났다. 이는 기초통계분석결과를 고려하여 해석할 수 있다. 연령별 비만유병률은 20대가 23.8%로 가장 낮은 것으로 나타났으며, 30대 33.6%, 40대 33.5%, 50대 33.7%로 유사하게 나타났다. 60대 이상의 비만유병률은 32.9%로 30-50대보다 낮은 수준으로 분석되었으며, 이에 따라 중장년층의 비만유병률이 높은 것으로 판단된다. 연간 음주빈도는 많을수록 저체중과 비만보다 정상일 가능성이 높게 나타났다. 음주가 체중에 미치는 영향은 상반된 연구결과들이 존재한다. 음주는 식사량 증가, 지방의 섭취 증가, 지방연소 방해 등의 효과로 비만 위험을 증가시킬 수 있는 반면, 음주량이 과도하면 식사로 섭취하는 칼로리를 대체하여 체중감소가 발생할 수 있다. 알코올은 높은 열량을 가지는 반면, 지방으로 전환되어 축적되는 양은 매우 적으며, 이에 따라 전반적인 에너지는 감소하게 되기 때문이다(Oh, 2009). 주간 아침식사횟수는 많을수록, 저체중과 비만보다 정상일 가능성이 높게 나타났다. 이는 규칙적인 식습관으로 인해 균형잡힌 칼로리 섭취가 이루어져, 건강한 신체대사활동이 이루어지는 것으로 판단된다.

저체중에서만 유의하게 나타난 변수는 기초생활수급자 여부, 흡연빈도로 나타났다. 먼저, 기초생활수급자는 Chun(2016)Kim and Kang(2011)의 연구와 상반된 결과로, 기초생활수급자인 경우 정상보다 저체중일 가능성이 높게 나타났다. 이는 균형잡힌 칼로리 섭취의 경제적 어려움으로 체중감소가 발생한 것으로 판단된다. 흡연빈도는 많을수록 정상보다 저체중일 가능성이 높게 나타났다. 이는 흡연이 비만에 미치는 영향에 대한 선행연구결과를 고려하여 해석할 수 있다. Kim et al.(2012)의 연구에서는 흡연자와 간접흡연자가 비만 가능성이 낮게 나타났으며 특히, 흡연자인 경우 비교적 비만 가능성이 더 낮게 나타났다. 이러한 흡연은 신진대사에 영향을 미치거나, 식욕 저하를 발생시키므로 비만율을 감소시킬 수 있다(Kim et al., 2012).

비만에서만 유의하게 나타난 변수 중 개인변수는 오토바이 운전자, 주관적 스트레스수준, 우울감 경험자로 나타났다. 먼저, 오토바이 운전자인 경우 정상보다 비만일 가능성이 높게 나타났다. 이는 자전거, 도보, 대중교통 등 타 교통수단보다 비교적 신체활동량이 적기 때문에 체중 증가에 영향을 미치는 것으로 판단된다. 주관적 스트레스 수준이 높을수록 정상보다 비만일 가능성이 높게 나타났다. Kim(2004)의 연구에 따르면 스트레스는 에피네프린, 노르에피네프린, 코티졸과 같은 스트레스 호르몬을 분비시키며 이는 식욕에 영향을 미친다. 단기적인 스트레스는 식욕 저하를 일으키는 렙틴의 분비를 증가시키지만, 만성적인 스트레스는 코티졸의 증가로, 에너지 소모를 증가시키는 렙틴 호르몬 작용을 저하시키고, 최종적으로 식욕을 증가시키는 효과를 일으킨다. 연구에서 활용한 설문조사자료의 질문형태를 고려할 때, 주관적 스트레스 수준은 만성적인 스트레스 수준으로 판단되며, 이에 따른 식욕 증가의 영향으로 체중이 증가한 것으로 판단된다(Kim, 2004).

비만에서만 유의하게 나타난 변수 중 지역변수는 공원 면적비율, 공공체육시설 면적비율, 대중교통 이용량, 공공자전거 서비스 지역여부, 공유 PM 서비스 지역여부로 나타났다. 먼저, 공원 관련 변수는 Chun(2016), Kim and Kang(2011) 연구에서는 유의하지 않은 것으로 나타난 반면, 공원 면적비율이 높은 지역에 거주할수록 정상보다 비만일 가능성이 낮게 나타났다. 공원 면적비율이 높은 지역은 공원 접근성이 우수한 지역으로 해석되며, 이러한 환경은 시민들의 공원 이용을 촉진시킬 수 있을 것으로 판단된다. 따라서 시민들의 공원 이용 증가에 따른 신체 활동량 증가로, 에너지 소비가 증가하여 체중 감소 효과를 발생시키는 것으로 판단된다. 다음으로 공공체육시설 관련 변수는 Jang and Son(2017)의 연구결과와 유사하게, 공공체육시설 면적비율이 높은 지역에 거주할수록 정상보다 비만일 가능성이 낮게 나타났다. 공공체육시설은 시민들의 운동 공간을 제공하는 역할로, 공공체육시설 면적이 높은 지역은 이용환경이 우수한 것으로 해석되며, 시민들의 시설 이용을 촉진시킬 수 있을 것으로 판단된다. 운동은 체중감소 및 스트레스 감소 등 다양한 영향을 미치는 것으로 널리 알려져 있으며, 이에 따라 공공체육시설의 접근성은 시민들의 에너지 소비 증가 및 스트레스 감소 효과를 발생시켜, 체중 감소에 영향을 미치는 것으로 판단된다. 대중교통 관련 변수는 Jang and Son(2017)의 연구에서와 유사하게, 대중교통 이용량이 많은 지역에 거주할수록 정상보다 비만일 가능성이 낮게 분석되었다. 이는 대중교통 이용량이 많은 지역일수록 대중교통 접근성이 우수한 지역으로 판단된다. 지하철, 버스 등과 같은 대중교통은 자동차, 택시와 같은 다른 교통수단보다, 비교적 긴 접근시간과 역 내에서의 이동시간 등과 같은 특성을 가지고 있으며, 이에 따라 비교적 많은 신체활동량을 발생시킬 것으로 판단된다. 따라서 대중교통이 활성화 된 지역에 거주할수록 타 교통수단보다 대중교통을 이용하여, 에너지 소비가 증가하고 체중 감소에 긍정적인 효과를 불러오는 것으로 판단된다. 공공자전거 서비스 지역에 거주하는 경우 정상보다 비만일 가능성이 낮게 나타났다. 자전거는 체중 감소, 체내 콜레스테롤 감소, 스트레스 해소 등 건강에 긍정적인 영향을 미치는 것으로 널리 알려져있다. 따라서 지역의 공공자전거 서비스 도입은 시민들의 자전거 이용을 촉진시킬 수 있을 것으로 판단된다. 이러한 영향으로 공공자전거 서비스는 시민들의 건강증진에 도움이 될 것으로 판단되며, 나아가 비만 예방효과를 가져올 것으로 판단된다. 최근 등장한 새로운 교통수단인 공유 PM 서비스 지역에 거주하는 경우 정상보다 비만일 가능성이 낮은 것으로 나타났다. 공유 PM은 공유 전기자전거, 공유 전동킥보드 등과 같은 개인형 이동수단을 활용한 공유 모빌리티 서비스로, 대중교통과의 연계성이 높아 주로 단거리 교통수단으로써 활용되고 있는 것으로 알려져있다(Kim et al., 2021). 이에 따라 대중교통과의 연계성 측면에서 해석하였을 때, 지역의 공유 PM 서비스 도입은 대중교통 접근성을 향상시키며 비교적 먼 거리에서도 쉽게 대중교통을 이용할 수 있도록 하는 것으로 판단된다. 이에 따라 공유 PM 서비스 도입은 자동차, 택시와 같은 교통수단보다 대중교통 이용을 활성화할 수 있을 것으로 판단되며, 나아가 시민들의 건강을 증진시킬 수 있을 것으로 판단된다.

3. DNN 학습결과

본 연구에서는 개인특성변수와 지역특성변수를 활용하여 개인의 건강수준을 예측하기 위해, 딥러닝 방법 중 대표적인 분류 알고리즘인 DNN을 활용하였다. 학습과정은 Figure 1과 같이 진행되었다. loss값의 추이로 보아 과적합이 발생하지 않은 것으로 보이며, 비교적 학습이 적절하게 진행된 것으로 판단된다. 최종학습결과, loss는 0.5834로 accuracy는 0.6906으로 나타났으며, validation loss는 0.5850, validation accuracy는 0.6890으로 나타났다. test data를 활용하여 모델을 평가한 결과, loss는 0.5863 accuracy는 0.6888로 나타났다.

https://cdn.apub.kr/journalsite/sites/kst/2022-040-05/N0210400508/images/kst_40_05_08_F1.jpg
Figure 1.

Change in loss and accuracy according to epoch

4. Confusion Matrix 결과

본 연구에서는 다항 로지스틱회귀모형과 DNN을 활용하여, 개인의 건강수준을 저체중, 정상, 비만으로 나누어 예측하였다. 이러한 분류 분석에 대한 평가는 confusion matrix을 활용하여 평가할 수 있다(Han et al., 2011; Ohsaki et al., 2017). 따라서 다항 로지스틱회귀모형과 같은 분류 통계모형과 DNN을 활용한 분류 알고리즘을 비교평가하기 위해 confusion matrix를 활용하여, 평가지표인 accuracy, precision, recall, f1-score을 Table 6과 같이 산출하였다.

분석결과, 정확도는 DNN이 68.9%로 다항 로지스틱회귀모형보다 5.9% 높은 정확도를 가지는 것으로 나타났다. 또한, DNN이 다항 로지스틱회귀모형보다 정상과 비만의 예측 정밀도가 우수한 것으로 나타났다. 특히, 비만 예측에 있어서 정밀도가 95.5%로 나타나, DNN이 다항 로지스틱회귀모형보다 크게 우수한 것으로 나타났다. 종속변수의 데이터가 비교적 불균형하기 때문에, 정밀도와 재현율의 조화평균인 f1-score를 활용하여 예측 성능을 비교하였다. 분석결과, DNN이 다항 로지스틱회귀모형보다 정상과 비만의 f1-score가 높게 나타났으며, 종합적으로 DNN의 예측 성능이 우수한 것으로 나타났다.

Table 6.

Results of confusion matrix

Model Actual Predict Precision Recall f1-score Accuracy
Low weight Normal Obesity
Multinomial
logistic
regression
Low weight 0 1,694 49 0.0 0.0 - 63.0
Normal 0 22,539 1,964 64.3 92.0 0.757
Obesity 0 10,818 2,150 51.6 16.6 0.251
DNN Low weight 0 1,743 0 0.0 0.0 - 68.9
Normal 0 24,379 124 66.9 99.5 0.800
Obesity 0 10,338 2,630 95.5 20.3 0.335

결론

본 연구는 현재 대한민국 비만 유병률의 증가 추이에 따라, 도시환경이 체질량지수에 미치는 영향을 분석하여 도시적 측면에서 시민들의 건강증진을 도모하고 건강도시 설계에 기여하고자 하였다. 2018년부터 2020년까지의 최근 3개년 지역사회건강조사자료 중 수도권 거주자를 대상으로 분석을 진행하였다. 종속변수로 개인의 건강수준을 나타내는 체질량지수를 기준으로 저체중, 정상, 비만 세 가지로 분류하여 활용하였다. 독립변수는 개인특성변수와 지역특성변수를 시 ‧ 군 ‧ 구 단위로 수집하여 분석에 활용하였다. 총 220,497개의 데이터를 수집하였으며, 이 중 불분명한 응답과 이상치를 제거한 총 196,067개의 데이터를 연구에 활용하였다. 다항 로지스틱회귀모형을 활용하여 체질량지수에 영향을 미치는 요인들을 분석하였으며, 이를 활용하여 개인의 건강수준을 예측하였다. 또한, 최근 분류문제에 활발히 활용되고 있는 딥러닝 방법 중 DNN 알고리즘을 적용하여 개인의 건강수준을 예측하였으며, 다항 로지스틱회귀모형과 DNN 모델의 예측 성능을 비교분석하기 위해 Confusion Matrix를 활용하였다.

먼저, 다항 로지스틱회귀분석결과 총 22개의 변수가 통계적으로 유의하게 나타났으며, 저체중에서는 14개의 변수가 비만에서는 20개의 변수가 유의하게 나타났다. 주요 분석결과, 개인특성변수인 자동차 운전자, 오토바이 운전자와, 지역특성변수인 공원 면적비율, 공공체육시설 면적비율, 대중교통 이용량, 공공자전거 서비스 지역여부, 공유 PM 서비스 지역여부가 비만에 유의한 영향을 미치는 것으로 나타났다. 이러한 분석결과를 중점적으로 다음과 같은 정책적 시사점을 도출하였다.

첫째, 자동차 운전자, 오토바이 운전자인 경우 비만에 양의 영향을, 대중교통 이용량은 많은 지역일수록 비만에 유의한 음의 영향을 미치는 것으로 나타났다. 이러한 결과를 토대로, 건강도시설계 시 대중교통은 중요한 역할을 가지는 것으로 판단된다. 따라서 대중교통 이용환경 및 접근성 향상을 통해 대중교통 이용을 촉진하여, 시민들의 건강 증진을 도모할 필요가 있다고 판단된다.

둘째, 공공 자전거 서비스 지역과 공유 PM 서비스 지역은 비만에 유의한 음의 영향을 미치는 것으로 나타났다. 이는 공공 자전거와 공유 PM이 대중교통 접근성을 향상시킬 수 있다는 점에서 해석할 수 있다. 이에 따라, 공공 자전거와 공유 PM 서비스의 도입은 대중교통의 경쟁력 및 접근성 향상으로 기존 수단에서 대중교통으로의 전환을 유도할 수 있을 것으로 판단된다. 따라서 공공 자전거와 공유 PM의 적극적인 도입을 통해 대중교통 이용환경을 향상시키고 나아가, 시민들의 건강 증진을 도모할 필요가 있을 것으로 판단된다.

셋째, 공원과 공공체육시설 면적비율이 비만에 유의한 음의 영향을 미치는 것으로 나타났다. 이러한 결과를 고려하여, 도시재생 및 신도시 계획 시 공원 및 공공체육시설에 대한 부지를 적극적으로 확보하고, 이를 유기적으로 연결할 수 있는 가로망 계획을 건강도시 설계 시 반영할 필요가 있을 것으로 판단된다.

다항 로지스틱회귀모형과 DNN의 예측 성능을 비교분석하기 위해, Confusion Matrix를 활용하여 평가지표를 산출하였다. 분석결과, 전체적인 평가지표 모두 DNN이 다항 로지스틱회귀모형보다 우수한 것으로 나타났다. 특히, 비만의 정밀도 DNN은 95.5%, 다항 로지스틱회귀모형은 51.6%로 큰 차이로 나타났다. 이는 DNN 이 비만으로 잘못 예측하는 경우가 비교적 적은 것을 의미하며, 예측값의 신뢰도가 높은 것으로 해석할 수 있다. 따라서 본 연구에서 학습한 DNN 모델은 신도시 계획 시 비만인구 추정에 활용될 수 있을 것으로 기대되며, 나아가 추정결과는 건강도시의 평가지표로 활용될 수 있을 것으로 기대된다.

본 연구에서는 최근 3개년의 지역사회건강조사자료 중 수도권 거주자를 대상으로 분석을 진행하였으며, 설문조사자료의 한계로 체질량 지수에 큰 영향을 미치는 에너지 섭취량과 관련한 자료를 활용하지 못하고 있다는 점에서 한계를 지닌다. 또한, 이용자들의 주로 이용하는 교통수단을 활용한 것이 아닌 지역단위변수를 활용한 분석을 진행하였다. 향후, 시민들의 주 교통수단과 섭취량을 활용한 분석이 필요할 것으로 판단된다. 또한, 공간적 범위를 수도권에서 전국으로 확대하여 도시지역과 비도시지역에 대한 추가적인 분석이 필요할 것이다. 나아가, 시 ‧ 도 또는 시 ‧ 군 ‧ 구 단위의 개별모형을 구축하여 각 지자체의 대응 방향에 대한 분석이 필요할 것으로 판단된다. 또한, 실제 교통수단들의 영향권은 시 ‧ 군 ‧ 구 단위보다 작은 세부적인 지역단위에서 형성될 것으로 판단된다. 따라서 개개인의 생활권 내 도시 및 교통환경 대한 설문조사를 활용한 연구가 필요할 것으로 판단된다. 마지막으로, 본 연구에서 활용한 방법론은 예측 방법론 중 분류 방법론이다. 이러한 분류 방법론에는 Support Vector Machine, Logistic Regression, Deep Neural Network, Decision Tree, Naïve Bayes, Random Forest, K-Nearest Neighbor 등과 같은 다양한 방법론이 존재한다. 하지만, 본 연구에서는 다항 로지스틱 회귀모형과 DNN 알고리즘만을 활용하여 보다 다양한 방법론을 비교 ‧ 평가하지 못하였다는 점에서 한계가 있다. 따라서, 향후 연구에서는 다양한 방법론들 간의 비교 ‧ 평가를 통해, 개인의 건강수준 예측 시 가장 적합한 방법론을 선정할 필요가 있을 것으로 판단된다.

Funding

This work was supported by basic research project in the field of science and engineering (NRF-2020R1A2C014561) of National Research Foundation of Korea.

알림

본 논문은 대한교통학회 제85회 학술발표회(2021.11.11)에서 발표된 내용을 수정 ‧ 보완하여 작성된 것입니다.

References

1
Ayon S. I., Islam M. M., Hossain M. R. (2020), Coronary Artery Heart Disease Prediction: A Comparative Study of Computational Intelligence Techniques, IETE Journal of Research, Volume: 10.1080/03772063.2020.1713916 10.1080/03772063.2020.1713916
2
Barbara B. B., Ikuho Y., Ken R. S., Cathleen D. Z., Lori K. J., Jessie X. F. (2009), Mixed Land Use and Walkability: Variations in Land Use Measures and Relationships with BMI, Overweight, and Obesity, Health & Place, 15(4), 1130-1141. 10.1016/j.healthplace.2009.06.00819632875PMC2778756
3
Bayraci S., Susuz O. (2019), A Deep Neural Network (DNN) Based Classification Model in Application to Loan Default Prediction, Asociatia Generala a Economistilor din Romania, Theoretical and Applied Economics, 4(621), 75-84.
4
Beak J. U. (2000), Six Sigma and Statistics, The Korean Society for Quality Management, Journal of the Korean Society for Quality Management, 28(3), 114-123.
5
Choi M. H., Jung H. Y. (2020), A Study on the Influencing Factor of Intention to Use Personal Mobility Sharing Services, J. Korean Soc. Transp., 38(1), Korean Society of Transportation, 1-13. 10.7470/jkst.2020.38.1.001
6
Chun H. J. (2016), A Study on the Effect of Urban Environment Using GIS and Spatial Econometric Models on Residents, Residential Environment Institute Of Korea, Residential Environment: Journal of The Residential Environment Institute of Korea, 14(2), 109-118.
7
Community Health Survey, 2018, Korea Centers for Disease Control and Prevention.
8
Community Health Survey, 2019, Korea Centers for Disease Control and Prevention.
9
Community Health Survey, 2020, Korea Centers for Disease Control and Prevention.
10
Daniel F., Steven C., Stephen A. M. (2013), Does Transportation Mode Modify Associations between Distance to Food Store, Fruit and Vegetable Consumption, and BMI in Low-income between Neighborhoods?, The American Journal of Clinical Nutrition, 97(1), 167-172. 10.3945/ajcn.112.03639223193006PMC3712124
11
Feng S., Bingyu L., Yik W. L., Paul S. F. Y. (2019), Associations between Commuting and Well-being in the Context of a Compact City with a Well-developed Public Transport System, Journal of Transport & Health, 13, 103-114. 10.1016/j.jth.2019.03.016
12
Han J., J. Pei M. Kamber (2011), Data Mining: Concepts and Techniques, Elesvier.
13
Jang J. M., Son W. B. (2017), Analysis of Association between Traffic and Local Variables Affecting Body Mass Index, Gyeonggi Research Institute, GRI REVIEW, 19(2), 79-100.
14
Jang M. H., Seok G. H., Park H. S. (2012), The Relationship between Existence of Spouses and Obesity for Korean Adults, Korea Institute of Electronic Communication Science, The Journal of the Korea Institute of Electronic Communication Science, 7(3), 679-685.
15
KDCA (2021), Korea Community health at a Glance 2020: Korea Community Health Survey (KCHS).
16
Kim D. H., Lee K. H., Jung K. T. (2012), The Effects of Smoking on Obesity and Its Implications for Health Insurance, Korea Insurance Research Institute, Journal of Insurance and Finance, 67(0), 111-132.
17
Kim D. Y., Lee K. S. (2015), Gender Difference in the Relationship between Marital Status and Obesity: Propensity Score Matching Approach, The Korean Association of Health Economics and Policy, The Korean Journal of Health Economics and Policy, 21(2), 27-47.
18
Kim E. J., Kang M. G. (2011), Effects of Built Environmental Factors on Obesity and Self-reported Health Status in Seoul Metropolitan Area Using Spatial Regression Model, Korea Research Institute for Human Settlements, The Korea Spatial Planning Review, 68, 85-98. 10.15793/kspr.2011.68..005
19
Kim J. Y., Kim S. J., Lee G. J., Choo S. H. (2021), Estimating a Mode Choice Model Shared E-scooter Service: Focused on Access Travel and Neighborhood Travel, The Korea Institute of Intelligent Transport Systems, The Journal of The Korea Institute of Intelligent Transport Systems, 20(1), 22-39. 10.12815/kits.2021.20.1.22
20
Kim K. O., Jeon Y. H., Kim Y. S. (2014), The Effects of Mental Health on Obesity among Korean Adolescents, Journal of Digital Convergence, 12(10), 467-476. 10.14400/JDC.2014.12.10.467
21
Kim M. J., Kim H. K. (2020), Development of Driver’s Behavior Model Based on Introduction of Vehicle Mileage Traveled Tax: Focusing on Busan Metropolitan City, J. Korean Soc. Transp., 38(6), Korean Society of Transportation, 507-519. 10.7470/jkst.2020.38.6.507
22
Kim S. M. (2000), body fat measurement, The Korean Academy of Clinical Geriatrics, Korean Journal of clinical geriatrics, 1(2), 23-27.
23
Kim S. M. (2004), Stress and Obesity, The Korean Society of Stress Medicine, The Korean Journal of Stress Research, 12(3), 17-20.
24
Korea Health Industry Development Institute Report (2019), Health Risk Signs Such as Adult Men and Obesity That Exceed 40hours a Week.
25
Korean Society for the Study of Obesity (2020), Quick Reference Obesity treatment Guideline.
26
Lee J. Y., Kang S. N., Kim S. A., Son D. M., Lee B. G., Ham O. K. (2019), Factors Influencing Obesity among Rural and Urban Adolescent: Analysis of 2013 Korean Youth Health Behavior Survey, Korea Society of public Health Nursing, Journal of Korean Public Health Nursing, 33(1), 73-84.
27
Lee S. W., Min S. H., Park J. Y., Yoon S. D. (2005), The Practice on Logit & Probit Model.
28
Min I. S., Choi P. S. (2012), Advanced Panel Data Analysis.
29
Moon O. R., Kang J. H., Lee S. Y., Jeong B. G., Lee S. J. et al. (2001), Increasing Prevalence of Obesity Related Disease for Koreans Associated with Overweight and Obesity, The Korean Society for Preventive Medicine, Journal of Preventive Medicine and Public Health, 34(4), 309-315.
30
Murphy M., Koohsari M., Badland H., Giles-Corti B. (2017), Supermarket Access, Transport Mode and BMI: The Potential for Urban Design and Planning Policy across Socio-economic Areas, Public Health Nutrition, 20(18), 3304-3315. 10.1017/S136898001700233628879832
31
Oh S. W. (2009), Effects of Alcohol on Obesity and Metabolic Syndrome, Korean Society for the Study of Obesity, The Korean Journal of obesity, 18(1), 1-7.
32
Ohsaki M., Wang P., Matsuda K., Katagiri S., Watanabe H., Palescu A. (2017), Confusion-Matrix-Based Kernel Logistic Regression for Imbalanced Data Classification, IEEE Transactions on Knowledge and Data Engineering, IEEE, 29(9), 1806-1819. 10.1109/TKDE.2017.2682249
33
Shin K. S., Sung H. G., Rho J. H. (2009), Analysis of Causal Relationship between Commuting Behavior of office worker and Body Mass Index using Path Analysis, Korea Planning Association, Journal of Korea Planning Association, 44(1), 197-209.
34
Sung H. G. (2018), Sharing Economy and Sharing Mobility, Public Official Benefit Association, Urban affairs, 53(599), 36-39.
35
World Health Organization (2000), The Asian-Pacific Perspective: Redefining Obesity and Its Treatment, Geneva, Switzerland, WHO Western Pacific Region.
페이지 상단으로 이동하기