서론
데이터가 유통되고 소비되기 위해서는, 이용자들에게 데이터 발견성(Discoverability)이 보장되어야 한다. 데이터 발견성은, 필요한 데이터를 찾고 그 데이터를 정확히 이해해서 바로 활용할 수 있도록 하는데 요구되는 제반 정보를 이용자들에게 제공함으로써 보장될 수 있다. 교통데이터의 경우 타 부문의 데이터에 비해, 수집 원도 다양하고 목적에 따라 다양한 시공간적 단위로 가공 및 매핑되어 있다. 데이터 구축 및 관리에 직접적으로 관여하고 있지 않다면 이러한 복잡한 수집 및 가공 내역을 파악하기 힘들고 이는 데이터 유통 및 활성화에 커다란 걸림돌로 작용할 수 있다.
지금까지는 데이터 공유/유통 플랫폼 보다는 데이터가 구축되어 있는 기관의 관리자를 통해서 데이터를 취득하는 경우가 많았다. 그러나, 향후 데이터 공유/유통 플랫폼을 통한 데이터 생태계 활성화를 이루고자 한다면, 데이터 발견성 확보를 위한 메타데이터 구축이 반드시 필요하다. 메타 데이터 구축에 있어 포털마다 개별적으로 구축한다고 하면 호환성도 떨어지고 데이터의 파편화를 막을 수 없다(Chung, 2019). 이러한 문제에 대한 대책으로 W3C에서는 DCAT(Data Catalog Vocabulary)이라는 새로운 메타데이터 표준을 제시한바 있으며, EU 및 미국 정보 데이터 포털에서 채택되어 사용되고 있다.
DCAT 표준은 많은 부분 책과 같은 서지자료 메타데이터로 쓰이던 형식을 차용했기 때문에, 앞서 언급한 바와 같은 복잡한 기술적 내용과 관계를 담고 있는 교통부문의 자료의 메타데이터 표준으로 충분하지 못하다. 이러한 문제 인식하에 신도겸 등은 교통부문 데이터에 적합하게 DCAT 표준을 수정 및 확장하는 안을 제안한 바 있다(Shin et al., 2019). 본 연구에서는 선행연구에서 나아가 구체적인 RDF 메타데이터 모델과 추가로 정의되어야 할 Taxonomy를 제시하고자 한다. 이에 메타데이터구축에 필요한 기술을 살펴보고, 교통부문에서 수집되고 가공되는 데이터의 특성을 정리하여 메타데이터를 통해 제공되어야 할 요소를 도출하도록 한다. 이러한 검토결과를 토대로 교통부문 메타데이터 구축방안을 제시하고, 결론 및 향후과제에 대해 논하도록 한다.
메타데이터 구축 관련 기술 고찰
메타 데이터란 데이터를 설명하는 또 하나의 구조화된 데이터로서 데이터 자원과는 독립적으로 존재한다. 메타데이터는 데이터의 의미를 요약해서 나타내줌으로써, 다음과 같은 기능을 하게 된다. 첫째, 사용자에게 데이터를 정확하게 이해할 수 있는 정보를 제공해 준다. 둘째, 사용자는 메타데이터 정보를 토대로 정확하고 효율적인 데이터 검색이 가능하다. 셋째, 다른 데이터와의 연관성까지 나타내 줌으로써 데이터의 활용성이 극대화된다. 본 장에서는 이러한 메타데이터 구축의 기술 표준으로 W3C에서 제정해 놓은 DCAT(Data Catalog Vocabulary)과 그것의 표현형식인 RDF(Resource Description Framework)에 대하여 고찰해보도록 한다.
1. RDF 모델
정보의 표현 및 교환을 위한 표준으로 W3C에서 만들어진 RDF(Resource Description Framework)는 다양한 분야의 메타데이터 구축에 응용되어 왔다(Park et al., 2007). RDF 트리플 구조는 기계가 이해할 수 있는 형태의 메타데이터를 기술하기 위한 방법으로서, 주어, 술어, 목적어로 표현된다. 이때 주어, 술어, 목적어에는 정형화된 어휘들(Vocabularies)이 사용하는데, 상호 운용성 및 통합을 위해 DCAT과 같은 표준 어휘를 사용한다.
자원과 자원 사이의 관계, 혹은 자원과 자원이 가진 특정 값을 노드(Node)와 아크(Arc)로 구성된 RDF 그래프로 표현한다(Decker et al., 2000). 이때, 자원은 노드로 자원과 자원의 관계는 아크의 속성 값으로 표현된다. 또한 자원의 특성 값은 노드에 레이블(Label)로 표현된다. 모든 노드와 아크는 URI(Uniform Resource Identifier)나 인용부호 안의 고유한 값으로 식별된다. 이때 긴 URI 전체를 그대로 사용하는 번거로움을 피하기 위해, 네임스페이스(Namespace)를 정의하여 단축형으로 사용하기도 한다. 애플리케이션 사이의 데이터 교환 시 상호 운용성을 지원하기 위하여 RDF 메타 데이터를 XML, JASON, HTML 등의 문법을 따라 사용한다. Figure 1과 Figure 2는 RDF 형식과 이를 그래프 형태로 표현한 RDF 그래프 예시이다.
2. DCAT 표준
DCAT은 웹에서 발행된 데이터 카탈로그들 간의 상호 운용성 향상을 위해 설계된 RDF(Resource Description Framework) 어휘로 W3C에서 2014년 웹 표준으로 권고 승인 되었다(W3C, 2021). 이러한 DCAT은 메타데이터를 RDF 형태로 정의하여 데이터셋과 데이터서비스 등을 기술한다(Figure 3 참고). 또한, Dublin Core, FoaF, SKOS 등 표준모델 및 어휘를 차용하여 사용함으로써 메타데이터의 통합 및 상호 운용성을 보장하고 있다.
DCAT은 유럽, 호주, 미국 등 전 세계 오픈 데이터 포털에서 활용하고 있으며, 국내에서도 다양한 분야에서 DCAT을 확장하거나 독립적으로 설계하여 응용 프로파일을 개발하고 있다(Kouh and Yoo, 2005; Park et al., 2006; Park, 2019; Kim et al., 2020).
교통데이터 특성
교통부분에서 수집되고 저장되는 다양한 데이터 특성에 대하여 이미 선행연구(Shin et al., 2019; Park et al., 2020)에서 심도 있는 분석이 수행된 바 있다. 세종시에서 수집, 가공, 저장되고 있는 ATMS, BIS, C-ITS DB 테이블을 분석해 보았을 때, 유용한 데이터 테이블의 비중은 20-30% 내외이고, 70-80%는 시스템 정보테이블, 임시저장 테이블 등이 차지하고 있다. 데이터 테이블은 수집자료, 기초자료, 집계자료로 유형을 구분할 수 있으며, 수집자료(44개)보다 기초자료(79개)와 집계자료(68개)의 비중이 큰 구성을 나타내었다. 수집데이터는 OBU, RSE, 차량위치정보, CCTV 영상 등 차량 및 도로변 장비에 의해 수집되는 원 자료이다. 기초데이터는 노드, 링크 정보, 노선정보, 운행시간표, 지도자료 등 차량이 운행하는 도로와 해당지역, 대중교통의 경우 스케줄 등의 정보이다.
한창 연구개발과 실용화가 진행 중인 자율주행 차량의 센서 데이터는, JSON, XML 등 비정형테이블로 수집 저장되고 있다. 주변 및 사물 인식 정보와 라이다 데이터, 레이더(Radar) 등 센서 데이터는 차량 제어 등 기계적인 활용에 초점을 두고 있어, 교통 데이터로서 활용가치는 아직까지 크지 않다고 판단된다. 자율주행 차량 센서 데이터는, 기존에 차량 단말기를 통해 수집되고 있는 운행기록 데이터와 같은 맥락으로 처리하되, HD Map에 매핑되어 있는 점을 고려하도록 한다.
교통데이터 특성을 분석한 결과, 메타데이터 구축 시 고려해야 할 교통데이터의 특성을 정리하면 다음과 같다.
첫째, 교통데이터는 시공간 차원을 포함하고 있는 데이터이기 때문에, 수집데이터나 가공데이터만을 가지고는 데이터를 활용할 수 없다. 기초 및 마스터 테이블, 코드테이블과 함께 연계해야 활용 가능한 교통정보가 산출된다.
둘째, 용어상 같은 데이터라 해도 의미가 다른 다수의 데이터가 존재한다. 즉 수집 원, 가공방식 등이 다른 같은 용어를 쓰는 데이터들을 그 특성을 정확히 알고 활용하는 것이 필요하다. 예컨대, 속도라고 해도, 차량, 지점, 구간에서 센서, 노변통신장비, 검지기 등 다양한 수집 원으로부터 수집될 수 있고, 다양한 공간적 범위로 집계될 수 있다.
셋째, 버스속도와 승용차 속도 비교, 교통사고와 속도와의 관계 등과 같이, 같은 시공간 위에서 다른 관점으로 데이터를 비교 분석하고자 하는 이용자들의 수요가 있다. Figure 4는 융합분석 관점에서 데이터 간 관계를 도식화 한 그림이며, 메타데이터 정보를 통해 이용자들이 이러한 융합분석이 가능한 데이터를 가려낼 수 있는 정보를 제공하는 것이 필요하다.
교통메타데이터 구축방안
교통정보가 다양해지고 데이터양이 증가할수록, 데이터 유통 생태계 조성을 위해서 메타데이터 관리가 중요하다. 메타데이터 구축에 있어, 국내외적인 데이터 포털 간의 상호운용성과 통합을 보장하기 위해서는 표준을 따르는 것이 필요하다. 그러나 DCAT 등 기존의 메타데이터 표준을 그대로 적용해서는, 앞서 제시한 교통데이터의 특수성과 그에 필요한 메타데이터 구현이 불가능하다. DCAT 표준을 수용하여 일반적인 데이터 특성을 정의하되, 교통데이터 특수성과 교통데이터 이용자들의 필요에 부합하는 메타데이터 구축이 되기 위해 수정 혹은 보완이 요구된다.
데이터를 소비하는 이용자들에게 전달해야 하는 교통데이터의 특수성을 정리하면 다음과 같다.
1. 같은 용어를 쓰되 다른 특성을 갖는 데이터들을 구분해 주는 분류체계 구성
2. 복잡한 교통데이터 간 관계(Relation)를 정의해 줄 수 있는 속성과 어휘 보완
3. 복잡한 교통데이터 간 계통(Lineage)을 정의해 줄 수 있는 속성과 어휘 보완
4. 데이터에 대한 다양한 지도 및 위치참고 체계 수용을 위한 수정 및 보완
위와 같은 수정 및 보완은 다음과 같은 몇 가지 원칙하에 수행되도록 한다.
1. DCAT에서 기존에 쓰고 있는 표준 어휘를 최대한 활용하는 것을 원칙으로 한다. 어느 데이터에서나 공통적이고 기본적으로 정의되어야 하는 메타데이터는 기존 DCAT 표준을 따르도록 한다
2. 선행 연구(Shin et al., 2019)에서 정의된 클래스 스키마는 그대로 준용하되, 교통데이터의 특수성을 기술하기 위해 추가로 요구되는 속성과 어휘들을 위한 네임스페이스(Namespace)를 새로 정의한다. 본 연구에서는 새로운 네임스페이스로 dctrans(data catalog for transportation data)(가칭)을 사용하도록 한다.
3. 새로운 네임스페이스, dctrans 내에서 정의될 어휘들도, DCAT 표준 어휘들 중 엄밀한 공학적 의미는 다르나 유사한 의미는 나타내는 어휘가 있으면 그 어휘를 준용하여 사용하도록 한다.
4. 메타데이터 구축과 검색의 효율성을 위해 통제되고 표준화된 어휘(Controlled vocabulary)를 사용하도록 한다.
교통데이터 특성에 적합하며, 검색의 효율성을 확보할 수 있는 통제어휘(Controlled vocabulary)를 사용하도록 하며, 새로운 네임스페이스 dctrans 영역에서 새로 정의된 속성과 통제어휘들은 다음과 같다.
1. domain, type, theme에 대한 재정립 및 재 정의를 통하여 개별 교통데이터의 특성을 명확히 구분한다.
a. domain : 교통데이터 검색에 있어 이용자들이 많이 사용하는 검색 단위 혹은 검색 범주로 정의한다.
dctrans: domain_data - 속도, 교통량, 위치(경로), 사고, 감가속, 통행시간, 운행기록
dctrans: domain_admin - (데이터 수집기관 단위) 지자체(도시), 광역, 도로관리청 등
b. type : DCAT 표준에서 쓰는 의미와 데이터 유형으로 정의한다
dctrans: type - 수집데이터, 가공데이터, 마스터데이터, 매핑데이터, 코드/파라메터 데이터
c. theme : 교통데이터의 기술적 특성을 나타내는 3개 범주의 theme을 정의하며, 통제어휘를 사용하도록 한다. 기존 DCAT의 dcat:theme을 대체하도록 한다.
dctrans: theme_collector - 데이터가 수집된 장비
OBU-RSE, GPS, DTG, Lidar, Radar, VDS, CCTV, Bus Card
dctrans: theme_location - 수집위치
차로지점1), 차로구간, 지점, 구간, 교차로
dctrans: theme_mode - 수단
승용차, 버스, 택시, 화물차
2. Relation 정의는 수집 및 가공데이터와 마스터데이터, 매핑 데이터 등 기초데이터들과의 관계를 설명하기 위한 것과 동일시공간에 있어 비교분석이 가능한 다른 관점의 데이터 관계를 위한 것이다. 이를 위한 새로 정의되는 속성은 다음과 같다.
dctrans: requires - 수집 및 가공데이터를 이해하고 분석하기 위해 요구되는 기초데이터들의 관계를 지정하기 위한 속성
dctrans: spatio_temporal_related - 동일시공간에 있는 다른 관점의 데이터 관계 표현
3. Lineage 정의는 원천데이터와 가공데이터와의 관계를 정의한다.
dctrans: collected from
dctrans: is spatio_aggregated from
dctrans: is temporal_aggregated from
dctrans: is spatio_temporal_aggregated from
4. 지도 및 위치참조 체계
dctrans: geoRef - HD map, 표준노드링크, WGS84, Bessel1841, UTM-K(GRS80)
이상에서 dctrans 네임스페이스에서 정의한 속성과 어휘는 선행 연구(Shin et al., 2019)에서 정의된 클라스 속성으로 편입시키도록 한다.
1. 첫 번째 분류 관련 내용은 DCAT Dataset, Catalog, Taxonomy 클라스의 dcat:theme을 대체하여 사용하도록 하며,
2. Relation과 Lineage 관련하여 정의된 속성과 어휘는 DCAT Relation 클라스의 속성을 대체하도록 하고,
3. 지도 및 위치 참조체계는 DCAT Location 클라스에 추가하도록 한다.
새로 정의된 속성과 어휘로 수정 보완한 교통데이터를 위한 DCAT 클래스와 속성은 Table 1에 정리하여 놓았다.
Table 1.
Classes and properties of DCAT for transportation data
결론 및 향후 연구과제
본 연구에서는 서로 다른 형태의 수집된 교통 데이터에 대한 관계를 구조화하여, 데이터의 논리적 관계를 사용자가 직관적으로 이해할 수 있는 교통 RDF 메타데이터 구축안을 제시하였다. 메타데이터 구축은 데이터를 검색하고 유통할 수 있는 데이터 카탈로그 시스템의 가장 기본적이고 핵심적인 요소이다. 본 교통메타데이터 구축안은 교통 데이터를 검색하고 유통할 수 있는 데이터생태계 조성에 동력을 제공할 것으로 기대된다. 향후 교통 RDF 메타데이터를 토대로 데이터의 관계와 계통을 시각화해 놓은 데이터 맵을 개발 및 제공하여 이용자가 필요로 하는 정보를 쉽게 찾을 수 있도록 하는 것이 필요하다. 또한 메타데이터를 통해 추출되는 데이터 간 관계를 연관데이터 검색에 사용한다면 의미 있는 추천자료 정보까지 제공할 수 있게 된다. 기존의 관계형 데이터베이스가 아닌 트리플 구조의 RDF 메타데이터를 효율적으로 검색할 수 있는 방법이 해당 분야에서 활발히 연구되고 있는바 이러한 기술개발 동향에도 주의를 기울여 데이터 카탈로그 시스템이 효율성을 고려한 기술 대안으로 구축이 될 수 있도록 해야 할 것이다.






