土曜日 5:20 p.m.–5:40 p.m.

Highwayビッグデータから見えること

Kazumi Saito

説明

OSM学術利用の一例として,Highwayデータより構築される各都市などの巨大ネットワークを対象に,それらの数理的類似構造特性の分析結果を紹介する.具体的には,各地域の道路網に代表されるような各ノード次数が低いネットワークを対象に,ネットワークの類似度構造を分析する新たな手法を紹介する.このような,複数の大規模ネットワークの類似度構造の分析は,多様な応用問題に内在する基本課題である.実験では,オープンストリーマップサイトから収集した各都道府県道路ネットワークの分析より,これら都道府県に共通する特徴とともに,一部の地域が持つ顕著な特徴を示す.

概要

**1.はじめに** 複数の大規模ネットワークの類似構造の分析は,多様な応用問題に内在する基本課題である.トライアドに基づくネットワークのモチーフ (motifs) 解析研究 (R.Milo, S.Shen-Orr, S.Itzkovitz, N.Kashtan, D.Chklovskii, U.Alon, ”Network Motifs: Simple Building Blocks of Complex Networks”, Sience, Vol. 298,No. 5594 pp. 824–827, 2002) は,このような類似構造を探求する代表研究である.また,ノード属性による混合パターンの同類度(assortativity)解析 (M.E.J.Newman, ”The Structure and Function of Complex Networks”, SIAM Review, Vol. 16, No. 17, pp. 167–256, 2003) も,ネットワーク構造を特徴付ける重要な指標である. 本発表では,OSM学術利用の一例として,Highwayデータより構築される各都市の巨大ネットワークを対象に,それらの数理的類似構造特性の分析結果を紹介する.具体的には,各地域の道路網に代表されるような各ノード次数が低いネットワークを対象として,次数による混合パターンのZスコアを求め,コサイン類似度に基づく非類似度でデンドログラムを構築し,複数の大規模ネットワークの類似度構造を分析する新たな手法を紹介する.実験では,オープンストリーマップサイト (Open Street Map, www.openstreetmap.org) から収集した各都道府県道路ネットワークの分析より,これら都道府県に共通する特徴とともに,一部の地域が持つ顕著な特徴を示す. **2.分析法** ネットワークを _G_ = (_V_, _E_) で表し,_V_をノード集合,_E_をリンク集合とする.以下では,双方向リンクから構成されるネットワークを対象とするので,リンク (_u_, _v_) も (_v_, _u_)がリンク集合_E_に含まれる.各ノード _v_ の次数を _k_(_v_) で表せば,次数による混合行列 **C** の第 _i_-_j_ 成分 _c_(_i_,_j_) は _c_(_i_,_j_) = |{(_u_, _v_) ; _k_(_v_) = _i_, _k_(_v_) = _j_ }| となる.ここで | _A_ | は集合 _A_ の要素数を表す.このとき,混合行列 **C** は対称行列となる.行列 **C** から周辺確率 _p_(_i_) = (_c_(_i_,1) + _c_(_i_,2) + ... )/ |_E_| を規定すれば,|_E_| 回の独立試行での第 _i_-_j_ 成分の期待値は |_E_| _p_(_i_) _p_(_j_) となり,観測値 _c_(_i_,_j_) のZスコア _z_(_i_,_j_) は次式で求まる. ![][1] すなわち,_z_(_i_,_j_) が十分に大きければ次数ペア $i$-$j$ 間に有意に多くのリンクが存在すると言える. ネットワークの集合 {_G_(1), ..., _G_(_N_)} に対し,コサイン類似度に基づく非類似度を次式で定義する. ![][2] ここで,_z_(_i_,_j_; _n_)はネットワーク _G_(_n_) から求めたZスコアを表す.これらをまとめれば,提案アルゴリズムは以下となる. 1. 各ネットワーク _G_(_n_) のZスコア_z_(_i_,_j_; _n_) を求める. 2. 非類似度 _d_(_G_(_m_) , _G_(_n_) ) に基づきデンドロクラムを構築する. 本実験では,基本性能の確認を主目的とするため,デンドログラム構築に最短距離法を採用する. **3.実験による評価** 実験には,オープンストリーマップサイト(Open Street Map, www.openstreetmap.org)から,矩形近似した各都道府県の_N_ = 47 道路網を2015年6月末に収集して用いた.ただし,東京都については島嶼部を含むため別途用意されたデータ(Metro Extracts)を用いた.この道路網は,highway タグを持つ way とそこに出現する node から構成されるネットワークである.これらネットワークでは,次数 5 以上のノード数は極めて少なかったので,これらを次数 5 として扱った. ![][3] 図に分析法の適用結果を示す.また,選定した一部の都道府県については,図中に,比較のため正規化したZスコアをグラフ(a)から(d)として示す.ここでグラフの横軸 _i_-_j_ は次数ペアを意味する.この実験結果より,全ての都道府県において,次数ペア 2-2, 3-3, 及び,4-4 間のZスコアが相対的に高いことが分かる.ただし,グラフ(a)から(d)の例からも分かるように,次数ペア 3-3 と 4-4 の相対比に差異があることなど,都道府県毎に特性が見られる.一方,地域に着目すれば,tottoriを除く,hiroshima, okayama, shimane, yamaguchi の中国地方の県などが近接するのに対し,例えば,関東地方の都府県は散在する結果となっている.さらなる詳細な実験結果の分析は今後の課題となるものの,十分解釈可能なデンドログラムが構築できたことより,分析法の有効性が検証できたと考える. **4.おわりに** 本発表では,各地域の道路網に代表されるような各ノード次数が低いネットワークを対象とし,次数による混合パターンのZスコアを求め,コサイン類似度に基づく非類似度でデンドログラムを構築し,複数の大規模ネットワークの類似度構造を分析する手法を紹介した.実験では,オープンストリーマップサイトから収集した各都道府県の道路ネットワークで,分析法の有効性を検証した.今後は,多様なデータへの適用を通して分析法を高度化する. **謝辞** 本研究は,総務省SCOPE(No.142306004),科学研究費補助金基盤研究(C)(No.15K00311) の助成を受けた. [1]: http://pre4306.u-shizuoka-ken.ac.jp/osm/eq1.png [2]: http://pre4306.u-shizuoka-ken.ac.jp/osm/eq2.png [3]: http://pre4306.u-shizuoka-ken.ac.jp/osm/dendrogram.png