...

住所再生工場は

by user

on
Category: Documents
3

views

Report

Comments

Transcript

住所再生工場は
住所再生工場
説明書
詳細版
第 1.2 版:2009 年 4 月 27 日(月)
(株)エヌ・シー・エム
1. 住所再生工場とは何か
住所再生工場は日本の住所表記の問題の解決を目的とする住所文字列処理に特化したア
プリケーションプログラム(拡張子 exe)です。
住所再生工場により、住所文字列を「正規化」
(11.1:
「正規化とはどんな処理か」参照)
したり、住所を緯度経度に変換したり(ジオコーディング、11.2:
「ジオコーディングと
はどんな処理か」参照)
、逆に緯度経度から住所文字列に変換することが可能です。
入力データは画面からテキスト入力することも可能ですし、複数の xls(Excel 形式)又
は csv ファイルを読み込ませることでバッチ型一括ファイル処理することも可能です。
2. なぜ、住所再生工場は開発されたのか
本ソフトウエアの製品名は、プロ野球の現(2009 年 4 月 17 日時点)楽天監督の野村 克
也氏の選手活用手腕を褒め称えた「野村再生工場」に由来します。この製品名には、本
ソフトウエアにより、一般に十分に活用されているとは言えない住所データを再生させ
たいと言う弊社の熱い思いが込められています。
日本の住所表記の問題より、一般に住所文字列は、二次利用が難しい状況です。それに
対して、
「住所再生工場」は、住所の正規化や緯度経度への変換機能により、二次利用が
可能な状態にレベルアップさせます。この役割を「再生工場」と表現しました。
経済情勢が厳しい今だからこそ、住所データを安価に高度利用、二次利用出来る環境を
提供出来たら、それは社会への貢献に繋がるのではないかと、弊社では考えております。
3. 日本の住所表記の問題とは何か
一般に、日本の住所表記には、以下の問題が存在します。
① 未分類:異なる住所要素(例えば、都道府県名、郡名、市町村名、区名等)が切り
分けされておらず、一塊の文字列になっています(例えば、
「東京都文京区白山 1 丁
目 28 番 10 号」)
。
② 省略:都道府県名や郡名、場合によっては政令指定都市名称が省略されています(例
えば、いきなり特別区名から始まる等)。
③ 表記のゆれ:例えば、
「霞が関」−「霞ケ関」−「霞ヶ関」−「霞ガ関」−「霞関」、
「上の山」−「上ノ山」−「上之山」−「上山」、或いは「六つ川」−「六っ川」−
「六ツ川」−「六ッ川」−「六川」
、又は「一丁目二十八番十号」と「1-28-10」など
の表記のゆれが含まれています。
1
④ 住所の経年変化:住所は時間の経過と供に変わります。代表的な例が市町村合併で
す。結果として、処理の対象となる住所文字列が現在使われていない古いモノであ
ることが有り得ます。
これらの問題に対する利用者ニーズを整理すると表 3-1に示す通りです。住所再生工場
はいずれの問題にも的確に対処しております。
表 3-1
利用者のニーズ
問題
利用者のニーズ(例示)
未分類及び省略 「多摩区菅仙谷 3-xx-yy」を「神奈川県 川崎市 多摩区 菅仙谷
3-xx-yy」に変換したい。
表記のゆれ
「霞が関」、
「霞ケ関」
、「霞ヶ関」
、「霞ガ関」
、「霞関」を全て同一とみ
なしたい。
「上の山」、
「上ノ山」
、「上之山」
、「上山」を全て同一とみなしたい。
「六つ川」、
「六っ川」
、「六ツ川」
、「六ッ川」
、「六川」を全て同一とみ
なしたい。
「一丁目二十八番十号」、「一−二十八−十」、「1-28-10」を全て同一
とみなしたい。
住所の経年変化 市町村合併前の古い市町村名でも、正しく認識して欲しい。
2
正確には
霞が関
霞ケ関
霞が関
であっても
現実には色々な表
記がなされている
霞ヶ関
霞ガ関
霞関
一丁目二十八番十八号
一の二十八の十八
漢用数字
一―二十八―十八
1丁目28番10号
数値は色々な表記
1の28の10
がなされている
全角数値
1−28−10
1 丁目 28 番 10 号
1 の 28 の 10
半角数値
1−28−10
A郡B町
A 郡 C 村
D市
市町村合併に伴う
住所の変更
図 3-1
代表的な日本の住所表記の問題
4. 住所表記の問題にどう対処しているのか
日本の住所表記の問題と、それに対する住所再生工場の解決法を以下に示します。
3
4.1.1.
未分類
一塊の住所文字列を住所要素毎に分類します。例えば、
「東京都文京区白山 1 丁目 28 番
10 号」と言う一塊の文字列を「東京都」、
「文京区」、
「白山」、
「1」
、「28」、「10」と言う
様に分解します。
4.1.2.
省略
都道府県名、郡名、市町村名、区名の省略に対して、省略されていない他の住所項目デー
タより可能な限り推測して、対処します。「正規化」する場合は、例えば、「霞ケ関」に
対して「東京都 千代田区 霞ケ関」と言う様に「東京都」及び「千代田区」を補いま
す。
4.1.3.
表記のゆれ:濁音
(が、ケ、ケ、ガ、空白)
、(の、ノ、之、空白)、
(つ、っ、ツ、ッ、空白)のゆらぎがあっ
ても同じものとみなします。例えば、
「霞が関」−「霞ケ関」−「霞ヶ関」−「霞ガ関」
−「霞関」、「上の山」−「上ノ山」−「上之山」−「上山」、「六つ川」−「六っ川」−
「六ツ川」−「六ッ川」−「六川」は各々同じ名称であるとみなします。「正規化」する
場合は、基準となる住所辞書 DB 内の表記が返されます。
4.1.4.
表記のゆれ:数値
漢用数字文字列、全角の算用数値文字列、半角の算用数値文字列のいずれにも対処して
います。また、区切り文字として「丁目、番、号」、「―」、「の」のいずれにも対応して
います。
「正規化」する場合は、
「1」
、「28」
、
「10」と言う様に分離された半角数値として
返します。
更に、同一住所文字列内の異なる住所要素間での漢用数字文字列、全角の算用数値文字
列、半角の算用数値文字列の混在も許しています。つまり、
「××区○○十二丁目28番
10 号」を許します。
4.1.5.
表記のゆれ:「条」や「地割」の前の数値
(○○4 条、○○4条→○○四条) 及び
どのゆらぎを考慮して検索します。
4.1.6.
(○○4 地割、○○4地割→○○四地割)な
住所の経年変化:市町村合併
郵便番号データ(郵便事業株式会社が提供する市町村合併履歴の基礎データ)に基づい
て、過去の住所も管理することにより、市町村合併などの住所変更にも対応します。
4
東京都文京区白山 1 丁目 28 番 10 号
東京都 文京区 白山 1 28 10
一塊の文字列を住所要素毎に分解する
霞が関
霞ケ関
いずれに対しても
霞ヶ関
東京都 千代田区 霞が関
①省略されている「東京都」及び「千代田区」を自動的に補う
霞ガ関
②表記のゆれを許す
霞関
新潟県 東蒲原郡阿賀町 上ノ山
新潟県 村上市 上の山
上の山
新潟県 小千谷市 上ノ山
省略入力により、複数の可能
神奈川県 横浜市 緑区 上山
性が存在する場合は、合致す
和歌山県 田辺市 上の山
るもの全てを返す。
山梨県 韮崎市 上ノ山
一丁目二十八番十八号
一の二十八の十八
漢用数字
一―二十八―十八
1丁目28番10号
1の28の10
全角数値
いずれに対しても
1 28 10
個々の数値を分離する
1−28−10
1 丁目 28 番 10 号
1 の 28 の 10
半角数値
1−28−10
与野市大戸 1-xx-yy
埼玉県 さいたま市 中央区 大戸 1 xx yy
市町 村合併 前の古 い住
所に対しても変換する。
図 4-1
住所表記の問題に対する正規化処理の対処法
5
5. どんな機能が実装されているのか
5.1. 対話型処理とバッチ型一括ファイル処理
基本的に、以下の2種類の変換方式がサポートされています。
① 画面から1組のデータを入力する方式:画面から例えば住所文字列を入力して、緯
度経度に変換する。対話入力型の処理である。
② 複数ファイルの一括処理方式:指定フォルダの直下にある複数の xls(Excel 形式)
又は csv ファイル内の住所や緯度経度を一括して、変換する。バッチ型の処理であ
る。
対話型処理方式
PC 画面
1セットの
結果出力
2種類の処理方式
1個の入力
住所再生工場
バッチ型一括ファイル処理方式
入力側
出力側
拡張子.xls の
拡 張 子 .csv
拡張子.xls の
拡 張 子 .csv
ファイル
のファイル
ファイル
のファイル
処理対象ファイルのレイアウト指定
図 5-1
住所再生工場の2種類の処理方式
5.2. 変換の種類
変換の種類は以下の3つがサポートされています。
6
① 住所の正規化:住所文字列を「正規化」します。
② 住所→緯度経度変換:住所文字列から、その代表位置の緯度経度に変換します(ジ
オコーディング)。
③ 緯度経度→住所変換:緯度経度からその近くの住所を求めます。
更に測地系の変換機能も実装されています。
住所文字列→緯度経度
緯度経度→住所文字列
入力:住所文字列
入力:緯度経度
測
地
系
変
換
出力:正規化
住所文字列
出力:正規化住所文字列
出力:緯度経度座標
出力:緯度経度座標
図 5-2
住所再生工場で実現可能な変換の種類
6. 製品としての特徴は何か
6.1. 高いコストパフォーマンス
住所辞書データとして、国土計画局総務課国土情報整備室が無償で提供する街区レベル
位置参照情報を利用しています。一方機能的には、緯度経度への変換と住所文字列の正
規化の双方が可能になっており、更に以下に示す通り、詳細なレベルまで、緯度経度を
求めることが可能です。そのため、得られる効果に対して、相対的に低い経費での導入
が可能であり、結果として高いコストパフォーマンスを叩き出しています。
6.2. 柔軟なファイルレイアウト指定
複数の xls(Excel 形式)又は csv ファイル内のデータを一括して処理することが可能で
す。ファイル内のデータレイアウトについては、ウイザード画面で指定することで、柔
軟に対応出来ます(図 6-1参照)。
7
柔軟なファイルレイアウト指定
図 6-1
どの列が経度緯度に該当するのか
を開始するか
どの位置から読み込みを開始するか
どの位置から書込み
8
どの位置から書き込みを開始するか
るのか(複数選択可能)
どの位置から読み込みを開始するか
どこの列が住所に該当す
6.3. 強力な変換機能
住所再生工場は弊社製品の住所変換エンジン「eCapGC」をベースとして、開発してい
るため、
「eCapGC」の強力な変換機能を備えています。例えば、省略及び表記のゆれに
自動的に対処致します。更に、解の候補が複数存在する場合は、全てを同時に算出しま
す。測地系変換機能も内蔵されています(図 6-2参照)。
住所文字列→緯度経度
緯度経度→住所文字列
測地系変換
表記のゆれへの対応
解の候補が複数ある場合は全て算出
省略の自動補完
図 6-2
強力な変換機能
6.4. ウイザード形式による容易な操作性
ウイザード形式(各画面の最上位には、簡単な操作説明が掲載されています)で動作す
るため、操作法が容易に想像出来ます(図 6-3参照)。
9
1:入力ファイル、出力ファイ
ルが存在するフォルダ等を指
定する。
2:ファイル内のレイアウト
(例えば、どれが住所か、どこ
に出力するか)を指定する。
3:変換処理が実行される。進
行状況がプログレスバーによ
り表示される。
図 6-3
ウイザード形式の操作画面
10
7. 何に利用出来るのか
上記の日本の住所表記の問題より、一般に住所文字列は、二次利用が難しい状況です。
それに対して、住所再生工場は、住所の正規化や緯度経度への変換機能により、住所文
字列を二次利用が可能な状態にレベルアップさせます。この機能により、以下の利活用
法が可能です。
① 名寄せ:例えば「白山一丁目二十八番十号」と「白山 1-28-10」を同一住所とみなす
ことで、正確な名寄せを可能にします。
② 住所文字列検索:
「文京区白山一丁目二十八番十号」を「東京都」、
「文京区」、
「白山」
、
「1」、「28」、「10」の様に分けることにより、例えば区名が抽出でき、よって区名で
の絞り込み検索が可能になります。
③ 地図上での位置表示:住所に該当する緯度経度を求められるため、緯度経度を用い
てデータを地図上に表示することで、地図を利用した分析、解析、計画立案が可能
になります。つまり、GIS との連携が可能になります。
④ 住所文字列入力機能の簡素化:一般に Web サイト等で、住所文字列を入力させる場
合、利用者にとっての操作性の向上を考えると、1つのテキスト文字列として自由
に入力させることが望まれます。自由に入力させた住所文字列も住所再生工場によ
り、正規化されるため、システム管理者は安心して自由入力させることが出来ます。
8. 変換の精度、データソース等
8.1. どの様なレベルの変換が可能なのか
変換可能なレベルは、基本的には住所辞書として利用しているデータ(8.3:
「どんなデー
タを利用しているのか」参照)の対応レベルに依存します。結果としては、概ね表 8-1
に示す通りです。
表 8-1
項番
1
2
機能
住所からの緯度
経度への変換
住所の正規化
変換可能なレベル
変換可能なレベル
概ね、街区番号(例えば、東京都文京区白山 1-28-10 の場合は
28 番)レベルまで。
基本的に住所辞書データだけではなく、住所表記内容に基づく
構造推定アルゴリズムを適用して分類しているため、見かけ
上、住居番号(上記の例では 10 号)や建物名称まで対応可能。
街区番号レベルのイメージを掴んで頂くために、街区番号レベル 及び比較の為に、そ
の上位の丁目レベル(例えば、東京都文京区白山 1)の住所辞書を地図上にプロットし
た結果を図 8-1及び図 8-2に示します。比較して頂ければ、街区番号レベルがいかに詳
細な変換を意味するか御理解頂けると思います。
11
図 8-1
街区番号レベルの住所辞書(背景図として、住友電工道路地図を利用)
12
図 8-2
丁目レベルの住所辞書(背景図として、住友電工道路地図を利用)
8.2. 変換精度、性能を確認するためにはどうすれば良
いのか
弊社では、自社のエンジンの機能、性能を実体験して頂くために、無償の ASP サイトを
運用中です。この ASP サイトへは以下の URL から、どなたでも入れます。
http://www.ncm-git.co.jp/pr/corecompetence/erexASP_Menu.html
具体的には、上記ページ内の注意書きをお読み頂いた後に、下の方の「基本的な探索」
から入り、右下の住所検索のテキストボックスに住所を入力して頂ければ、住所→緯度
経度、住所文字列の正規化の機能を実体験出来ます。
13
また、「周辺検索」では、緯度経度→住所の変換機能を実体験出来ます。
8.3. どんなデータを利用しているのか
住所再生工場が、利用しているデータは表 8-2の通りです。
表 8-2
項番
1
2
分類
住所
eCapGC のデータソース
名称
街区レベル位置参
照情報
郵便番号データ
提供元
用途
国 土 計 画 局 総 務 課 国 住所の辞書
土情報整備室
郵便事業株式会社
市町村合併履歴
9. どんな環境で動作するのか
「住所再生工場」は弊社製品の住所変換エンジン「eCapGC」
(http://www.ncm-git.co.jp/pr/soft/package/geocoding/geocoding.html)をベースとして
開発されています。
「eCapGC」は Microsoft SQLServer に格納された住所辞書データを必要とします。結果
として、システム構成は
図 9-1に示す通りです。Microsoft SQLServer としては、無償の SQLServer Express
も利用可能です。よって、SQLServer の調達に要する費用を0にすることが可能です。
対応している Windows
① Windows XP
② WindowsVista
OS は以下の通りです。
14
csv 又 は
利用者、操作者
Excel 形式
正規化前
住所、座標
等データ
ユーザーインターフェイス
住所再生工場
csv 又 は
Excel 形式
eCapGC
正規化済
住所、座標
等データ
住所辞書
データ
Microsoft SQLServer
(必須)
Windows
図 9-1
動作環境
10. 利用に必要な経費はいくらなのか
本体価格を表 10-1に示します。別途、データ更新及びマイナーバージョンアップを提供
する保守サービスのシステムも御座います。保守サービスについては、製品の御購入後、
御案内申し上げます。
表 10-1 価格表
項号
1
項目名
本体
定価(消費税込み)
168,000 円
備考
1筐体当たり
現在キャンペーン期間中にて 94,500 円
(税込み)にて発売中
注1:使用契約書にも明記されている通り、本製品による変換成果またはその一部は、
同一事業所内での利用に限定されています。例えば、本ソフトウエアを用いて、有償、
無償を問わずデータ変換サービスを実施することや、たとえ同一社内でも、異なる事業
所に対して、変換成果またはその一部を提供することは禁止されています。その様な場
合は、別途御相談下さい。
注2:住所再生工場では、住所変換エンジンの API を公開していないため、カスタマイ
ズは出来ません。住所変換エンジンの API の利用によるカスタマイズを要望される場合
は、住所変換エンジン「eCapGC」
15
(http://www.ncm-git.co.jp/pr/soft/package/geocoding/geocoding.html)を御利用下さい。
11. 付録:基本用語解説
11.1.
正規化とはどんな処理か
正規化とは、住所表記の問題を解決するために、表記のゆれを統一し、省略を補い、一
塊の住所文字列を住所要素毎に分けることを意味します。
ここで住所要素とは、住所文字列を構成する要素を意味し、具体的には、表 11-1に示す
通りです。
表 11-1
正規化の様子
レベル
要素名
実データの例1
実データの例2
01
都道府県名
東京都
神奈川県
02
郡名
03
市町村名
川崎市
04
区名
文京区
多摩区
05
大字・町域名 白山
菅仙谷
06
小字名
07
丁目
1
3
08
街区番号
xx
xx
09
住居番号
yy
yy
10
建物名称
A ビル
11
階数・号室
201
zz
注:上記で xx、yy、及び zz は数値を意味する。
11.2.
実データの例3
栃木県
鹿沼市
久保町
xx
ジオコーディングとはどんな処理か
ジオコーディングとは、住所文字列を座標に翻訳、変換する処理、技術を意味します。
アドレスマッチングと呼ばれることもあります。この技術により、住所文字列と関係付
けられているデータ、例えば支店の売上げデータを地図上にマッピングすることが可能
です(図 11-1参照)。
16
支店名
売上げ(円)
住所文字列
A 支店
895、000
東京都文京区白山 1-xx-yy○○ビル
B 支店
1、234、000
東京都文京区大塚 1-xx-yy○○ビル
C 支店
1、157、000
東京都台東区上野 1-xx-yy○○ビル
地図上へのマーク及び
ラベル表示
B 支店 1、234、000 円
C 支店 1、157、000 円
A 支店 895、000 円
図 11-1
ジオコーディング処理のイメージ
なお、ジオコーディングには逆方向の処理も考えられます。つまり、座標から最近隣の
住所文字列を取得する処理です(図 11-2参照)。住所再生工場は逆方向の変換もサポー
トしています。
17
最近隣住所の探索
東京都文京区白山 1-xx-yy
住所文字列の該当位置
探索の開始点
図 11-2
逆方向のジオコーディング処理のイメージ
18
Fly UP