2013年5月31日金曜日

その後の郵便番号検索

ToDoとしていた項目のうち、URIがイケてない問題は解消。
Apacheの設定弄るとか、普段使ったことのない筋肉だからひどく苦労した。(そもそも最初の時点では、Apacheの設定で解決するのだというところさえ知らなかった)

ついでに、サービスの内容をぼんやりと説明するページを作って、トップに割り当てた。ここ。
http://bagend.sakura.ne.jp/zipcode/


元の住所データが123,400行。

そのうち、330行程は住所が長すぎて書ききれなくって2行以上に分割(!)されていた分。
この郵便番号データ、パっと見カンマ区切りなので、いわゆるcsv型式に見える。が、実際には論理的な1件が物理的な1行になっていない不定型なデータだ。分割された行の中での順序の情報とかも入っていないので、とりあえず上から順番に繋げばいいのだと信じるしかない。これを1行に繋げる処理までは実装済み。

これらを繋いで作った123,100件のうち、1,900件くらいが194-0000みたいな「町田市のその他の地区」の番号。
残りの121,000件が「町田市○○町」みたいな町名とか番地に割り当てられている。

そのうち、800件ほどは「○○町1〜5丁目、△△町」みたいな面倒なことになっている。
全体の1%にも満たない量なんだけどね。

この800件をきれいに整理してみせるのが目標。
自分がこの問題に取りかかった理由であり、一番大きな作業である。

この住所データの整理にとりかかる前に、テストを書こうとしてる。
データベース用のロードデータを作成するバッチ部分だけ。Webでの問合せ部分は、あまり弄る必要性を感じていないので。
肝の部分くらいテストを書いておかなくては……という義務感半分。xUnitやmockの使い方に習熟しておきたいってのが半分。

0 件のコメント:

コメントを投稿