今回は自然言語処理の話です.それも若干不自然な言語のマンションポエムが対象になります.マンションポエムというのは,工場萌え*1の著者大山さんが提唱している,マンション広告に入っている詩的なコピーのことです*2.具体的にはこんな感じのやつです*3. PLATINUM SHIP ここは、東京の暮らしの新しき起点。 そこは、時空をかける東京。 TOKYO NON DISTANCE データ さて,そんなマンションポエムですが,実はデータが公開されておりまして,先述の大山さんがGoogle Mapにまとめていらっしゃいます*4.このデータ,KMLという三次元地理情報を扱うためのXMLベースのマークアップ言語で,Pythonで適当にパースしてあげれば扱いやすいデータに落とし込むことができます. ということで早速加工してみたんですが,結構データの抜けや欠けがあって,実は割りと地道に手を動かさないといけな
![マンションポエムで新築マンションをクラスタリング - About connecting the dots.](https://cdn-ak-scissors.b.st-hatena.com/image/square/0e411d32b362f443a295f7e6ff3082d2b78efcd7/height=288;version=1;width=512/http%3A%2F%2Ff.st-hatena.com%2Fimages%2Ffotolife%2FS%2FSAM%2F20141225%2F20141225195035_original.png)