タグ

ブックマーク / labs.cybozu.co.jp (2)

  • ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図

    ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図。 作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各 […] ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図。 作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各都市の観光地を可視化する、というのをやって話題になった人ですね。 ヨーロッパの様子。言語の切れ目でぼんやりと国境が見えてきます。 カタランとかスイスとか旧ユーゴとか、面白いですね。 こちらが日周辺を切り出したもの。 海上の座標でつぶやかれた日語のツイートがけっこうあるような。GPSの精度の問題か、漁船やフェリーとかからつぶやく人がそんなにいるの

    ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図
  • IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

    Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン

  • 1