タグ

pythonとclusteringに関するjuno_cのブックマーク (2)

  • Webstemmerによるブログの本文抽出 - FutureInsight.info

    Pythonで記載されたレイアウト+diffベースで文抽出を行うWebstemmerを用いてブログの文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。 検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック 第2版鴨澤 眞夫 當山 仁健 吉田 聡 おすすめ平均 リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使

    Webstemmerによるブログの本文抽出 - FutureInsight.info
  • PythonでWard法によるクラスタリング

    Pythonで、Ward法によるクラスタリング(デンドログラム作成まで)を実装してみた。 参考にしたのは、岡山大学が公開しているこの資料。 (岡山大学の先生ありがとう!) 今回こんな車輪の再発明をしたのは、距離表と呼ばれる行列データを行列のイメージで保存せず、 [(ベクトル1とベクトル2の距離, ベクトル番号1, ベクトル番号2), ...] という形式のリストにして、距離でソートしておき、そのソート結果を維持したままこのリストを分割、更新していくという方針で作ったらどうかと思ったからです。 196個の19次元の非スパースなデータのデンドログラム作成に2.5秒だからなかなかのパフォーマンスではないだろうか。 CもC++もNumpy系の数値計算ライブラリも使わないでこれだから、いいですねえ。 使い方 読み込むデータファイルをタブ区切りで用意する。 1カラム目はデータの識別用ID文字列、2カラ

  • 1