[B! python][clustering] juno_cのブックマーク

juno_c id:juno_c

pythonとclusteringに関するjuno_cのブックマーク (2)

Webstemmerによるブログの本文抽出 - FutureInsight.info
Pythonで記載されたレイアウト+diffベースで本文抽出を行うWebstemmerを用いてブログの本文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック第2版鴨澤眞夫當山仁健吉田聡おすすめ平均リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使
juno_c 2009/05/01
python

clustering

本文抽出

search
リンク
PythonでWard法によるクラスタリング
Pythonで、Ward法によるクラスタリング（デンドログラム作成まで）を実装してみた。参考にしたのは、岡山大学が公開しているこの資料。（岡山大学の先生ありがとう！）今回こんな車輪の再発明をしたのは、距離表と呼ばれる行列データを行列のイメージで保存せず、 [(ベクトル1とベクトル2の距離, ベクトル番号1, ベクトル番号2), ...] という形式のリストにして、距離でソートしておき、そのソート結果を維持したままこのリストを分割、更新していくという方針で作ったらどうかと思ったからです。 196個の19次元の非スパースなデータのデンドログラム作成に2.5秒だからなかなかのパフォーマンスではないだろうか。 CもC++もNumpy系の数値計算ライブラリも使わないでこれだから、いいですねえ。使い方読み込むデータファイルをタブ区切りで用意する。 1カラム目はデータの識別用ID文字列、2カラ
juno_c 2009/01/07
python

clustering
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx