タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

webとPythonに関するmryのブックマーク (1)

  • Webstemmerによるブログの本文抽出 - FutureInsight.info

    Pythonで記載されたレイアウト+diffベースで文抽出を行うWebstemmerを用いてブログの文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。 検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック 第2版鴨澤 眞夫 當山 仁健 吉田 聡 おすすめ平均 リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使

    Webstemmerによるブログの本文抽出 - FutureInsight.info
  • 1