関連タグで絞り込む (1)

タグの絞り込みを解除

Pythonに関するpublichtmlのブックマーク (4)

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を書いてみた - FutureInsight.info

    以前のエントリーで文抽出ライブラリWebstemmerを使ってみました。 Webstemmerによるブログの文抽出 - FutureInsight.info Webstemmerは非常に興味深い文抽出ライブラリなのですが、ニュースサイトなどの複雑な階層構造を持っているサイトの文抽出に特化しているため、逆にblogのようなシンプルなケースでの文抽出に用いるには、ちょっとオーバースペックです。 Webstemmer Webstemmer はニュースサイトから記事文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェアです。サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。 そのあたりのことを考慮して、文抽出ライブラリWebstemmerのblog文抽出用特化スクリプト「blogstemmer」を作成してみました。

    本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を書いてみた - FutureInsight.info
    publichtml
    publichtml 2009/05/03
    本文抽出ライブラリWebstemmerがオーバースペックすぎるので、Blogに合わせてシンプル化。
  • Webstemmerによるブログの本文抽出 - FutureInsight.info

    Pythonで記載されたレイアウト+diffベースで文抽出を行うWebstemmerを用いてブログの文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。 検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック 第2版鴨澤 眞夫 當山 仁健 吉田 聡 おすすめ平均 リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使

    Webstemmerによるブログの本文抽出 - FutureInsight.info
    publichtml
    publichtml 2009/05/03
    Webページの本文抽出ライブラリ。RSSから同じサイトの別ページをたくさん取って来て比較し、レイアウト上本文がどこにあるか推定。
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
    publichtml
    publichtml 2009/03/30
    今自然言語処理の世界は、Pythonがメジャー
  • 1