以前のエントリーで本文抽出ライブラリWebstemmerを使ってみました。 Webstemmerによるブログの本文抽出 - FutureInsight.info Webstemmerは非常に興味深い本文抽出ライブラリなのですが、ニュースサイトなどの複雑な階層構造を持っているサイトの本文抽出に特化しているため、逆にblogのようなシンプルなケースでの本文抽出に用いるには、ちょっとオーバースペックです。 Webstemmer Webstemmer はニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェアです。サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。 そのあたりのことを考慮して、本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を作成してみました。
Pythonで記載されたレイアウト+diffベースで本文抽出を行うWebstemmerを用いてブログの本文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。 検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック 第2版鴨澤 眞夫 當山 仁健 吉田 聡 おすすめ平均 リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使
つれづれなるままに、日ぐらしきーぼーどにむかひて、心にうつりゆくよしなしごとを、そこはかとなく書きつくれば、あやしうこそものぐるほしけれ。 python の zip 関数を java でやってみるの続き。今日は map 関数。 python の map 関数とは、第一引数に関数オブジェクト、第二引数にリスト(iterable なもの)を受け取り、リストの各要素を関数に通 し、その戻り値のリストを返す関数。非常にわかりにくいと思うので、以下にサンプルを。 python の map 関数のサンプル >>> func = lambda x: x + 10 >>> a = [1, 2, 3] >>> map(func, a) [11, 12, 13] java には関数オブジェクトなるものがないので、これを代替する Function インタフェースを作成した。Function インタフェースは e
「Django(の名前が)カッコイイ!」という事でPythonを始めてみました。 - あくまで個人的に始めたということです - 本文中のサンプルコードなどは全てPython2.4で実行しています Pythonはじめました 入門書は『初めてのPython』 ほか、情報源 それでは始めましょう お好みでどうぞ ほかにも ドキュメントを読みましょう 自作モジュールにも使えます 中の事を少し 実装 例えばCPython JIT(Just In Time)コンパイラ フローズンバイナリ それではダイジェストでどうぞ ステートメント 代入ステートメント memo memo ifステートメント whileループとforループ ループ内で利用出来るステートメント forループとイテレータとジェネレータ 全てはオブジェクト 不変性 オブジェクト指向とは関係ありません 関数やクラスを書く順序 ビルトインオブジ
ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存) ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。 (上記ファイルはMercurialリポジトリのcloneにもなっています。) 動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。) インストール feedparserと、chardetをインストールしておきます。 以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,
配列操作の比較表: Ruby, Python, JavaScript, Perl, C++ プログラムを書いていると、他のプログラミング言語の記憶とごっちゃになって、「配列の後ろに要素を追加するのは push だっけ、 append だっけ」などと混乱することがあります。特に Ruby, Python, JavaScript はコードの書き方が似ているので、この問題が起きがちです。 そこで、備忘録として、 Ruby, Python, JavaScript, Perl, C++ の配列操作の比較表を作りました。一番慣れている Ruby を基準にしています。間違いなどがあったらご指摘いただけると助かります。他の言語のもあるといいなあ。 Ruby (Array) Python (list) JavaScript (Array) Perl (@) C++ (std::vector)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く