タグ

2009年11月26日のブックマーク (3件)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • 3分で iKnow! API アプリを作る方法 - iknow gem - RAILS PRESS

    前のエントリーでご紹介した iKnow! API 用の rubygem の使い方について。 Install iKnow! gem レポジトリはこちら ⇒ nov-iknow@github インストールは github を gem のソースに追加して(既に追加した人はもう追加しないように) PLAIN TEXT LANG : shell etc. sudo gem source -a http://gems.github.com 普通に gem install PLAIN TEXT LANG : shell etc. sudo gem install nov-iknow これで、iKnow! API 経由のアクセスを、通常のモデルと同じ感じで使えるようになります。 サンプルアプリの紹介 既にレポジトリの examples の中に、pure-ruby 版と rails 版のサンプルアプリを

    kiyo560808
    kiyo560808 2009/11/26
    あれ、できないぞ。./script/generate iknow_oauthでこける。
  • InfoQ: XMLを越える万能なRESTful API

    def show @event = Event.find(params[:id]) respond_to do |format| format.html # show.rhtml format.xml { render :xml => @event.to_xml } end end (この論文では認証/許可を取り扱いません。認証/許可については、まずrestful_authenticationプラグインをお使いになることを強くお勧めします。) JSONの紹介 JSONは最近人気の標準で、その人気の立役者としてとりわけ、UI開発言語としてのjavascriptの成熟と、AJAXの利用増加が挙げられます。直列化したjavascriptを基にしたJSONは、単純なデータ構造の直列化と送信においてはXMLと比較して格段に優れた方法であると多くの人たちが考えるようになり、冗長の程度も確実に低くなって

    InfoQ: XMLを越える万能なRESTful API