タグ

ブックマーク / chalow.net (11)

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • Perl の utf8 まわりのおまじない

    Perl の utf8 まわりのおまじない 2009-09-12-4 [Programming] 自分用メモ。 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); (追記:より良いおまじない。詳細は後述。 $text = Encode::decode_utf8($text) unless utf8::is_utf8($text); ) PerlCGI モジュールでクエリから得られるデータの文字列のutf8フラグの有無が環境によって違うことがあってイライラ。 でもこのおまじないでなんとかなった。 こんな文脈で使う: use utf8; use CGI; ... my $text = $q->param('text') || ""; utf8::decode($text) unless utf8:

    Perl の utf8 まわりのおまじない
  • 「∵」の出し方、「∴」の出し方

    「∵」の出し方、「∴」の出し方 2009-09-22-3 [Tips] 「∵」を出すには「なぜならば」で、 「∴」を出すには「ゆえに」で仮名漢字変換すればOK。 Windows XP 標準の Microfost IME でも、 Mac OS X 標準の「ことえり」でも変換されます。 ref. - なかなか覚えられない読み書き三つ[2006-09-26-5]

    「∵」の出し方、「∴」の出し方
    kamipo
    kamipo 2009/09/24
  • アマゾンAPIを使うのに2009年8月15日から認証が必要になるらしい

    アマゾンAPIを使うのに2009年8月15日から認証が必要になるらしい 2009-05-09-1 [Programming][Affiliate][WebTool] 「Amazon アソシエイト Web サービスの名称変更および署名認証についてのお知らせ」というメールが来ました。 (追記: ほぼ同内容のものが Forum とアソシ公式ブログにもありました。ただし Forum では15日ではなく16日となっています。) さて、このたび、Amazon アソシエイト Web サービスの名称を、「Product Advertising API」と変更しましたことをお知らせいたします。この新名称は、開発者の皆様が Amazon サイトで販売されている商品の広告作成を行い、これによって Amazon より広告費を受け取るという、API の目的をより正しく表しています。 はいはい、了解しました。 「Pr

    アマゾンAPIを使うのに2009年8月15日から認証が必要になるらしい
  • [を] Mac OS X から ssh 接続してもすぐ切れちゃう問題に対処

    Mac OS X から ssh 接続してもすぐ切れちゃう問題に対処 2008-02-26-2 [Tips][Mac] ここ最近、私を悩ます Mac OS X での困り事。 (1) Terminal から ssh でログインしてもしばらくすると切れちゃう。 (2) sshfs を使ってると同様に接続が切れるんだけど、 そのときうっかり Finder で変なところをいじると OS が固まっちゃう[2008-01-27-1]。 どうしたものかなあ、と思ってたらこんなページを発見! - keep-alive for ssh ttp://www.geocities.co.jp/AnimeComic/1098/documents/unixmemo/\ ssh-keepalive.html http://hnw.jp/documents/unixmemo/ssh-keepalive.html (追記08

    [を] Mac OS X から ssh 接続してもすぐ切れちゃう問題に対処
    kamipo
    kamipo 2009/04/09
  • ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

    ヤフーの日語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日形態素解析Webサービス」[2007-06-18-1] で試すことができ

    ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
  • Google Chart API で QRコードも生成してくれるようになった

    Google Chart APIQRコードも生成してくれるようになった 2008-07-04-3 [WebTool] URL をなげるとグラフなどの図を画像として生成してくれる Google Chart API ですが、新たに QRコードを生成してくれるオプションができました。 QR codes (Developer's Guide - Google Chart API) 基となるパラメータは chs(サイズ指定)cht(QRコードなのでqrを指定)chl(エンコードしたテキストを指定) の3つです。 では実例。 このブログのトップページ「https://chalow.net/」のQRコードを作ります。 URLを組み立てるとこうなります: https://chart.apis.google.com/chart?chs=150&cht=qr&chl=https%3a//chalow.

    Google Chart API で QRコードも生成してくれるようになった
  • ムームードメインで取得したドメインをさくらで使う

    ムームードメインで取得したドメインをさくらで使う 2007-06-16-3 [Tips] さくらのコントロールパネルから「ドメイン設定」→ 「ドメインの追加」→「上記以外のドメインの場合」へ。 そして、ドメイン名を入れて「送信する」。 ムームー側で「コントロールパネル」→「ドメイン詳細」(左カラム)→ 「ネームサーバ設定変更」。 ネームサーバを ns1.dns.ne.jp, ns2.dns.ne.jp にする。 以上。

    ムームードメインで取得したドメインをさくらで使う
  • [を] ランディ・パウシュ教授の最終講義

    ランディ・パウシュ教授の最終講義 2008-04-01-1 [English] 昨年の秋頃に公開されたカーネギーメロン大学の ランディ・パウシュ教授 (http://www.cs.cmu.edu/~pausch/) の 「最後の講義 (The Last Lecture)」という動画が人気だそうです。 どんな内容かと言うと、ええと、下記をご覧ください。 - Clue's pick-up: ガンに侵されたRandy Pausch教授の最後の講義 http://www.clue-web.net/blog/2007/09/randy_pausch.php 3Dアニメーション作成システム「Alice」を開発したカーネギーメロン大学 コンピューターサイエンス学部のランディー・パウシュ教授は、膵臓癌で 余命は何ヶ月もないと宣告されている状態。そんな彼の、子供の頃にラン ディ少年が抱いていた夢をベースにし

    [を] ランディ・パウシュ教授の最終講義
  • Googleを支える技術

    Googleを支える技術 2008-03-25-1 [BookReview] 献頂きました。ありがとうございます。 そうでなくとも絶対買うですが。 ■西田圭介 / Googleを支える技術 - 巨大システムの内側の世界 結論から言いますと、 Google のバックエンドの技術について 興味のあるITエンジニアや学生で、 英語よりも日語を読むほうがはやい人は必読です。 グーグルについての技術的なトピックが 日語でさくっと読めます。 Google 社員による英語論文やドキュメントを情報源とし、 それらを咀嚼して平易に解説しています。 「情報系の大学3年生程度の予備知識」を前提に 書かれているとのことで、 情報系の基礎的な語彙が分かっていれば、 確かに難解な話はありません。 数式も出てこないです。 内容紹介 第一章は検索の話で、クロール、インデックス、 ランキング、と Google

    Googleを支える技術
  • 1