タグ

ブックマーク / chalow.net (10)

  • ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

    ヤフーの日語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日形態素解析Webサービス」[2007-06-18-1] で試すことができ

    ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
    pcod
    pcod 2008/08/23
  • 文字列の ID 化と相互変換を SUFARY を使って行う方法

    文字列の ID 化と相互変換を SUFARY を使って行う方法 2008-04-10-2 [Programming] 例えば、巨大なコーパスに対して出現する単語の共起情報を計算するときなどに、 (1) 各単語をあらかじめ ID (例えば整数) に変換して、 (2) その ID で内部処理を行い、結果をその ID で出力し、 (3) 出力結果 の ID を元の単語に戻す、 というロジックをよく使う。 機械学習の学習データの feature や、ログデータ分析なんかもこのロジックでやったりする。 SUFARY を用いてこの作業を効率的に行う方法をメモ。 速度よりも省ディスクスペースを優先する人向け。 巨大な単語集合(例えば100万とか1000万とか1億とか)に有効。 小規模なら、ありもののDBやハッシュで良いかと。 まず準備。 各行はキー文字列と付加情報をスペースでつないだもの。 mkary

    文字列の ID 化と相互変換を SUFARY を使って行う方法
    pcod
    pcod 2008/06/23
  • [を] ランディ・パウシュ教授の最終講義

    ランディ・パウシュ教授の最終講義 2008-04-01-1 [English] 昨年の秋頃に公開されたカーネギーメロン大学の ランディ・パウシュ教授 (http://www.cs.cmu.edu/~pausch/) の 「最後の講義 (The Last Lecture)」という動画が人気だそうです。 どんな内容かと言うと、ええと、下記をご覧ください。 - Clue's pick-up: ガンに侵されたRandy Pausch教授の最後の講義 http://www.clue-web.net/blog/2007/09/randy_pausch.php 3Dアニメーション作成システム「Alice」を開発したカーネギーメロン大学 コンピューターサイエンス学部のランディー・パウシュ教授は、膵臓癌で 余命は何ヶ月もないと宣告されている状態。そんな彼の、子供の頃にラン ディ少年が抱いていた夢をベースにし

    [を] ランディ・パウシュ教授の最終講義
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
    pcod
    pcod 2007/11/27
  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
  • Web関連語抽出を試作

    Web関連語抽出を試作 2007-09-04-3 [WebTool][NLP] Web関連語抽出 http://yapi.ta2o.net/kanrenp/ Yahoo!ウェブ検索APIで検索結果100件を取ってきて、形態素解析をかけて、 複合名詞的なものだけ抽出し、出現頻度をカウントして表示します。 ちょっと前に作ったやつで、まだ試作段階なんだけど、 とりあえず動くので公開しておきます。 例: - 銀行 http://yapi.ta2o.net/kanrenp/s/%E9%8A%80%E8%A1%8C.html - skype http://yapi.ta2o.net/kanrenp/s/skype.html - カメラ http://yapi.ta2o.net/kanrenp/s/%E3%82%AB%E3%83%A1%E3%83%A9.html 出てくる関連語はいろいろ使いまわしができ

    Web関連語抽出を試作
  • ウェブサイエンス入門-インターネットの構造を解き明かす

    ウェブサイエンス入門-インターネットの構造を解き明かす 2007-09-02-2 [Book][Algorithm] こんなを買いました。 ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす 可視化、構造分析、SEOスパム分析、トピック抽出などの Webまわりの楽しげな話題がたくさん。ウェブマイニングとか テキストマイニングとかが大好きな私としては素通りできません。 一度一気にざっと目を通して、その後部分部分つまみ読みしたりしてたん だけど、具体的なアルゴリズムや数式(そんなに難しくないやつ)も のっていて、実用的かも。

    ウェブサイエンス入門-インターネットの構造を解き明かす
    pcod
    pcod 2007/09/04
  • Yahoo!デベロッパーネットワークにテキスト解析APIが登場!

    Yahoo!デベロッパーネットワークにテキスト解析APIが登場! 2007-06-18-1 [WebTool][NLP][MECAPI][Programming] Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。 第一弾は日形態素解析APIです。 ヤフーのいろんなところに使われている WebMA という 形態素解析エンジンのAPIです。 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html MECAPI の仕様に似ていますが、まあそういうものです。 (MECAPI https://maapi.net/) で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の WebMA 版を作ってみました。「文で検索2」

    Yahoo!デベロッパーネットワークにテキスト解析APIが登場!
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • [を] Suffix Array の解説文書のリンク集

    Suffix Array の解説文書のリンク集 2006-04-10-3 [Algorithm] Suffix Array について解説している日語による文書のうち、 Webで閲覧できるもののリンク集。随時更新予定。 - 用語解説: Suffix Array (PDF) via http://ta2o.net/tools/sufary/ - Suffix Array の解説 in D論 (PDF) via http://ta2o.net/tools/sufary/ - 横着プログラミング 第9回: sary: Suffix Array のライブラリとツール http://0xcc.net/unimag/9/ - Suffix Arrayの簡単な説明 http://sary.sourceforge.net/docs/suffix-array.html - Suffix Trees and

    [を] Suffix Array の解説文書のリンク集
  • 1