pcodのブックマーク - はてなブックマーク

ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に「日本語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに？」という方もいると思うので、以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日本語をコンピューターで処理するには、まず形態素解析というのをやって、文を形態素（≒単語）単位に分割します。 YDN の「日本語形態素解析 Webサービス」[2007-06-18-1] で試すことができ

pcod 2008/08/23

api
nlp

リンク

文字列の ID 化と相互変換を SUFARY を使って行う方法

文字列の ID 化と相互変換を SUFARY を使って行う方法 2008-04-10-2 [Programming] 例えば、巨大なコーパスに対して出現する単語の共起情報を計算するときなどに、 (1) 各単語をあらかじめ ID (例えば整数) に変換して、 (2) その ID で内部処理を行い、結果をその ID で出力し、 (3) 出力結果の ID を元の単語に戻す、というロジックをよく使う。機械学習の学習データの feature や、ログデータ分析なんかもこのロジックでやったりする。 SUFARY を用いてこの作業を効率的に行う方法をメモ。速度よりも省ディスクスペースを優先する人向け。巨大な単語集合（例えば100万とか1000万とか1億とか）に有効。小規模なら、ありもののDBやハッシュで良いかと。まず準備。各行はキー文字列と付加情報をスペースでつないだもの。 mkary

pcod 2008/06/23

nlp
memo

リンク

[を] ランディ・パウシュ教授の最終講義

ランディ・パウシュ教授の最終講義 2008-04-01-1 [English] 昨年の秋頃に公開されたカーネギーメロン大学のランディ・パウシュ教授 (http://www.cs.cmu.edu/~pausch/) の「最後の講義 (The Last Lecture)」という動画が人気だそうです。どんな内容かと言うと、ええと、下記をご覧ください。 - Clue's pick-up: ガンに侵されたRandy Pausch教授の最後の講義 http://www.clue-web.net/blog/2007/09/randy_pausch.php 3Dアニメーション作成システム「Alice」を開発したカーネギーメロン大学コンピューターサイエンス学部のランディー・パウシュ教授は、膵臓癌で余命は何ヶ月もないと宣告されている状態。そんな彼の、子供の頃にランディ少年が抱いていた夢をベースにし

pcod 2008/04/05

あとで

リンク

[を] 転置インデックスによる検索システムを作ってみよう！

転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ

pcod 2007/11/27

perl

リンク

カイ二乗値で単語間の関連の強さを調べる

カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

pcod 2007/09/21

リンク

Web関連語抽出を試作

Web関連語抽出を試作 2007-09-04-3 [WebTool][NLP] Web関連語抽出 http://yapi.ta2o.net/kanrenp/ Yahoo!ウェブ検索APIで検索結果100件を取ってきて、形態素解析をかけて、複合名詞的なものだけ抽出し、出現頻度をカウントして表示します。ちょっと前に作ったやつで、まだ試作段階なんだけど、とりあえず動くので公開しておきます。例： - 銀行 http://yapi.ta2o.net/kanrenp/s/%E9%8A%80%E8%A1%8C.html - skype http://yapi.ta2o.net/kanrenp/s/skype.html - カメラ http://yapi.ta2o.net/kanrenp/s/%E3%82%AB%E3%83%A1%E3%83%A9.html 出てくる関連語はいろいろ使いまわしができ

pcod 2007/09/06

リンク

ウェブサイエンス入門-インターネットの構造を解き明かす

ウェブサイエンス入門-インターネットの構造を解き明かす 2007-09-02-2 [Book][Algorithm] こんな本を買いました。 ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす可視化、構造分析、SEOスパム分析、トピック抽出などの Webまわりの楽しげな話題がたくさん。ウェブマイニングとかテキストマイニングとかが大好きな私としては素通りできません。一度一気にざっと目を通して、その後部分部分つまみ読みしたりしてたんだけど、具体的なアルゴリズムや数式（そんなに難しくないやつ）ものっていて、実用的かも。

pcod 2007/09/04

book

リンク

Yahoo!デベロッパーネットワークにテキスト解析APIが登場！

Yahoo!デベロッパーネットワークにテキスト解析APIが登場！ 2007-06-18-1 [WebTool][NLP][MECAPI][Programming] Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。第一弾は日本語形態素解析 APIです。ヤフーのいろんなところに使われている WebMA という形態素解析エンジンのAPIです。 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html MECAPI の仕様に似ていますが、まあそういうものです。 (MECAPI https://maapi.net/) で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の WebMA 版を作ってみました。「文で検索2」

pcod 2007/06/19

リンク

Wikipediaのキーワードリンクを使って関連語データを作ってみた

Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ（関連キーワード集）を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。日本のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。（スクリプトはこの記事の末尾に載せておく） (1) 各キーワードページに含まれているキーワード（リンク）を取り出す。例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。またキーワードAが他のキーワードのページ（例えばX）に含まれていたら、それも蓄積。その場合

pcod 2007/06/10

wikipedia

リンク

[を] Suffix Array の解説文書のリンク集

Suffix Array の解説文書のリンク集 2006-04-10-3 [Algorithm] Suffix Array について解説している日本語による文書のうち、 Webで閲覧できるもののリンク集。随時更新予定。 - 用語解説: Suffix Array (PDF) via http://ta2o.net/tools/sufary/ - Suffix Array の解説 in D論 (PDF) via http://ta2o.net/tools/sufary/ - 横着プログラミング第9回: sary: Suffix Array のライブラリとツール http://0xcc.net/unimag/9/ - Suffix Arrayの簡単な説明 http://sary.sourceforge.net/docs/suffix-array.html - Suffix Trees and

pcod 2007/05/27

リンク

はてなブックマーク

タグ

ブックマーク / chalow.net (10)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス