タグ

2008年4月16日のブックマーク (7件)

  • キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

    いわゆる「Web2.0」っぽい要素である「タグ」。 一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。 ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。 動作要件の敷居が低い 辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる 希望の結果に近づけるためのチューニングが可能 モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます(

  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • 専門用語(キーワード)自動抽出サービス 「言選Web」

    このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです! このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。 次のいずれかで専門用語(キーワード)を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定 文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定 入力ボックス下のチェックボックスから和文、英文を選択。 専門用語(キーワード)抽出ボタンをクリック しばらくすると専門用語(キーワード)が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの

  • ツールの紹介

    LinuxまたはWindows上で動く自然言語処理のツールや,Web上で実際にすぐに試せるツールを紹介しています.実際に触ってみてくださいね. 紹介するツールは随時増やしていきます. Web上ですぐに試せるツール ここで紹介するツールはどれも,インストール作業不要でWeb上ですぐに試せるツールばかりです.気軽に試してみてください. Ajax IME, Sumibi.org 海外でインターネットカフェに行ったとき,メールを読むことはできても,日語を入力することができなくて困ったことはありませんか?こんなときは,どちらかのサイトを使ってみてください.Webの技術を利用することにより,仮名漢字変換のソフトが入っていなくても日語を入力できます. 専門用語(キーワード)自動抽出サービス「言選Web」 専門的な文書から専門用語をピックアップしてくれます.東京大学の中川裕志先生の開発

  • Yahoo!日本語形態素解析APIをコマンドラインから使うサンプルプログラム

    Yahoo!形態素解析APIをコマンドラインから使うサンプルプログラム 2008-04-05-5 [Programming][NLP] とある経緯で、Yahoo!形態素解析API[2007-06-18-1]を使った Perl のサンプルプログラムを作りました。 車輪の再発明的ですが(だれか作ってた気がする)気にしない! - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html 以下コードです: #!/usr/bin/perl use strict; use warnings; use Encode; use URI::Escape; use LWP::Simple; use XML::Simple; use Getopt::Long; use

    Yahoo!日本語形態素解析APIをコマンドラインから使うサンプルプログラム
  • しかし何故、今、論文共有サイトなのか - keitabando's blog

    論文の共有サイトをプライベートベータ版として公開し、テスト運用している。 この活動に対して、「しかし何故、今、論文共有サイトなのか。」と問われることが多々ある。 電子ジャーナルが普及し、研究者個人のブログによるオープン・アーカイブ化も進行している。つい最近は日物理学会がバックナンバーを公的機関で一部条件付き無償公開を果たしたばかりだ。 日物理学会が,日物理学会誌のバックナンバー(刊行後2年経過したもの全て)をCiNiiで無料公開したと発表していました。 Open Access Japan | オープンアクセスジャパン - 日物理学会誌,バックナンバーを無料公開 また世の中は、ジャーナルの電子化に止まらず、出版物のデジタル化に価値を見いだした人々が、狂ったようにページをスキャンし、検索可能なようにインデックス化している。 グーグル・ブックサーチは身近な事例の1つであって、Univer

    しかし何故、今、論文共有サイトなのか - keitabando's blog
  • PSTricks - Wikipedia

    PSTricks は、PostScript で描いた図形を直接 TeX や LaTeX のコード内に取り込むためのマクロ群である。Timothy Van Zandt が開発し、最近では Denis Girou、Sebastian Rahtz、Herbert Voss が保守している。 使用例[編集] PSTricksの実行例 PSTricks にはグラフィックスを作るための各種コマンドが用意されている。以下の例のように、PSTricks における座標は常に丸括弧で囲まれて書かれている。 \begin{pspicture}(0,0)(6,6) %\psgrid[gridcolor=lightgray,gridlabels=0pt] \psline[linecolor=red](1,1)(5,1)(1,4)(1,1) \pscurve[linecolor=green,linewidth=2pt

    a2ikm
    a2ikm 2008/04/16