タグ

自然言語処理に関するcomoglyのブックマーク (8)

  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

  • Lingua::LanguageGuesser はいかにして生まれたのか

    言選Webは東京大学情報基盤センター中川研究室で公開している 専門用語(キーワード)自動抽出サービスです。 このシステムは内部で、専門用語(キーワード)自動抽出Perlモジュール"TermExtract"を活用しています。 特に西欧言語版では英語だけではなく、フランス語、イタリア語などの用語抽出を行うことができます。 しかし、入力テキストがどの言語で書かれているか判定する仕組みをもたず、ユーザがその都度指定する必要がありました。 そこで、入力テキストがどの言語で書かれているか、自動判定する仕組みを新たに考えることになった次第です。 言語判定を行う方式を調べたところ、いくつかの手法があることがわかりました。 N-Gramモデルを用いたテキストの分類器を使う 各言語で頻出する単語や特徴的な単語があるかどうかで判定する アクセス先サイトのURLから国名を得る HTMLのMETAタグの記述を確認す

  • 超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)

    超高速テキスト処理のための ゕルゴリズムとデータ構造 東京大学情報理工学系研究科* 岡野原 大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学郷キャンパス * 2010年4月から所属が (株)プリフゔード゗ンフラストラクチャーになります。 内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景 大規模自然言語処理と機械学習 背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ~1010 語 – c.f. Penn TreeB

  • Yahoo!のAPIを利用してマルコフ連鎖で文章生成(php)

    形態素解析→マルコフ連鎖で文章生成のサンプル2007です。 前に書いたやつはchasenを使ってましたが、今回はYahoo!APIの 日形態素解析Webサービスを利用するサンプルコードです。 幅広い環境で使えるようにPEARのライブラリとかバージョン依存する関数とか使ってません(多分) あと、応用しやすいように冗長に書いてる部分とか、Errorチェックが抜けてる部分がありますが気にしないで下さいw 実行結果が見れるサンプルもおいときますね // 解析したい文章 $text = "はじめまして、こんにちは、わたしはLanタソです\nこんにちはこんにちは!!ぼくはまちちゃん!"; $text = str_replace("\n", "。", $text); //改行を適当に。にでも変換しる //API用パラメーター $params = array( 'appid' => '**

  • はるかBOTの仕組み - について | まとめ

    TwitterでReudyをベースにした人工無能、「はるか♡BOT」を設置しています。 こういったbotを作るために、何をどうやっているのかと関心を持って頂いた人のために、内部で行っている処理をまとめました。 botを作る際の参考になれば幸いです。何か質問がありましたら@iPCMまで。 「はるか♡BOT」体 . Reudy(IRC版)をベースにしています。 取得部分はTwitterIrcGatewayにまかせています。 ReudyにはTwitter特有の文字コード変換、@返し処理などを追加しています。 投稿する部分から先はかなり特異なことをしています。 以下に処理図を貼り付けておきます。(クリックで拡大) 支援 . Twitter特有のフォロー、リムーブ処理を自動化しています。 Auto Follow返し . あなたをフォローしましたよという通知メールを監視しています。 フォロ

  • RSS を読み込んでランダムな文章を生成する

    RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。 って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。 以下、サンプルプログラムと実行例です。 サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

    RSS を読み込んでランダムな文章を生成する
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • 高速、小容量の自然言語解析で直感的な 対話型インターフェースを実現する「Answers Anywhere」

    1. Answers Anywhereとは 「Answers Anywhere」は、自然言語で入力されたユーザーの指示から意図を汲み取り、対話をしながら機器操作やデータ検索をするシステムを構築するためのミドルウェアです。 分かりやすいイメージとしては(かなり誇張表現ですが)アプリケーションを「2001年宇宙の旅」のHAL9000やスタートレックのコンピューターのように操作できるようにするものと言えるでしょう。映画の中でシステムは知的にふるまい音声対話によりユーザーの指示に答えながらユーザーを支援していました(HAL9000は最後暴走してしまいましたが……)。現状のAnswers Anywhereでは、映画中のシステムのように音声入力まで含めた機能は実現してはいないのですが、ユーザーから文章として受け取った指示を意味解釈し、アプリケーションの操作やデータ抽出を対話的に行うことができます。 具

    高速、小容量の自然言語解析で直感的な 対話型インターフェースを実現する「Answers Anywhere」
  • 1