[B! 自然言語処理] comoglyのブックマーク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

comogly 2010/12/29

リンク

Lingua::LanguageGuesser はいかにして生まれたのか

言選Webは東京大学情報基盤センター中川研究室で公開している専門用語（キーワード）自動抽出サービスです。このシステムは内部で、専門用語（キーワード）自動抽出Perlモジュール"TermExtract"を活用しています。特に西欧言語版では英語だけではなく、フランス語、イタリア語などの用語抽出を行うことができます。しかし、入力テキストがどの言語で書かれているか判定する仕組みをもたず、ユーザがその都度指定する必要がありました。そこで、入力テキストがどの言語で書かれているか、自動判定する仕組みを新たに考えることになった次第です。言語判定を行う方式を調べたところ、いくつかの手法があることがわかりました。 N-Gramモデルを用いたテキストの分類器を使う各言語で頻出する単語や特徴的な単語があるかどうかで判定するアクセス先サイトのURLから国名を得る HTMLのMETAタグの記述を確認す

comogly 2010/07/18

リンク

超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)

超高速テキスト処理のためのゕルゴリズムとデータ構造東京大学情報理工学系研究科* 岡野原大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学本郷キャンパス * 2010年4月から所属が（株）プリフゔード゗ンフラストラクチャーになります。内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景大規模自然言語処理と機械学習背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ～1010 語 – c.f. Penn TreeB

comogly 2010/03/10

リンク

Yahoo!のAPIを利用してマルコフ連鎖で文章生成(php)

形態素解析→マルコフ連鎖で文章生成のサンプル2007です。前に書いたやつはchasenを使ってましたが、今回はYahoo!のAPIの日本語形態素解析 Webサービスを利用するサンプルコードです。幅広い環境で使えるようにPEARのライブラリとかバージョン依存する関数とか使ってません(多分) あと、応用しやすいように冗長に書いてる部分とか、Errorチェックが抜けてる部分がありますが気にしないで下さいｗ実行結果が見れるサンプルもおいときますね // 解析したい文章 $text = "はじめまして、こんにちは、わたしはLanタソです\nこんにちはこんにちは！！ぼくはまちちゃん！"; $text = str_replace("\n", "。", $text); //改行を適当に。にでも変換しる //API用パラメーター $params = array( 'appid' => '**

comogly 2009/08/07

リンク

はるかＢＯＴの仕組み - について | まとめ

TwitterでReudyをベースにした人工無能、「はるか♡ＢＯＴ」を設置しています。こういったbotを作るために、何をどうやっているのかと関心を持って頂いた人のために、内部で行っている処理をまとめました。 botを作る際の参考になれば幸いです。何か質問がありましたら@iPCMまで。「はるか♡ＢＯＴ」本体 . Reudy(IRC版)をベースにしています。取得部分はTwitter Irc Gatewayにまかせています。 ReudyにはTwitter特有の文字コード変換、@返し処理などを追加しています。投稿する部分から先はかなり特異なことをしています。以下に処理図を貼り付けておきます。(クリックで拡大) 支援 . Twitter特有のフォロー、リムーブ処理を自動化しています。 Auto Follow返し . あなたをフォローしましたよという通知メールを監視しています。フォロ

comogly 2009/07/31

リンク

RSS を読み込んでランダムな文章を生成する

RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。以下、サンプルプログラムと実行例です。サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

comogly 2009/07/27

リンク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

comogly 2009/07/19

リンク

高速、小容量の自然言語解析で直感的な　対話型インターフェースを実現する「Answers Anywhere」

1. Answers Anywhereとは「Answers Anywhere」は、自然言語で入力されたユーザーの指示から意図を汲み取り、対話をしながら機器操作やデータ検索をするシステムを構築するためのミドルウェアです。分かりやすいイメージとしては（かなり誇張表現ですが）アプリケーションを「2001年宇宙の旅」のHAL9000やスタートレックのコンピューターのように操作できるようにするものと言えるでしょう。映画の中でシステムは知的にふるまい音声対話によりユーザーの指示に答えながらユーザーを支援していました（HAL9000は最後暴走してしまいましたが……）。現状のAnswers Anywhereでは、映画中のシステムのように音声入力まで含めた機能は実現してはいないのですが、ユーザーから文章として受け取った指示を意味解釈し、アプリケーションの操作やデータ抽出を対話的に行うことができます。具

comogly 2009/07/07

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

自然言語処理に関するcomoglyのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス