[B! nlp] [2ページ] bongkuraのブックマーク

bongkura id:bongkura

nlpに関するbongkuraのブックマーク (28)

自然言語処理勉強会＠東京第1回の資料 - 木曜不足
本日の tokyotextmining こと自然言語処理勉強会＠東京第1回で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。以前、Ruby で作った本文抽出モジュールを機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web本文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】
bongkura 2010/07/05
自然言語処理

nlp
リンク
第１回自然言語処理勉強会＠東京に参加してきた - hamadakoichi blog
「第１回自然言語処理勉強会＠東京 (#tokyotextmining)」(id:nokuno さん主催) に参加してきた。 ATND: 第１回自然言語処理勉強会＠東京 : ATND Google Group: Google グループ素敵な会でした。主催者のid:nokuno さん、講師の id:sleepy_yoshi さん、id:n_shuyo さん、[Twitter:@PENGUINANA_] さん、 [Twitter:@suzuvie]さん、ありがとうございました。また素敵な会場提供して下さった株式会社ミクシィさんにも感謝。以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。 Togetter 第１回自然言語処理勉強会＠東京 (#tokyotextmining) - Togetter FSNLPの第1章を読む (id:nokuno, [Twitter:
bongkura 2010/07/05
自然言語処理

nlp
リンク
RSS を読み込んでランダムな文章を生成する
RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。以下、サンプルプログラムと実行例です。サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho
bongkura 2010/06/17
形態素解析

nlp

perl
リンク
第一回集合知シンポジウム（1日目）
第一回集合知シンポジウム（1日目） 2010-01-25-1 [EventReport][NLP] 1月25、26日開催の第一回集合知シンポジウムの一日目のメモ。二日目のメモはこちらをどうぞ→[2010-01-26-1] プログラム詳細はこちらをどうぞ： - 研究会開催プログラム - 2010-01-NLC ■類似した動作や状況を検索するための意味役割及び動詞語義付与システムの構築竹内孔一・土山　傑・守屋将人・森安祐樹（岡山大）単単語なら既存のウェブ検索エンジンでいいが、動作・状況を検索するには文章構造を考慮することが必要になる。そのような集合知解析の基礎となるツールを目指す。統計的アプローチでは難しいので（細かいところが正しくできない）、言語知識・文法知識を用いたルール規則ベースで行う。複合名詞内係り受け、慣用句、主動詞、語義付与。 ■Q&Aサイトの「質問−回答」における結
bongkura 2010/06/17
NLP
リンク
第一回集合知シンポジウム（2日目）
第一回集合知シンポジウム（2日目） 2010-01-26-1 [EventReport][NLP] 1月25、26日開催の第一回集合知シンポジウムの二日目のメモ。一日目のメモはこちらをどうぞ→[2010-01-25-1] プログラム詳細はこちらをどうぞ： - 研究会開催プログラム - 2010-01-NLC ■Q&Aサイトに投稿する質問に書くべき情報の特殊さの推定磯貝直毅・小島正裕・西村　涼・渡辺靖彦・岡田至弘（龍谷大）質問するにあたって必要な最低限の情報は何か。「excel について質問するならバージョンとOSも一緒に書くべし」とか。 QAサイトのカテゴリ特有フレーズ抽出で実現。 Yahoo!知恵袋データ使用。 ■Supporting Multilingual Discussion of Wikipedia Translation with the Language Grid
bongkura 2010/06/17
NLP
リンク
「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト
「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト 2010-01-26-2 [NLP][WebAPI][YahooHacks][Programming] 「第一回集合知シンポジウム」でプレゼンしたのですが、そのときデモしたり言及したりしたURLのリストです。第一部ウェブサービス(Web API)の基礎知識 - [を] ウェブサービス(Web API)とは？[2009-12-24-1] - [を] ウェブサービス(Web API)をプログラムから使う[2009-12-26-2] - MECAPI - MeCab Web Service (MeCab API) ttp://mimitako.net/api/mecapi.cgi ttp://yapi.ta2o.net/apis/mecapi.cgi （追記180618: 負荷が厳しいため何年か前から停止中）（追記1
bongkura 2010/06/17
webservice

NLP
リンク
京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転改
KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根本的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。そこに新しくKyTeaが現れた。
bongkura 2010/05/14
MeCab

自然言語処理

KyTea

nlp
リンク
構文解析が何に役立つのか
思いがけずたくさんブックマークしていただいたので，この機会になんで構文解析なんかやるのかというお話を書こうと思います．おそらく，NLP界隈の人には何をいまさらと思われるかもしれませんが，それが本当に役立つかというとなかなか一筋縄では行きません．今回興味を持たれた方の多くはNLP分野外の方なんじゃないかな，と勝手に考えてますのでそのつもりで書きます．構文解析というのは，文の構造を判別する処理のことで，NLP的には単語分割，品詞タグ付け（いわゆる形態素解析）のあとにくる処理です．ソフトウェアで言えばCabochaやKNPがこれにあたります．ここに大変わかり易いチュートリアルがありますｗ　例えば「値段の高いワイン」が，「値段のワイン」ではなくて，「値段の高い」「高いワイン」であることを認識する技術，と理解していただければ良いと思います．このように，文節間の係り関係を解析することを，係り受け解析
bongkura 2010/02/07
自然言語処理

NLP

形態素解析
リンク
前のページ 1 2