タグ

nlpに関するbongkuraのブックマーク (28)

  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
  • 第1回 自然言語処理勉強会@東京 に参加してきた - hamadakoichi blog

    「第1回 自然言語処理勉強会@東京 (#tokyotextmining)」(id:nokuno さん主催) に参加してきた。 ATND: 第1回 自然言語処理勉強会@東京 : ATND Google Group: Google グループ 素敵な会でした。主催者のid:nokuno さん、講師の id:sleepy_yoshi さん、id:n_shuyo さん、[Twitter:@PENGUINANA_] さん、 [Twitter:@suzuvie]さん、ありがとうございました。 また素敵な会場提供して下さった 株式会社ミクシィさんにも感謝。 以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。 Togetter 第1回 自然言語処理勉強会@東京 (#tokyotextmining) - Togetter FSNLPの第1章を読む (id:nokuno, [Twitter:

    第1回 自然言語処理勉強会@東京 に参加してきた - hamadakoichi blog
  • RSS を読み込んでランダムな文章を生成する

    RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。 って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。 以下、サンプルプログラムと実行例です。 サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

    RSS を読み込んでランダムな文章を生成する
  • 第一回集合知シンポジウム(1日目)

    第一回集合知シンポジウム(1日目) 2010-01-25-1 [EventReport][NLP] 1月25、26日開催の第一回集合知シンポジウムの一日目のメモ。 二日目のメモはこちらをどうぞ→[2010-01-26-1] プログラム詳細はこちらをどうぞ: - 研究会 開催プログラム - 2010-01-NLC ■類似した動作や状況を検索するための意味役割及び動詞語義付与システムの構築 竹内孔一・土山 傑・守屋将人・森安祐樹(岡山大) 単単語なら既存のウェブ検索エンジンでいいが、動作・状況を検索するには文章構造を考慮することが必要になる。 そのような集合知解析の基礎となるツールを目指す。 統計的アプローチでは難しいので(細かいところが正しくできない)、言語知識・文法知識を用いたルール規則ベースで行う。 複合名詞内係り受け、慣用句、主動詞、語義付与。 ■Q&Aサイトの「質問−回答」における結

    第一回集合知シンポジウム(1日目)
    bongkura
    bongkura 2010/06/17
  • 第一回集合知シンポジウム(2日目)

    第一回集合知シンポジウム(2日目) 2010-01-26-1 [EventReport][NLP] 1月25、26日開催の第一回集合知シンポジウムの二日目のメモ。 一日目のメモはこちらをどうぞ→[2010-01-25-1] プログラム詳細はこちらをどうぞ: - 研究会 開催プログラム - 2010-01-NLC ■Q&Aサイトに投稿する質問に書くべき情報の特殊さの推定 磯貝直毅・小島正裕・西村 涼・渡辺靖彦・岡田至弘(龍谷大) 質問するにあたって必要な最低限の情報は何か。 「excel について質問するならバージョンとOSも一緒に書くべし」とか。 QAサイトのカテゴリ特有フレーズ抽出で実現。 Yahoo!知恵袋データ使用。 ■Supporting Multilingual Discussion of Wikipedia Translation with the Language Grid

    第一回集合知シンポジウム(2日目)
    bongkura
    bongkura 2010/06/17
  • 「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト

    「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト 2010-01-26-2 [NLP][WebAPI][YahooHacks][Programming] 「第一回集合知シンポジウム」でプレゼンしたのですが、そのときデモしたり言及したりしたURLのリストです。 第一部 ウェブサービス(Web API)の基礎知識 - [を] ウェブサービス(Web API)とは?[2009-12-24-1] - [を] ウェブサービス(Web API)をプログラムから使う[2009-12-26-2] - MECAPI - MeCab Web Service (MeCab API) ttp://mimitako.net/api/mecapi.cgi ttp://yapi.ta2o.net/apis/mecapi.cgi (追記180618: 負荷が厳しいため何年か前から停止中) (追記1

    「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト
  • 京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改

    KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。 かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。 そこに新しくKyTeaが現れた。

    京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改
  • 構文解析が何に役立つのか

    思いがけずたくさんブックマークしていただいたので,この機会になんで構文解析なんかやるのかというお話を書こうと思います.おそらく,NLP界隈の人には何をいまさらと思われるかもしれませんが,それが当に役立つかというとなかなか一筋縄では行きません.今回興味を持たれた方の多くはNLP分野外の方なんじゃないかな,と勝手に考えてますのでそのつもりで書きます. 構文解析というのは,文の構造を判別する処理のことで,NLP的には単語分割,品詞タグ付け(いわゆる形態素解析)のあとにくる処理です.ソフトウェアで言えばCabochaやKNPがこれにあたります.ここに大変わかり易いチュートリアルがありますw 例えば「値段の高いワイン」が,「値段のワイン」ではなくて,「値段の高い」「高いワイン」であることを認識する技術,と理解していただければ良いと思います.このように,文節間の係り関係を解析することを,係り受け解析