タグ

NLPに関するsleepy_yoshiのブックマーク (158)

  • きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか

    http://www.asks.jp/users/hiro/59059.html http://www.itmedia.co.jp/news/articles/0905/08/news021.html 最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。 さて、この「読めてしまう」がなぜよめてしまうのでしょうか? 人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、 人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100 程度の 確率で正解するということです。 件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。 すなわち、52/100 =~ 0.5 実際には、最後の文字も変わらないし、 単語の長さが変わらないというもの、大きな

  • 自然言語処理の学会 - DO++

    プログラミング言語の学会に触発された作った。私視点で書いたので、間違ってたりしたら突っ込んでください。 自然言語処理は、情報検索、ウェブ、機械学習とかとの境界領域だったりするのですが、そういうのは除いてます。 大体の学会情報はACL wiki 論文はACL anthology から得られると思います ACL The Association for Computational Linguistics ACL2008 自然言語処理の一番でかい会議。理論からアプリケーションまで何でも集まるが、強いて言えば 機械翻訳、構文解析が多い。いろいろなワークショップ(10ぐらい)も併設される。 EMNLP Conference on Empirical Methods in Natural Language Processing EMNLP2008 言語情報から統計的な情報を取り出して機械学習を使って自然

    自然言語処理の学会 - DO++
  • http://www.smlab.tutkie.tut.ac.jp/~y_yamamoto/

    sleepy_yoshi
    sleepy_yoshi 2009/05/05
    係り先候補の相対的な距離を反映した統計的日本語係り受け解析
  • Home - ISA-Ali

    Our Java courses are 100% practical and up-to-date. You’ll learn Java Core, Maven, Git, Spring (Core, MVC, Security, Boot), Hibernate. All the essentials of the profession – and nothing unnecessary. All of our students participate in teams in real projects, remotely. You’ll sharpen your theory, gain teamwork skills, and gain practical experience for your resume.

    Home - ISA-Ali
  • GSK2008-B 京都大学格フレーム(Ver 1.0)

    GSK会員限定無料配布言語資源。 会員は、年度中、会員限定無料配布言語資源の利用が一件目の場合に限り無料(ただし、送料は着払い)。 年度中、会員限定無料配布言語資源の利用が二件目以上にあたる会員は、5,250円(税込み、送料別)。非会員には配布しない。 公開が年度末であるため、2008年度のGSK会員の無料配布分としての利用申請を2009年4月30日まで受け付ける。

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

    sleepy_yoshi
    sleepy_yoshi 2009/04/05
    ニュース記事の本文抽出
  • 生きあたりまったりブログ

    休学中の過ごし方…うつ状態で何してた?就活やバイトは?大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

    生きあたりまったりブログ
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
  • (メモ)言語判別ライブラリ | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    (メモ)言語判別ライブラリ | 関口宏司のLuceneブログ
  • 第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー

    昨日は第11回 Kansai.pm でした。 今回は無理を言って自分がホストを担当させていただきましたが、面白い発表が多く開催した自分も非常に満足でした。 PFI の吉田さんによる Cell Challenge での計算機に合わせたアルゴリズムのチューニング手法の発表 (発表資料) は圧巻でした。伊奈さんの文抽出の話 (発表資料)、はこべさんのコルーチンの話 (発表資料)、いずれも難解になりがちなところを凄く分かりやすく解説されていて、さすがだなと思いました。各々ショートトークも、いずれも良かったです。 スペルミス修正プログラムを作ろう 自分も 20 分ほど時間をいただいて、スペルミス修正プログラムの作り方について発表しました。 スペルミス修正プログラムを作ろうView more presentations from Naoya Ito. スペルミス修正プログラムについてはずばり スペル

    第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー
  • 機械学習による自然⾔語処理 チュートリアル 〜PerceptronからCRFまで〜 (2008-08-03-crf.pdf)

    機械学習による自然⾔語処理 チュートリアル 〜PerceptronからCRFまで〜 岡野原 大輔 東京大学 Preferred Infrastructure 2008 8/3@PFI郷オフィス 目次 • 自然⾔語処理 紹介 • 機械学習導⼊ • パーセプトロン • バッチ学習 (最大エントロピー法) • 過学習/正則化 • 多クラス分類 • 系列分類 (CRF, Structured Perceptron) このへんで 眠くなる 自然⾔語処理 (1/2) • ⾔語情報をコンピュータで処理する – コンピュータ⾔語の研究との対⽐で自然⾔語 – 世界最初のコンピュータの出現の頃から自動翻訳は 試みられている。コンピューターサイエンスの中で も歴史の⻑い分野 – 近年ビジネス的にも成功, Googleなどなど • 非常に幅広い分野と接触する、境界領域 – 処理する⼿法 = ⾔語学, 数学,

  • https://dl.acm.org/citation.cfm?id=1219917&dl=GUIDE,

  • 鳥取の言語処理学会のまとめ - 武蔵野日記

    遅ればせながら先日の学会のフォローアップ。 Yahoo! 検索スタッフブログにshimpei-m くんがブログを書いている。あまり詳細は書いていないので参考にはならないかもしれないが、鳥取の雰囲気は伝わるかな…… あとは名大の萩原さんのブログ。 文字ベースの自然言語処理がアツい クエリ書き換えについて発表してきました 「論文を引用したら著者に見せる」メソッドが良い感じ おもしろかった論文とか研究とかさまざま紹介されていて、非常に参考になる。金曜日 O 野原くんにもこの一番下のエントリでも取り上げられている柴田さんの「超大規模ウェブコーパスを用いた分布類似度計算」の話を聞いて、なぜか自分は聞き逃していたので、要チェック!と思ったり。id:emiko-y さんの「専門用語の内部構造解析」は萩原さん的最優秀発表賞だそうだ :-) 自分だったら悩みつつ鍛治さんの「文脈にもとづく未知語獲得における識

    鳥取の言語処理学会のまとめ - 武蔵野日記
  • 言語処理学会2009年年次大会本会議2日目: 能動的に集合知を獲得する話 - 武蔵野日記

    2日で合計7時間しか寝ていないところ、お酒をけっこう飲んでしまったので、朝の電車を乗り逃がす。通勤・通学ラッシュ的な時間帯のはずだが、40分に1しか電車が来ない。のんびりしている。あと、鳥取は駅前でもほとんど信号がないのだが、なぜか歩行者がいたら車は(かなり手前から)止まってくれる。信号がないとちょっと怖いのだが、これはこれで安心できる、いい町だと思った。奈良は(NAIST 周辺だけかもしれないが)信号があっても怖いし、歩行者に全然優しくない :-( 今日は初めて総会というものに出てみた。決算報告とか基的に報告ものが多かったので、確かに関心ない人にはどうでもいいだろうな……。ACL business meeting は松先生に「誰でも出ていいはずだから、1回くらい出てみてもいいかも」と言われて出たことがあり、そのときは議論があったのでおもしろかったが、日ではそういう議論になるのはあ

    言語処理学会2009年年次大会本会議2日目: 能動的に集合知を獲得する話 - 武蔵野日記
  • 言語処理学会2009年年次大会本会議初日: 識別学習による未知語獲得 - 武蔵野日記

    朝4時半に起きて東京発朝一の鳥取行きの飛行機に。それでも一乗り過ごしてしまったようで、羽田空港に着いたのが離陸15分前だったので、かなりどきどきした。たまたま O 野原くんの隣の席だったのだが、関係者多いな〜。朝早かったので離陸直後から爆睡してしまったが……。 午前中聞いたのは「テーマセッション:実社会に求められる自然言語処理(1)」で、面白かったのは高橋哲朗さんの「スプログの調査と実システムにおける判別手法」かな。コピペ・テンプレートで一部だけ変わっているようなスプログ、けっこうあるようで、それが高速に検知できると嬉しいだろうな。でも(tooru-h さんの質問にもあったが)「8割以上の文が共通ならスプログ」というの、当は精度と再現率をちゃんと計らないといけないので、速度だけ比較しているのはちょっとツッコミたくはなる。 午後はポスター。現在 Yahoo! 研究所で共同研究していて、s

    言語処理学会2009年年次大会本会議初日: 識別学習による未知語獲得 - 武蔵野日記
  • NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life

    IR研究者をスコアリングしてみた - 睡眠不足?! http://d.hatena.ne.jp/sleepy_yoshi/20090215/p1 この記事を読んでNLP分野ではどうだろう、と思ったのでやってみました。 対象とした会議は2001年~2008年のACLとEMNLPです(年によっては他会議との併設含む)。 cf. DO++: 自然言語処理の学会 http://hillbig.cocolog-nifty.com/do/2008/04/post_fe44.html ACL anthologyから以下のページを利用してデータを取得 ACL: http://www.aclweb.org/anthology-new/P/P08/ (2008年の場合。08の部分を変えれば他の年が見られる) EMNLP: http://www.aclweb.org/anthology-new/sigdat.h

    NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • Web単語共起

    Yahoo!ウェブ検索APIで検索結果100件を取ってきて、日語の場合は形態素解析をかけて、 単語の出現頻度をカウントして表示します。 Unigram は1語単位でのカウント、Bigram は連続2語単位でのカウント、 Trigram は連続3語単位でのカウントです。 関連記事:Webでの単語共起を調べるサイトを作った(たつをの ChangeLog