タグ

nlpに関するtaninswのブックマーク (28)

  • CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

    機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

    CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
    taninsw
    taninsw 2014/01/29
  • 人工知能:東大入試からシンギュラリティまで - Active Galactic : 11次元と自然科学と拷問的日常

    メディアや他の方がいくつか報告を上げているが、土曜日に『ロボットは東大に入れるか』の講演を聞きに行ったので気づいたことなどをメモしておこう。 人工知能にとっては、センター数学よりも東大二次数学の方が解きやすいことや、図形や文の構造を理解することがどうしようもなく難しいことなど、AIと人間の違いに関するいくつかの側面を興味深く受け取った。 「人間のように思考する」といった曖昧で高すぎる目標ではなく到達度を客観的に評価しやすい入試問題をターゲットに選んだのはよい着眼点だと思う。もし2021年までに、東大入試クラスの読解力や問題処理能力を獲得したならば、技術文書を要約したり、国会答弁を自動生成したり、様々な産業応用が可能になるだろう。 模試の結果はもっと惨憺たる有り様になると思っていたが、センター試験では 387/900、2次試験は(今回は数学のみだが)合格者平均を超えるなど、予想していたより結

    人工知能:東大入試からシンギュラリティまで - Active Galactic : 11次元と自然科学と拷問的日常
  • 驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac

    語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです: ソフトウェアの更新も一人旅になってきた - ny23の日記 このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります:

    驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac
    taninsw
    taninsw 2012/09/23
  • 日本語入力を支える技術という本を書きました - 射撃しつつ前転 改

    (追記):「このに書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術というを書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんななのか、目次などについては公式ページを参照していただくとして、以下ではどんななのか宣伝したいと思います。 こののキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの

    日本語入力を支える技術という本を書きました - 射撃しつつ前転 改
  • 自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい - EchizenBlog-Zwei

    @tkngさんの力作「日本語入力を支える技術」が2/8に発売される。既に秋葉原のヨドバシ有隣堂や池袋のジュンク堂店では早売りされている様子。ってことで早速購入してきた。 書が扱うテーマはGoogleIMEのような「日本語入力」のシステム。これだけだとさして興味ないや、って人も多いかもしれない。ところがこの日本語入力というのは技術的には形態素解析に非常に近い。自然言語処理やテキストマイニングに関わる方にとっては形態素解析は最も基的かつ重要な技術。その仕組みを知っておくのは非常に重要だと思う。 また日本語入力(形態素解析)は技術的には機械学習、グラフの最短経路問題、簡潔データ構造など多くの分野が関わっているので「日本語入力」を理解することでこれらの多くの基礎技術の具体例を体感できるというメリットがある。 そんな日本語入力をまとめて勉強できるのが書「日本語入力を支える技術」である!ばーん

    自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい - EchizenBlog-Zwei
  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
    taninsw
    taninsw 2011/11/04
  • 自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな - EchizenBlog-Zwei

    自然言語処理の優秀なエンジニア各位にオススメを聞くと大抵FSNLP(Foundations of Statistical Natiral Language Processing)という答えが返ってくる。またブログ等でFSNLPを絶賛している方も多い。 私は自然言語処理は長尾で満足してしまっていたのでFSNLPは読んでいなかったのだけれど、長尾は現在入手困難ということもあって入手しやすい自然言語処理の教科書があるといいなと思っていたのでFSNLPを読んでみた。 その結果。自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな。という結論に至ったので全力でFSNLPを推薦する記事を書くことにした。 参考: [を]FSNLP @ytoさん 自然言語処理の定番の教科書まとめ - 生駒日記 @mamorukさん Perl で自然言語処理 @overlastさん ざっと読んでみてFSN

    自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな - EchizenBlog-Zwei
  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

    taninsw
    taninsw 2011/10/28
  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
  • 言語処理学会第17回年次大会(NLP2011)ワークショップ 「自然言語処理における企業と大学と学生の関係」

    ワークショップは終了いたしました。ご協力いただいた皆様、どうもありがとうございました。 twitterのまとめ。 twitterのハッシュタグは #gengo2011ws です。 自然言語処理に関係した企業と大学と学生の関係が変化しています。 自然言語処理に関する大学での研究内容と企業での応用が非常に近くなって来ています。 企業がデータを大学等に提供し、その研究成果が社会に還元される仕組みができつつあります。 多くの学生は大学での研究活動の後に企業に入り、研究所や事業部での活躍が期待されています。 企業はより優秀な頭脳を集めるために、これまでの枠に捕われない採用姿勢をとる傾向が強まっています。 インターン制度により学生が企業の中身を事前に知ることができるようになっていますが、範囲は限定されています。 ワークショップでは、企業、大学、学生の3者の間での相互理解を目的に、それぞれの 立場や

  • 自然言語処理

  • 文体診断ロゴーン

     文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。

  • 自然言語処理 悪魔の辞典

    言い換え (paraphrase) 都合の悪いことを別の表現でごまかすこと。物は言い様。 例: 「わがまま→自分の意思をしっかり持っている人」 「不潔→ワイルド系」「くだらない研究→興味深い研究」 「役に立たない研究→基礎研究」 意味論 (semantics) 意味論の意味は意味論の意味論によって定義される。 SVM (support vector machine) ポスト決定木の最右翼。決定木を参照のこと。 エラー率 (error rate) 精度の向上が芳しくないときに用いる。精度が 0.01 % 上がりま した、と言わずに、エラー率が 5%下がりました、と言うとよい。 機械学習 (machine learning) 自己の学習をあきらめた人間の最後のよりどころ。 形態素解析 (morphological analysis) 文を形態素に分割すること。形態素が何であるかは永遠の謎。 決

  • 言語情報・悪魔の辞典 - Hiroshi Nakagawa

    Hiroshi Nakagawa 言語情報・悪魔の辞典 「悪魔の辞典」という有名ながありますが、その書名があまりに魅力的なの で、これをパロッたたくさんのや記事があります。この小文もその末席に座 ることを目指しているわけです。 見出し語一覧 一神教 Nグラム 学者 逆説 クイック 言語学者 作文 再現率 終助詞 ジップの法則 情報検索 人工知能 ソシュール 成長 単語 辞書 チョムスキー 適合率 日語の乱れ(終助詞) 日語の乱れ(やる) メタデータ 一神教(バカの壁) 養老猛司著「バカの壁」によると、都会人は精神的に弱く、 何かにすがりたい気持ちがあるので、絶対的な権威を持つ一神教に引きずりこ まれる傾向があるのだと言います。一方、塩野七生は「ローマ人の物語」の中 で、ローマの人々は、3世紀以降、それまでのやり方がうまくいかなくなって、 それまでの多神教から一神教であるキリスト教に

    taninsw
    taninsw 2011/01/12
    面白くてためになる/メタデータは分類ではなく関係(relation)と考える。 AはBのメタデータ。cf AはBのお父さん お父さんのお父さんは変ではない 子無しのお父さん(=純粋単体お父さん)は無い。純粋なメタデータもない。
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • nlpwp.org - このウェブサイトは販売用です! - nlpwp リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • 「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記

    Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこのを読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって

  • 自然言語処理の研究者が SKK を使うのはちょっと悲しい - 武蔵野日記

    午前中助教室にいると自分を訪ねて来てくれた学生さんがいる。どうもこれからインターンシップに行く人だそうで、いろいろと不安なので相談に乗ってほしい、ということだ。 自分の経験や今後のキャリアについてお話してみたり。やはり今どきの女性は一生働く(途中に出産や育児で休んだり時短にしたりするのを考慮に入れて)キャリアを考えて人生設計すべきだと思うし、男性も同様。意外に行ってみるといろいろ道が開ける(というかつながっている)ものである。 そうそう、今年の SVM 勉強会は 8月7日開催 なので、お日にち間違えなきよう (※松研の OB/OG の同窓会です)。 午後は水曜日からの読書会の読み合わせ。夏の勉強会は The Syntactic Process (Language, Speech, and Communication) 作者: Mark Steedman出版社/メーカー: A Bradfo

    自然言語処理の研究者が SKK を使うのはちょっと悲しい - 武蔵野日記
  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    taninsw
    taninsw 2010/06/22