タグ

自然言語処理に関するSuperAlloyZZのブックマーク (9)

  • 自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

    雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100ノック 言語処理100ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日

    自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • 自動要約アルゴリズムを公開しました! | カメリオ開発者ブログ

    要点から言うと、この度試験的に自動要約サービスを公開しました。画像をクリックしてGo! こんにちは、白ヤギの自然言語処理見習い、シバタアキラです。忙しい時に余計なことを聞かされると、イラっとクルものです。「いいから要点にまとめてくれない?」とか、夫婦間でいうのはあまりオススメしませんが、職場ではよく聞かれるのではないでしょうか。戦略コンサルティング会社は「3っつで言うと」とよく言うことでも知られているように、要点をまとめてササッと話せる人を大量生産しており、実際に重要なポイントをコンサイスに表現できる人は「よく出来る」ということになるわけです。 アルゴリズムによる自動要約の研究は最近始まったものではなく、既に10年以上の研究がなされており、理論的にも体型だって論じられているようです。自然言語処理学会では、各種の問題に対してアルゴリズムの公募が行われていますが、2007/2008年にはNIS

    自動要約アルゴリズムを公開しました! | カメリオ開発者ブログ
  • マルコフ連鎖モンテカルロ法 - Wikipedia

    出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2016年3月) マルコフ連鎖モンテカルロ法(マルコフれんさモンテカルロほう、英: Markov chain Monte Carlo methods、通称MCMC)とは、求める確率分布を均衡分布として持つマルコフ連鎖を作成することによって確率分布のサンプリングを行う種々のアルゴリズムの総称である。具体的には、同時事後分布に従う乱数を継時的に生成する。代表的なMCMCとしてメトロポリス・ヘイスティングス法やギブスサンプリングがある。 MCMCで充分に多くの回数の試行を行った後のマルコフ連鎖の状態は求める目標分布の標として用いられる。試行の回数を増やすとともにサンプルの品質も向上する。 求められる特性を持つマルコフ連鎖を作成することは通常難しくない。問題は許容で

  • マルコフモデルを使った人工無能の作り方 - Hacking My Way 〜 itogのhack日記

    2014/12/13 追記 このブログで参考にしていた絶版の復刻版が出たようです。 追記ここまで 先日、チャットボットを作りました。 「恋するプログラム」というを参考にしたのですが、この、既に絶版になっていて、Amazonのマーケットプレイスではなんと定価の3倍以上の値段で売られています! うーん、これだと手が出ない、けど内容知りたい、、という方のためにクラス図を描きました。書には設計図がかかれてなかったので、持ってる人も確認する意味での役には立つかも知れませんし、Rubyは書けないよ!という方の参考にもなるかと思います。 書で紹介している人工無能の最終形はこんな感じです。 Nobyというのが人工無能のキャラクター、Unmoが人工知能のメインクラスです。Emotionは感情のモデル、Responderが返答内容を作るクラスで、DictionaryやMorph、Guguluなどを参

    マルコフモデルを使った人工無能の作り方 - Hacking My Way 〜 itogのhack日記
  • javaでWEBクローラの作り方 : 研究開発

    java で書かれたwebクローラはこれらなどがあります。 以下は、 自作したいような人が読んで下さい。 HTML parser 参考 javascriptの実行結果をスクレイピングする方法 参考 htmlファイル中のリンクタグは、 LinkTagクラスで表現します。 getLink() で、リンク先URLを取得し、 getLinkText() で、リンクアンカー を取得できます。 HttpURLConnection 参考 botの名前 (HTTP_USER_AGENTに相当する )は、"User-Agent"で指定したりします。 HttpURLConnection.setRequestProperty( "User-Agent", agentname ); この文字列は好き勝手に指定できます。 "Referer" によって、直前に見ていたURL(HTTP_REFERERに相当する )をセ

    javaでWEBクローラの作り方 : 研究開発
  • マルコフ連鎖 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "マルコフ連鎖" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2018年1月) マルコフ連鎖(マルコフれんさ、英: Markov chain)とは、確率過程の一種であるマルコフ過程のうち、とりうる状態が離散的(有限または可算)なもの(離散状態マルコフ過程)をいう。また特に、時間が離散的なもの(時刻は添え字で表される)を指すことが多い[注釈 1]。マルコフ連鎖は、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である(マルコフ性)。各時刻において起こる状態変化(遷移または推移)に関して、マルコフ連鎖は遷移確率が過去の状態によらず、現在

  • 形態素解析 - Wikipedia

    語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

    形態素解析 - Wikipedia
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

  • 1