タグ

自然言語処理に関するkomlowのブックマーク (21)

  • 自然言語処理の研究に悩む その3 - Reproc.pnz

    前置き 最近やっていたことが一段落したので、博論に向けて考えをまとめたいと思います。ここ半年で取り組んでいた論文は投稿中・準備中という感じで今年はまだ結果が出ていないのですが、テーマ的にだんだん思想バトル感が出てきており、あまりすんなり論文が通る・業績が増えるような雰囲気ではなくなっています(言い訳です)。もう少し目線を下げたほうがよいかもしれないです。 あらすじ ここに至るまでの細かい話は前回や前々回の記事をご覧いただければと思うのですが、以下に簡単にまとめます。おそらく質的には大きな変化があるわけではないので読み飛ばしていただいてもたぶん大丈夫です。 自然言語処理におけるひとつの目標として「言語を理解するシステムを作る」ことが挙げられると自分は考えています。そうしたシステムの振る舞いをテキスト上で評価するタスクのひとつに「機械読解(machine reading comprehens

    自然言語処理の研究に悩む その3 - Reproc.pnz
  • 未知語処理も自然言語処理における重要なコンポーネント - 武蔵野日記

    久々に優雅な午前中を過ごす。 午後から修士論文の再発表練習。teruaki-o くんと kodai-t くん。もう再々発表練習する時間はないが、2人ともここまでよくがんばったと思うので、あとは残り少し乗り切ってほしい。 夕方、英語誤り訂正ミーティング。前置詞訂正に関しては [twitter:@shirayu] くんが順調に進めてくれているようだ。最低なんらかの結果は出せるそう、ということで一安心。 [twitter:@keiskS] くんの話は、データ (アノテーション) がどういうものか分かっていなかったので見当違いのコメントをしていたかもしれないが、説明を受けてようやく理解。入力が未知語であるか既知語であるかはけっこう重要なので、辞書引きでできることなら MeCab でやれば簡単だし、辞書引きでできないなら MeCab に手を入れるか自分で書くかのトレードオフを考えたほうがいいし、いま

    未知語処理も自然言語処理における重要なコンポーネント - 武蔵野日記
  • 100 Must-Read NLP Papers

    100 Must-Read NLP Papers This is a list of 100 important natural language processing (NLP) papers that serious students and researchers working in the field should probably know about and read. View on GitHub 100 Must-Read NLP Papers This is a list of 100 important natural language processing (NLP) papers that serious students and researchers working in the field should probably know about and rea

  • Scala で 言語処理100本ノック 2015 を解く - Scala日記

    東北大学 情報科学研究科 情報伝達学講座(乾・岡崎研究室)で作成された自然言語処理入門者のための教材「言語処理100ノック 2015」というのがあるんですが、これを Scala で解いてみました。 github.com だいぶん前に書いたもので、問題が公開された直後にソースコードを出すと真の学習者への効果を下げると思い、控えていたものですが、 ただ、4月からやっている研究室などではさすがに終わっているだろうし、そもそもScalaを書こうという人は初学者ではないだろうというこで、初学者以外の学習効率を上げるための参考資料として、また、言語処理とScalaの裾野を広げるために公開しておきます。 主なターゲット層は 「Python で一周した。Scalaではどう書くのか知りたい」 「自然言語処理については大体分かっている。Scalaを学びたい」 「コップを読んでいる(あるいはもう読んだ)。実

    Scala で 言語処理100本ノック 2015 を解く - Scala日記
  • 単語の分散表現と構成性の計算モデルの発展

    2. 分散表現 (Hinton+ 1986) • 局所表現(local representation) • 各概念に1つの計算要素 (記号, ニューロン, 次元) を割り当て • 分散表現(distributed representation) • 各概念は複数の計算要素で表現される • 各計算要素は複数の概念の表現に関与する 2015-05-31 OS-1 (2)意味と理解のコンピューティング 2 バス 萌えバス … … #2948 … … #19023840334 バス 萌えバス萌えトラック ニューロンの 興奮パターン ≒ベクトル表現 http://ja.wikipedia.org/wiki/富士急山梨バス http://saori223.web.fc2.com/ 3. 構成性(Frege 1892) • Partee (1984) • The meaning of an expres

    単語の分散表現と構成性の計算モデルの発展
  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • 自然言語処理を支える技術 〜要素技術とPerlの活用〜

    RAGの簡易評価によるフィードバックサイクル実践 / Feedback cycle practice through simplified assessment of RAGs

    自然言語処理を支える技術 〜要素技術とPerlの活用〜
  • 自然言語処理のための機械学習入門1章

    2. 自己紹介 ステータス • @piroyoung a,k,a みずかみひろき • 数学(ゲーム理論) → SPA企業の総合職(物流・小売) → データナントカ(コンサル)Now! • 最近,渋谷が気になる スキル・興味・近況 • R, SQL, Python, Ruby, Jags/Stan • データマイニング屋 • NLPについては何も知らない • Scala修行中 • 新しいものが好き • Yo!! 始めました → PIROYOUNG • LINEも始めました→ piroyoung 2 5. • 1.2 最適化問題 • 1.2.1 凸集合と凸関数 • 1.2.2 凸計画問題 今日やること • 1.2.3 等式制約付き凸計画問題 • 1.2.4 不等式制約付き凸計画問題 • 1.3 確率 • 1.3.1 期待値 平均 分散 • 1.3.2 結合確率と条件付き確率 • 1.3.3 独

    自然言語処理のための機械学習入門1章
  • 文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)

    言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこでチュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less

    文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • いい話判定器を作った | 774::Blog

    ※この記事はすでに内容が古くなっています。こちらをご覧ください。 いい話判定器を作った。 いい話判定器 http://goodstory.id774.net/goodstory/ テキストを入力するかコピー&ペーストすると、いい話かどうか判定してくれる。 アルゴリズム 基的に単純ベイズ分類器 (= ナイーブベイズ) そのままである。形態素解析エンジンで自然言語処理をして教師あり学習する。蓄積された教師データと呼ばれる知識により機械学習をおこない、入力データを分類するところに特徴がある。 ナイーブベイズは例えばスパムメールの分類に利用されるアルゴリズムである。人間が見るとスパムメールの判別は一目瞭然であるが、これを人力でおこなうとなると大変に不毛な作業となる。そこで機械にスパムメールのパターン認識をさせ、自動的に処理することにより恩恵を得ることができる。 実装 分類器体は数学関数ライブラ

  • 驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac

    語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです: ソフトウェアの更新も一人旅になってきた - ny23の日記 このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります:

    驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac
  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • 大規模データ時代に求められる自然言語処理 - Preferred Networks Research & Development

    話の内容は、自然言語処理が実世界で具体的にどのように応用されているのか、またその時に感じた課題についてです。 後半の「何が必要とされているか」、あたりの話からは私や会社が特に重点的に取り組んでいる事そのものの話もなります。

    大規模データ時代に求められる自然言語処理 - Preferred Networks Research & Development
  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • 学習ブロック入門編

    next:計画ブロック入門編 >> Next Session:人工無脳の条件 人工無脳はチャットの内容を記憶し、それを再構成することで会話を行なうふりをする。近年では自分が属しているチャットだけでなく、ニュースサイトのテキストなども収集して学習する人工無脳も多い11こうさぎ、酢鶏など。チャットやRSSから得られた文字列を必要な形式で記憶することが学習ブロックの目的である。人工無脳の学習アルゴリズムは文の再構成アルゴリズムと一体になっている場合が多いのだが、あえて切り離して議論することで組み合わせの自由などを考えることができるようになる。そこで、ここでは学習、すなわち入力文字列を記憶に変換するアルゴリズムについてのみ考えよう。 マルコフ連鎖 以前から注目されているアルゴリズムに、C. Shannonによって1948年に発案されたマルコフ連鎖によるテキスト生成(Markov text gene

  • これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei

    最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの

    これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。