タグ

NLPに関するsomemoのブックマーク (127)

  • 1   Japanese NLP Library — Japanese Natural Language Processing

    0.1 Morphologically Tokenize Japanese Sentence Kanji / Hiragana / Katakana to Romaji Converter Edict Dictionary Search - borrowed Edict Examples Search - incomplete Sentence Similarity between two JP Sentences Run Cabocha(ISO–8859-1 configured) in Python. Longest Common String between Sentences Kanji to Katakana Pronunciation Hiragana, Katakana Chart Parser

    somemo
    somemo 2015/08/13
  • 自然言語処理ツール

    自然言語処理の研究で役立つツールを集めてみました。 音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。 言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法(Knese

    somemo
    somemo 2015/08/13
  • はてなブックマーク全文検索の精度改善

    Hatena Engineer Seminar #5 での発表スライド

    はてなブックマーク全文検索の精度改善
    somemo
    somemo 2015/06/19
  • 日本語で読める自然言語処理のチュートリアルスライドまとめ

    先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、

    somemo
    somemo 2015/04/21
  • moco(beta)'s backup: 辞書内包/Pure Python実装の形態素解析器 Janome を公開しました

    一応の基機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ

  • オンライン機械学習(機械学習プロフェッショナルシリーズ第1期)発売のお知らせ - Preferred Networks Research & Development

    お久しぶりです。徳永です。 講談社からオンライン機械学習というタイトルのが出版されます。著者はPreferred Infrastructure/Preferred Networksの海野, 岡野原, 得居, 徳永の4人です。 機械学習の中でもオンライン機械学習に特化したで、単純パーセプトロンから始まり、Passive Aggressive, Confidence Weighted, AROW, Soft Confidence Weightedなど(Passive Aggressive, Confidence Weighted, AROWは分散オンライン機械学習フレームワークJubatusでも実装されています)についてアルゴリズムの概要を説明したり、リグレット解析による性能解析について説明しています。また、分散環境でのオンライン機械学習や、深層学習での応用、効率的な実装方法など、応用的な

    オンライン機械学習(機械学習プロフェッショナルシリーズ第1期)発売のお知らせ - Preferred Networks Research & Development
  • Regexp.ja

    解析前に行うことが望ましい文字列の正規化処理 辞書データを冗長にして異表記を吸収するのにも限界がある。 辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、 解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理 以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。 生成時には色々置換と削除をしているが、最後に反映されているのは以下である。 全角英数字は半角に置換 0-9=> 0-9 A-Z=> A-Z a-z=> a-z 半角カタカナは全角に置換 半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。 ハイフンマイナスっぽい文字を置換 以下はハイフンマイナスに置換する。 MODI

    Regexp.ja
    somemo
    somemo 2015/04/08
  • はてなブックマークのトピックページの裏側 - Hatena Developer Blog

    こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。 先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。 内容 「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、 トピック生成の精度が低い トピックタイトル生成が難しい という問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。 トピック生成 これまでキーワードなどを用いて記事をクラスタリ

    はてなブックマークのトピックページの裏側 - Hatena Developer Blog
    somemo
    somemo 2015/02/13
  • ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った

    概要 簡単に使える Pure JavaScript形態素解析器 kuromoji.js を書きました。今回は、簡単に kuromoji.js を紹介したあと、セットアップ方法を解説します。ついでにロードマップ的なものも晒してみます。みんなでブラウザ NLP しよう! kuromoji.js とは 言わずと知れた Java形態素解析器 Kuromoji を JavaScript に移植したものです。 kuromoji.js の GitHub リポジトリ と言っても、機械的に Java から JavaScript に置き換えたものではないため、API も違いますし、メソッド名やその内部も大幅に異なります。そもそも自分が形態素解析について勉強するために書き始めたため機械的なトランスレートに興味がなかったこと、また言語ごとに使いやすい API は異なると考えていることが理由です。 Node

    ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った
  • <4D6963726F736F667420506F776572506F696E74202D208DC590E6925B8D5C95B689F090CD82C682BB82CC8EFC95D332303132313231392E70707478>

    進藤 裕之 NTT コミュニケーション科学基礎研究所 2012.12.19 最先端構文解析とその周辺@統計数理研究所 統計的手法による 文法モデリングと構文解析 全体構成 Part1. 統計的手法による構文解析 Part2. 確率的文法モデリング Part3. 確率的文法モデルの学習 Part4. 現在の到達点と今後の展開 Part1. 統計的手法による構文解析 構文解析 プログラム I have a pen 入力: 文 出力: 構文木 自然言語処理における構文解析 統語構造 I a have S NP VP VP NP pen 色々な種類の構文木がある 言語学的考慮 + 計算機での扱いやすさ + α I a have S NP VP VP NP pen have I pen a ・文脈自由文法 ・木置換文法 ・依存文法(係り受け) ・木接合文法 ・範疇文法 文法の選択基準: 構文解析 プ

    somemo
    somemo 2014/12/31
  • 確率文脈自由文法 - Wikipedia

    確率文脈自由文法(英: Stochastic context-free grammar, SCFG, Probabilistic context-free grammar, PCFG)は、各生成規則に確率が対応している文脈自由文法である。導出(構文解析)の確率は、その導出で使われた生成規則群の確率の積で表される。従って、導出結果は他の文法よりも確率文法により近い。SCFGの文脈自由文法への拡張は、隠れマルコフモデルの正規文法への拡張と似ている。SCFGは主に自然言語処理とバイオインフォマティクスにおけるRNA分子の研究で利用されている。SCFGは加重文脈自由文法の特殊な形態と言うことができる。 CYK法の派生手法で、与えられたSCFGのビタビ構文解析を見つけることができる。ビタビ構文解析は、SCFGによる適用規則列の最も尤もらしい導出(構文解析)である。 Inside-Outside アル

    somemo
    somemo 2014/12/31
  • kuromoji.js使って構文解析した - Qiita

    こんにちは、らこです。先日から話題になってるJavaScript形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事 ではない です) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた 私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。 あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら 確率自由文脈文法とは ちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。 雰囲気つかむにはここらへんを

    kuromoji.js使って構文解析した - Qiita
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • シソーラス - Wikipedia

    シソーラス (英: thesaurus) は単語の上位 / 下位関係、部分 / 全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書。 語源はギリシャ語"thesauros"で、宝物庫の意味。1852年、英国でピーター・マーク・ロジェが、語彙を意味によって分類した『Thesaurus of English Words and Phrases』(英語語句宝典、1852)を著してから100年以上続いている。日では1964年、国立国語研究所が編集し『分類語彙表』を発表している。 シソーラスは類語辞典の一種である。類語辞典には五十音順に項目立てしているものと、概念ごとに分類しているものがある。シソーラスは語彙の持つ意味から、大分類 - 中分類と下っていき、目的の単語に達することができるようになっている。 シソーラスは自然言語処理の分野でも重要な位置にあり、『分類語彙表』

  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。

    dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
  • Ustream.tv: ユーザー htsukahara: DSIRNLP06, DSIRNLP06. カンファレンス

    somemo
    somemo 2014/10/11
  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

    somemo
    somemo 2014/10/11
  • 複合語によるわかちがきとその重要性. | @DataSci

    これはあくまで私個人の意見です. なぜ自然言語? 昨今のビッグデータブームに相まって様々な確率論・統計学のビジネスへの応用が考えられてきました.先日紹介した書籍にもあるように,入会予測 =>ロジスティック回帰 ,顧客のセグメンテーション =>クラスタリング, 広告効果要因分解=>状態空間モデル+ベイジアン,顧客育成=>アソシエーションルール,といった具合です.この膠着状態に一石を投じるには,もっと難しい先進の統計解析を勉強してマーケティングの言葉に翻訳すればよいのですが,残念ながら僕にそんな能力はなさそうです. じゃあどうするか?そのひとつの答えがデータソースの工夫です.運用体制を整えて強力なCRMでより上質なデータを集めるのもいいでしょう.でも手元にあるものを使うのが一番はやい,それがテキストデータです.個人的にはテキスト解析と数値解析を組み合わせた分析が未来あるなぁなんて思っています.

    somemo
    somemo 2014/10/11
  • 機械翻訳の今昔物語

    機械翻訳はGoogle機械翻訳がやってくれるからもう十分とお考えのみなさん、実はその裏には長い歴史と面倒くさい理論があるのです。資料の前半は古代からソシュールそして、30年前の機械翻訳を振り返ります。この時代までは機械翻訳の研究者は言語学者の知恵を借りて機械翻訳システムを作っていました。ところが、1990年ごろIBMのワトソン研究所で言語学者の要らない機械翻訳の研究を始めました。これが、この資料の後半で扱う最近主流の統計的機械翻訳です。やたらと数学的に難しいので、よほど興味がある人にしかお勧めできませんが、気で勉強したい人にお役にたてれば幸いです。Read less

    機械翻訳の今昔物語
  • Amazon.co.jp: 機械翻訳 (自然言語処理シリーズ): 太郎,渡辺 (著), 賢治,今村 (著), 秀人,賀沢 (著), Neubig,Graham (著), 敏明,中澤 (著), 学,奥村 (監修): 本

    Amazon.co.jp: 機械翻訳 (自然言語処理シリーズ): 太郎,渡辺 (著), 賢治,今村 (著), 秀人,賀沢 (著), Neubig,Graham (著), 敏明,中澤 (著), 学,奥村 (監修): 本
    somemo
    somemo 2014/10/06