[B! NLP] somemoのブックマーク

1 Japanese NLP Library — Japanese Natural Language Processing

0.1 Morphologically Tokenize Japanese Sentence Kanji / Hiragana / Katakana to Romaji Converter Edict Dictionary Search - borrowed Edict Examples Search - incomplete Sentence Similarity between two JP Sentences Run Cabocha(ISO–8859-1 configured) in Python. Longest Common String between Sentences Kanji to Katakana Pronunciation Hiragana, Katakana Chart Parser

somemo 2015/08/13

NLP

リンク

自然言語処理ツール

自然言語処理の研究で役立つツールを集めてみました。音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法（Knese

somemo 2015/08/13

nlp

リンク

はてなブックマーク全文検索の精度改善

Hatena Engineer Seminar #5 での発表スライド

somemo 2015/06/19

NLP

リンク

日本語で読める自然言語処理のチュートリアルスライドまとめ

先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。自然言語処理全般系の資料や、少し境界的なテーマは入っていません。また、ぱっと読めるスライドだけにしています。幾つか手前味噌な資料も載せてます・・。頑張って集めてみましたが、思ったほど集まりませんでした。作っていてわかったのですが、意外とスライドを公開している人は少ないようです。埋もれてしまうのはもったいないですね。いずれ、英語で読めるスライドを集めてみようと思います。そっちはそっちで、

somemo 2015/04/21

NLP

リンク

moco(beta)'s backup: 辞書内包／Pure Python実装の形態素解析器 Janome を公開しました

一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ

somemo 2015/04/09

Python
nlp

リンク

オンライン機械学習（機械学習プロフェッショナルシリーズ第1期）発売のお知らせ - Preferred Networks Research & Development

お久しぶりです。徳永です。講談社からオンライン機械学習というタイトルの本が出版されます。著者はPreferred Infrastructure/Preferred Networksの海野, 岡野原, 得居, 徳永の4人です。機械学習の中でもオンライン機械学習に特化した本で、単純パーセプトロンから始まり、Passive Aggressive, Confidence Weighted, AROW, Soft Confidence Weightedなど（Passive Aggressive, Confidence Weighted, AROWは分散オンライン機械学習フレームワークJubatusでも実装されています）についてアルゴリズムの概要を説明したり、リグレット解析による性能解析について説明しています。また、分散環境でのオンライン機械学習や、深層学習での応用、効率的な実装方法など、応用的な

somemo 2015/04/08

リンク

Regexp.ja

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

somemo 2015/04/08

NLP

リンク

はてなブックマークのトピックページの裏側 - Hatena Developer Blog

こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。内容「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、トピック生成の精度が低いトピックタイトル生成が難しいという問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。トピック生成これまでキーワードなどを用いて記事をクラスタリ

somemo 2015/02/13

NLP

リンク

ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った

概要簡単に使える Pure JavaScript の形態素解析器 kuromoji.js を書きました。今回は、簡単に kuromoji.js を紹介したあと、セットアップ方法を解説します。ついでにロードマップ的なものも晒してみます。みんなでブラウザ NLP しよう！ kuromoji.js とは言わずと知れた Java の形態素解析器 Kuromoji を JavaScript に移植したものです。 kuromoji.js の GitHub リポジトリと言っても、機械的に Java から JavaScript に置き換えたものではないため、API も違いますし、メソッド名やその内部も大幅に異なります。そもそも自分が形態素解析について勉強するために書き始めたため機械的なトランスレートに興味がなかったこと、また言語ごとに使いやすい API は異なると考えていることが理由です。 Node

somemo 2015/01/14

リンク

<4D6963726F736F667420506F776572506F696E74202D208DC590E6925B8D5C95B689F090CD82C682BB82CC8EFC95D332303132313231392E70707478>

進藤裕之 NTT コミュニケーション科学基礎研究所 2012.12.19 最先端構文解析とその周辺@統計数理研究所統計的手法による文法モデリングと構文解析全体構成 Part1. 統計的手法による構文解析 Part2. 確率的文法モデリング Part3. 確率的文法モデルの学習 Part4. 現在の到達点と今後の展開 Part1. 統計的手法による構文解析構文解析プログラム I have a pen 入力：文出力：構文木自然言語処理における構文解析統語構造 I a have S NP VP VP NP pen 色々な種類の構文木がある言語学的考慮＋計算機での扱いやすさ＋ α I a have S NP VP VP NP pen have I pen a ・文脈自由文法・木置換文法・依存文法（係り受け）・木接合文法・範疇文法文法の選択基準：構文解析プ

somemo 2014/12/31

NLP

リンク

確率文脈自由文法 - Wikipedia

確率文脈自由文法（英: Stochastic context-free grammar, SCFG, Probabilistic context-free grammar, PCFG）は、各生成規則に確率が対応している文脈自由文法である。導出（構文解析）の確率は、その導出で使われた生成規則群の確率の積で表される。従って、導出結果は他の文法よりも確率文法により近い。SCFGの文脈自由文法への拡張は、隠れマルコフモデルの正規文法への拡張と似ている。SCFGは主に自然言語処理とバイオインフォマティクスにおけるRNA分子の研究で利用されている。SCFGは加重文脈自由文法の特殊な形態と言うことができる。 CYK法の派生手法で、与えられたSCFGのビタビ構文解析を見つけることができる。ビタビ構文解析は、SCFGによる適用規則列の最も尤もらしい導出（構文解析）である。 Inside-Outside アル

somemo 2014/12/31

nlp

リンク

kuromoji.js使って構文解析した - Qiita

こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを

somemo 2014/12/31

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

somemo 2014/11/03

Python
NLP

リンク

シソーラス - Wikipedia

シソーラス (英: thesaurus) は単語の上位 / 下位関係、部分 / 全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書。語源はギリシャ語"thesauros"で、宝物庫の意味。1852年、英国でピーター・マーク・ロジェが、語彙を意味によって分類した『Thesaurus of English Words and Phrases』（英語語句宝典、1852）を著してから100年以上続いている。日本では1964年、国立国語研究所が編集し『分類語彙表』を発表している。シソーラスは類語辞典の一種である。類語辞典には五十音順に項目立てしているものと、概念ごとに分類しているものがある。シソーラスは語彙の持つ意味から、大分類 - 中分類と下っていき、目的の単語に達することができるようになっている。シソーラスは自然言語処理の分野でも重要な位置にあり、『分類語彙表』

somemo 2014/10/27

language
NLP

リンク

dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

このドメインはお名前.com から取得されました。お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2024年5月時点の調査。

somemo 2014/10/25

リンク

Ustream.tv: ユーザー htsukahara: DSIRNLP06, DSIRNLP06. カンファレンス

somemo 2014/10/11

NLP

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

somemo 2014/10/11

NLP

リンク

複合語によるわかちがきとその重要性． | @DataSci

これはあくまで私個人の意見です．なぜ自然言語？昨今のビッグデータブームに相まって様々な確率論・統計学のビジネスへの応用が考えられてきました．先日紹介した書籍にもあるように，入会予測＝＞ロジスティック回帰，顧客のセグメンテーション＝＞クラスタリング，広告効果要因分解＝＞状態空間モデル＋ベイジアン，顧客育成＝＞アソシエーションルール，といった具合です．この膠着状態に一石を投じるには，もっと難しい先進の統計解析を勉強してマーケティングの言葉に翻訳すればよいのですが，残念ながら僕にそんな能力はなさそうです．じゃあどうするか？そのひとつの答えがデータソースの工夫です．運用体制を整えて強力なCRMでより上質なデータを集めるのもいいでしょう．でも手元にあるものを使うのが一番はやい，それがテキストデータです．個人的にはテキスト解析と数値解析を組み合わせた分析が未来あるなぁなんて思っています．

somemo 2014/10/11

NLP

リンク

機械翻訳の今昔物語

機械翻訳はGoogle機械翻訳がやってくれるからもう十分とお考えのみなさん、実はその裏には長い歴史と面倒くさい理論があるのです。本資料の前半は古代からソシュールそして、30年前の機械翻訳を振り返ります。この時代までは機械翻訳の研究者は言語学者の知恵を借りて機械翻訳システムを作っていました。ところが、1990年ごろIBMのワトソン研究所で言語学者の要らない機械翻訳の研究を始めました。これが、この資料の後半で扱う最近主流の統計的機械翻訳です。やたらと数学的に難しいので、よほど興味がある人にしかお勧めできませんが、本気で勉強したい人にお役にたてれば幸いです。Read less