タグ

mecabとnlpに関するuchiuchiyamaのブックマーク (12)

  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • MeCab と Yahoo! 日本語形態素解析の比較 - やた@はてな日記

    ウェブコーパスを入力にすると形態素解析の誤りがそれなりに発生することを確認できていたので,少し興味があり,MeCab と Yahoo!形態素解析の解析結果を比較するウェブサービスを作成してみました. http://s-yata.jp/morph/compare MeCab については,mecab-0.98 と mecab-ipadic-2.7.0-20070801 の組み合わせになっています.異なる部分を太字と下線で強調するようになっています.でも,ズレを考慮していないので,前半でズレると残りがすべて強調されて見づらくなってしまいます. 他のウェブサービス 後になって,同様の比較ができるウェブページがあることに気づきました.使用制限はありますが,辞書の比較もできて便利です. IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab) 後,MeCab の Web API

    MeCab と Yahoo! 日本語形態素解析の比較 - やた@はてな日記
  • 日本語をMeCab(和布蕪)る

    語の文章をMeCab(和布蕪)を使って形態素解析した結果を見る事が出来るウェブサービスです!日語の勉強をしたい方におすすめ!俺は昔H宿のマックでダブルチーズバーガーのLセット頼んだんだけど、 ドリンク置かれた場所がトレーの端だったから 地下行く階段の手前でトレーから落としたのね あちゃーって顔してレジ見たら店員のお姉さんが笑顔で 「新しいのご用意しますね」って言いながら、 トレー持って立ち尽くしてる俺に小走りでカウンターの中から出てきたのね 多分落ちたカップを拾ったり掃除しようとしたんだろうけどさ そしたらお姉さんがいきなり 「おきをふんすなっぶ」 とか言いながら落ちてた氷を踏んで豪快に転けたんだよ そして俺に体当たりしてきて俺はトレーに残ってたポテトを 撒き散らしながら階段を転げ落ちた お姉さんは体当たりした瞬間俺のみぞおちに二発位パンチしてて マックの店員ははんぱねぇと思ったわマ

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみて - 傀儡師の館.Python:楽天ブログ

    2007.08.20 「Yahoo!形態素解析をMeCabで無理やり再現してみる」を試してみて カテゴリ:ことばの処理 Yahoo!形態素解析をMeCabで無理やり再現してみる を読む。 MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 学習させるときには、辞書と、正解データを用意しなきゃならない。これが面倒だから、なかなか自作の辞書を作る気にならない。Wikipedia のデータをダウンロードすれば、大量のテキスト文章は得られるけれども、正解出力を手作業で作るのは大変だし、元辞書も作らなきゃならないから、不可能に近い。 じゃわ、正解出力をちゃんと手作業で作るのではなくて、Yahoo! API の 日形態素解析Webサービス を使って得られた解析結果を擬似的

    「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみて - 傀儡師の館.Python:楽天ブログ
  • Ajax IME: Web-based Japanese Input Method

    Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日語を入力す ることができます。 特別なソフトは必要ありません。 使い方 お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。 再度 Alt-o (Ctrl-9)で直接入力に戻ります 海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が 無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    uchiuchiyama
    uchiuchiyama 2007/06/30
    takuさんの底力.何気に google vs yahoo の様相
  • MeCab を使って読み仮名を取得する方法

    MeCab を使って読み仮名を取得する方法 2007-06-20-3 出力フォーマットの指定すれば可能です.忘れやすいのでメモ. $ echo 東京特許許可局 | mecab --node-format="%f[7]" --eos-format="\n" トウキョウトッキョキョカキョク - ref.: 出力フォーマット http://mecab.sourceforge.net/format.html - 追記 1 上記だと,以下のようなエラーが出ることがある. tagger.cpp(172) [writer_.write(&ostrs_, str, n)] writer.cpp(322) [n < psize] given index is out of range --unk-format="%M" オプションを追加すればエラーが出なくなった. ……というか,-Oyomi オプションだけ

    uchiuchiyama
    uchiuchiyama 2007/06/30
    MeCabのバージョンというより,使用する辞書の違いじゃないかな
  • [infony] - キーワードを抽出して意味をしらべます

    infonyはWebページで使用されている言葉の意味をワンクリックで調べる無料のWebサービスです【レビュー】infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル 2007-07-14処理を高速化しました2007-07-14Yahoo!形態素解析APIを導入しました2007-06-04キーワード調査結果をリスト表示するようにしました2007-04-06マイコミジャーナルで紹介していただきました2007-04-05infony公開しました 最近のキーワード調査対象Webページ[As] - (MeCab)【文のみ】『Reviews from Epinions』に含まれるキーワードと意味[head][FRP][Structure] - (MeCab)【文のみ】『International Play Company - Softplay, Indoor Pl

  • 1