[B! 形態素解析] hiroki23のブックマーク

hiroki23 id:hiroki23

形態素解析に関するhiroki23のブックマーク (11)

MeCab ソースコードリーディング私的メモ（形態素解析編）
先日、次のエントリーを書きました。日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログこのエントリーを書く際に MeCab のソースコードをそれなりに読んだので、記憶が薄れないうちにメモっておきます。とりあえず形態素解析部分です。コスト算出部分は気が向いたら書きます・・・。勘違いしている箇所もあるかと思うので、気付いたら指摘してもらえると嬉しいです！形態素解析時の主要クラス形態素解析時に関連するクラスとして特に意識しないといけないのは以下のクラスかと思います。メソッドも主要なものしか表示していません。 Show the source 形態素解析時のシーケンス図主要クラスを把握したら、次は解析の流れです。クラス図のとおり model が viterbi を所有していますが、model()->viterbi()->analyze(
hiroki23 2018/09/22
mecab

形態素解析
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
hiroki23 2018/09/22
mecab

形態素解析
リンク
Elasticsearchのための新しい形態素解析器「Sudachi」 - Qiita
tl;dr （要約） Kuromojiに代わる新しい形態素解析器「Sudachi」なにが良いの？最新の辞書企業（ワークスアプリケーションズ）による継続的な更新複数の分割単位 → 検索用途での再現率と適合率の向上プラグインによる拡張省メモリ Elasticsearchで使いたいプラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください注: この記事の執筆者はSudachiの開発に関わっていますさまざまな形態素解析器形態素解析は、伝統的な自然言語処理（Natural Language Processing, NLP）において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利
hiroki23 2018/07/06
sudachi

形態素解析

mecab

kuromoji
リンク
[janome 開発日誌] 前処理・後処理用の Analyzer フレームワークを追加した janome 0.3.4 をリリースしました | by mocobeta | Medium
[janome 開発日誌] 前処理・後処理用の Analyzer フレームワークを追加した janome 0.3.4 をリリースしました janome のバージョン 0.3.4 をリリースしました。形態素解析，前処理大事！解析後の処理もいろいろやりたい！・・・気づいたら同じような処理を色々なところで再実装してる・・・ということで，形態素解析の前処理・後処理を簡単にテンプレ化するためのフレームワーク（的なもの）を実装しました。（”Analyzer フレームワーク” と名づけている通り，Solr や Elasticsearch を使っている方はご存知の，Lucene の Analyzer をイメージしてもらえるとわかりやすいと思います。）詳しくはドキュメントを参照いただくとして，だいたいの感触がわかる実行例を紹介します。ここでは以下の処理フローを定義して，解析対象の文字列に適用しています。
hiroki23 2017/08/31
形態素解析
リンク
JUMAN++ - LANGUAGE MEDIA PROCESSING LAB
日本語形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです．言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより，単語の並びの意味的な自然さを考慮した解析を行います．それにより JUMAN，MeCab に比べ大きく性能が向上しています．文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています．本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました． ↑ 使用方法 † たとえば，次のようなテキストを入力すると， % cat sample.txt 外国人参政権私もあさって日曜最終日以下の解析結果が得られます． % cat sample.txt | jumanpp 外国がいこく外国
hiroki23 2016/09/28
形態素解析
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
hiroki23 2008/12/24
google

mecab

n-gram

検索

search

形態素解析

資料
リンク
”専門用語（キーワード）自動抽出システム”のページ
1.専門用語（キーワード）自動抽出システムとは？当サイトでは、専門用語（キーワード）自動抽出システムの基本システムおよび応用システムを提供しています。専門用語（キーワード）自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、（１）形態素解析プログラムによる単語分割、（２）複合語の作成、（３）文章中における重要度の計算、という３つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。自作の文章からキーワードを抽出したい！メタデータ作成のためにウェッブサイト
hiroki23 2008/11/21
他言語版がほしい

形態素解析
リンク
rubyneko - Rubyで簡単に形態素解析結果を使う
「KOIL FACTORY PRO」で新たな視点でつくる「衣食住遊」の体験型フェス「ほにゃらら+らDAY」が10月29日と30日に開催
hiroki23 2008/02/20
ruby

形態素解析

あとで読む
リンク
「圧縮新聞」を作った - phaの日記
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と
hiroki23 2007/12/04
マルコフ連鎖

形態素解析

あとで読む
リンク
ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan
ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき
hiroki23 2007/06/19
形態素解析

自然言語処理

検索

yahoo

webサービス

api

search
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
hiroki23 2007/06/04
mecab

形態素解析
リンク
1