この記事は abicky.net の MeCab ソースコードリーディング私的メモ(形態素解析編) に移行しました
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く