タグ

MeCabに関するkaorunのブックマーク (4)

  • 形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog

    概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)

    形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
  • NMeCab と NuGet を使って手軽に形態素解析を試した - しばやん雑記

    Azure Search で久しぶりに形態素解析周りが気になったので MeCab でも使うかと思って調べると、今は C# で実装された NMeCab というライブラリがあるんですね。 よくあるラッパーじゃないので使い勝手が良いですし、パフォーマンスも中々良好です。 残念ながら公式ではないですが、NuGet にパッケージが登録されているので、こっちからサクッとインストールすることも可能です。実際に NuGet を使ってインストールしました。 インストールすると dic ディレクトリが追加されます。中に IPADIC が入ってます。当然ながら形態素解析をする上で必要な辞書なので、実行時にはコピーする必要があるので注意。*1 NMeCab のサンプルコードは色々と見つかるので、とりあえず一番シンプルな使い方を試します。 static void Main(string[] args) { var

    NMeCab と NuGet を使って手軽に形態素解析を試した - しばやん雑記
  • [移転済] .NET日本語形態素解析エンジンNMeCab プロジェクト日本語トップページ - OSDN

    ⚠️新バージョンはGitHubにあります⚠️ こちらのプロジェクトページは旧バージョンのために残しています。 NuGet LibNMeCab 念のため記載します。 NuGetにNMeCabというIDで公開されているパッケージは別の方によるものです。(そちらにもUNOFFICIALと書いて頂いてある通りです)こちらで更新しているものではないので、誤解の無いようにお願いします。こちらはLibNMeCabというIDでNuget公開しました。(NugetのIDは早い者勝ちだったため) それと、こちらのNMeCabと、オリジナルのMeCabとは別のもの、別の開発者によるもの、だということも誤解の無いようにお願いします。 システム要件 .NET Framework 2.0互換の環境が必要です。(MemoryMappedFile使用時には.NET Framework 4 Client Profile互換

    [移転済] .NET日本語形態素解析エンジンNMeCab プロジェクト日本語トップページ - OSDN
  • 1