タグ

プログラミングと形態素解析に関するh1saoのブックマーク (3)

  • MeCab(形態素解析)をPythonから2分で使えるようにする方法

    ※サンプル・コード掲載 あらすじ Javaだと、Kuromojiを使用するまでに必要な手続きは、基的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。 しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。 ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。 使用した環境 Ubuntu 16.04python3、pipはインストールされていると仮定 *インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。 MeCabのインストール(1分以内) コマンドを打ち間違えなければ、完了まで1分かかららず、ご活用いただけるはずです。 MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。 Me

    MeCab(形態素解析)をPythonから2分で使えるようにする方法
  • MeCabをブーストさせよう - Qiita

    はじめに MeCabとは日語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/

    MeCabをブーストさせよう - Qiita
  • [PHP]文章を解析して単語ごとに分解する(形態素解析) | PHP Archive

    語は英語と違い、単語同士が明確に区切られていないので、一つ一つの単語の品詞を調べる場合は、いわゆる「分かち書き」をする必要があります。 分かち書きとは次のように単語を分けて書くことです。 これは日語です → これ | は | 日語 | です プログラミングで分かち書きを行うには大変な労力がかかるので、ゼロから開発するのは現実的ではありません。 簡単に行う方法の一つは Yahoo! API を利用することです。 クエリを送るだけで簡単に解析結果を受け取ることができるので便利ですが、リクエスト回数に上限があったり、クレジット表記が義務付けられたりするので、状況によっては使いにくくなります。 もう一つはサーバーに MeCab をインストールする方法です。 Mecab はオープンソースの形態素解析エンジンで、様々な分野で活用されている実績あるプログラムです。 可能ならこちらを導入するのがベ

  • 1