タグ

PythonとMeCabに関するmoo_sanのブックマーク (2)

  • MeCabのラッパーであるmecab-python3のインストール

    「手っ取り早くMeCabを利用したい」 「WindowsにMeCabをインストールするのが困難」 「mecab-python3に依存するライブラリを利用する必要がある」 この記事は、上記の場合に役立つ内容となっています。 記事の内容 mecab-python3とは?mecab-python3のシステム要件mecab-python3のインストールmecab-python3の動作確認 それでは、上記に沿って解説していきます。 mecab-python3とは? mecab-python3は、MeCabのラッパーです。 形態素解析を簡単に動かしたい場合、mecab-python3が役に立ちます。 LinuxmacOSなら、MeCabは簡単に動きます。 しかし、Windowsの場合はそうではありません。 その様子は、次の記事をご覧ください。

    MeCabのラッパーであるmecab-python3のインストール
  • 続・MeCabの分かち書きを並列処理で高速化する

    まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日形態素解析器であるMeCabを用いると、日語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

    続・MeCabの分かち書きを並列処理で高速化する
  • 1