タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

PythonとMeCabに関するxefのブックマーク (5)

  • 続・MeCabの分かち書きを並列処理で高速化する

    まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日形態素解析器であるMeCabを用いると、日語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

    続・MeCabの分かち書きを並列処理で高速化する
  • Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note

    入門 自然言語処理 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算 自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異

    Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note
  • MeCabをPythonから使う注意点とか

    語の文章をコンピュータで色々いじるときに, 必ずと言っていいほどよく使うのが形態素解析器. スペースなどの明示的な区切りの無い日語を単語に分割してくれるツールです. 中でもMeCabが非常に有名で,さまざまなところで使われています. MeCabはいろいろな言語から呼び出すことができます. 自然言語処理の分野ではPythonが人気のようですね.僕も使っています. しかし,MeCabをPythonから使う場合,注意する点がいくつかあります. そこにハマっている後輩を見かけたので,文章として残しておくことにします. Python2系が対象です(3系はよくわからない). 注意するのは以下の二点です. MeCabに渡す文字列はencode,戻ってきた文字列はdecodeする MeCabに渡した文字列は必ず変数に入れておく EncodeとDecode Python2系の文字列には,バイト列として

  • Sphinx と MeCAB でナレッジベース風ツールを作る | GoingMyWay

    これは Sphinx Advent Calendar 2012 6日目です。@togakushi さんから受け取りました。 @togakushi さんのテーマに関するテーマ(私の表現がアレですね..)を今後参考にしながら社内のsphinxサイトをリニューアルしたいなと思う今日この頃です。 さて、@goingmywaynet です。Python使えない自称エンジニア業は事務屋)ですが、面白くてSphinxを利用させて頂いています。ネタの使い回しになりますが、ちょっと変わった Sphinx の使い方のご紹介です。 Tipsや技術的な内容は薄いと思いますが、お付き合い頂ければと思います。 1.Sphinx とは Advent Calendar からこられた方には説明の必要はないと思いますが、Sphinxは元々は Python というプログラミング言語のメンテナンスやAPIのためのドキュメント

  • Pythonによる日本語自然言語処理 #pyconjp

    Pythonによる日語自然言語処理 #pyconjp - Presentation Transcript Python   @nokuno   #pyconjp •  Python  2.X  •   •   •   •    •  @nokuno  /  id:nokuno  •  #TokyoNLP  •  Social  IME  /    StaKK  •  Web  •      Python  2.X   Python  2.X  /   read   write   UTF-­‐8   “ ” decode encode Unicode   u” ”    #  encoding:  utf-­‐8   u”  “   decode encode         MeCab•  MeCab•  Python MeCab   –  mecab ipadic,  mecab-­

  • 1