[B! Python][MeCab] xefのブックマーク

続・MeCabの分かち書きを並列処理で高速化する

まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る処理: multiprocessingを用いた並列処理書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合はじめに日本語形態素解析器であるMeCabを用いると、日本語のテキストに対する解析や処理が簡単に実行できます。特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

xef 2022/11/17

MeCab
Python

リンク

Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note

入門自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異

xef 2013/02/15

リンク

MeCabをPythonから使う注意点とか

日本語の文章をコンピュータで色々いじるときに，必ずと言っていいほどよく使うのが形態素解析器．スペースなどの明示的な区切りの無い日本語を単語に分割してくれるツールです．中でもMeCabが非常に有名で，さまざまなところで使われています． MeCabはいろいろな言語から呼び出すことができます．自然言語処理の分野ではPythonが人気のようですね．僕も使っています．しかし，MeCabをPythonから使う場合，注意する点がいくつかあります．そこにハマっている後輩を見かけたので，文章として残しておくことにします． Python2系が対象です(3系はよくわからない)．注意するのは以下の二点です． MeCabに渡す文字列はencode，戻ってきた文字列はdecodeする MeCabに渡した文字列は必ず変数に入れておく EncodeとDecode Python2系の文字列には，バイト列として

xef 2012/12/16

MeCab
Python

リンク

Sphinx と MeCAB でナレッジベース風ツールを作る | GoingMyWay

これは Sphinx Advent Calendar 2012 6日目です。@togakushi さんから受け取りました。 @togakushi さんのテーマに関するテーマ（私の表現がアレですね..）を今後参考にしながら社内のsphinxサイトをリニューアルしたいなと思う今日この頃です。さて、@goingmywaynet です。Python使えない自称エンジニア（本業は事務屋）ですが、面白くてSphinxを利用させて頂いています。ネタの使い回しになりますが、ちょっと変わった Sphinx の使い方のご紹介です。 Tipsや技術的な内容は薄いと思いますが、お付き合い頂ければと思います。１．Sphinx とは Advent Calendar からこられた方には説明の必要はないと思いますが、Sphinxは元々は Python というプログラミング言語のメンテナンスやAPIのためのドキュメント

xef 2012/12/11

リンク

Pythonによる日本語自然言語処理 #pyconjp

Pythonによる日本語自然言語処理 #pyconjp - Presentation Transcript Python @nokuno #pyconjp •  Python 2.X •  •  •  •  •  @nokuno / id:nokuno •  #TokyoNLP •  Social IME / StaKK •  Web •  Python 2.X Python 2.X / read write UTF-‐8 “ ” decode encode Unicode u” ” # encoding: utf-‐8 u” “ decode encode MeCab•  MeCab•  Python MeCab –  mecab ipadic, mecab-

xef 2012/05/05

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

PythonとMeCabに関するxefのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

月間はてなブックマーク数ランキング（2025年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス