pythonで形態素解析するのはpipでインストールできるJanomeが楽ちんである。数十万ツイート分を形態素解析したのだが量が多いとツライ。せっかくメモリーもCPUコア数も十分にあるのにシングルタスク/シングルプロセスの処理では宝の持ち腐れである。そこで並列処理をしてスループットをあげた。ついでなので大量に行単位で用意されているテキストデータをjanomeを使って並列処理で処理する時のサンプルコードを書いてみた。ちなみに自分のマシンにあわせてCPU数は16にしてある。 githubの上はこちら # # How to use Janome with multi-processing. # Hironobu Suzuki 2022/Aug/24 # import sys from multiprocessing import Pool, Manager from janome.tokeniz