概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip
![apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/731782de3adb30ecc601c0ae476821d64b2b9d27/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9YXBhY2hlLWJlYW0tcHl0aG9uJUUzJTgyJTkyJUU3JTk0JUE4JUUzJTgxJTg0JUUzJTgxJUE2R0NQJTIwZGF0YWZsb3clRTMlODElQTdtZWNhYiVFMyU4MiU5MiVFNCVCRCVCRiVFMyU4MSU4NCVFNSVCRCVBMiVFNiU4NSU4QiVFNyVCNCVBMCVFOCVBNyVBMyVFNiU5RSU5MCVFMyU4MiU5MiVFMyU4MSU5OSVFMyU4MiU4QiVFOCVBOSVCMSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9OWJkMzRmNzg4NWJhMzFlMTExMTI1NDMxNDA3NTc3MGU%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBzaGliYWNvdyZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9OTAyM2U0MGQzZmE1YjA5YTk1NjZiZGQ3OTk5NWNiMzE%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D447cc133c8af4c7fe1af79e2f8df9794)