embulk-filter-kuromojiという日本語解析するプラグインを作りました。 kuromojiを使えば漢字を読みがなに変換したり形態素解析したりすることが出来ます。 今回はサンプルに従って幾つか代表的なユースケースを書きます。 使い方 今回のサンプルデータ title
![Embulkで日本語をお手軽に形態素解析 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/b02078193c4bfaa20f943fa4ebe67b02a1cda10b/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9RW1idWxrJUUzJTgxJUE3JUU2JTk3JUE1JUU2JTlDJUFDJUU4JUFBJTlFJUUzJTgyJTkyJUUzJTgxJThBJUU2JTg5JThCJUU4JUJCJUJEJUUzJTgxJUFCJUU1JUJEJUEyJUU2JTg1JThCJUU3JUI0JUEwJUU4JUE3JUEzJUU2JTlFJTkwJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz1hNDRmNDFkNDA3NzdmYzI1OGIwYWIzN2RhNmE4ZmU2Yw%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDB0b3lhbWEwOTE5JnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0xYTIzMDg3ZWE1MDQyMDlhYmU4ODM1ZTFjOWRlZDI3Ng%26blend-x%3D120%26blend-y%3D445%26blend-mode%3Dnormal%26txt64%3DaW4g5qCq5byP5Lya56S-44OH44Kj44O844O744Ko44OM44O744Ko44O8%26txt-width%3D972%26txt-clip%3Dend%252Cellipsis%26txt-color%3D%25233A3C3C%26txt-font%3DHiragino%2520Sans%2520W6%26txt-size%3D36%26txt-x%3D134%26txt-y%3D546%26s%3D98962e35a3ec5a23fc8dbf8fdb99aa40)
先日ラスベガスで開催されたre:Inventに参加し、その際にデータ分析基盤系のセッションはほぼ参加したのですが、Job管理ツールの話がかなり出ていたのが印象的でした。 AWSにはData PipelineというJob管理サービスがあるのですが、それではなくOSSのJob管理ツールを使っているところが多い印象でした。 日本では自分の観測範囲だとまだ使っているところがあまり多くない印象ですが(実際自分もほとんど使ったことない)、いくつか候補を絞って触って見たので感想を書きます。 あくまでJenkinsしか使ったことがないような個人の感想としてお読みください。。 Airflow Airbnbが開発元 re:Inventでは多くのセッションで紹介されており、一番勢いがある印象を受けた。 依存関係はPythonで書く タスクの登録はUIからやるのではなく、コマンドラインから登録 Python力を前
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く