タグ

自然言語処理と日本語に関するthree_beeのブックマーク (1)

  • ワードサラダを作ってみよう

    mecabっていう日語構文解析プログラムがあります。 今日は、それを使って「日語を自動解析して用語を抜き出し、コピペ文を自動生成するスクリプト」の作り方を学習します。 必要なもの・root権限で動かせるlinux/unixなマシン。 ターミナルで動作します。面倒くさいGUIなんか作りません。シェルスクリプト万歳! ・yumかapt mecabをインストールするのに必要になります。 レポジトリとかは知らんけど、yum install mecabとかapt-get install mecabとかしてmecabを入れてください。 1. mecabを使って日語から固有名詞っぽいものを抜き出す1行シェルスクリプト。超簡単です。コピペでも動く多分。 これをmecab_extract.shって名前で保存して実行属性を付けよう。 #! /bin/bash cat /dev/stdin |mecab|

    ワードサラダを作ってみよう
  • 1