This domain may be for sale!
みなさん、和布蕪は好きですか。私は食べたことがありません。 さて、MeCab は優秀な日本語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。食わず嫌いは感心できませんねぇ。 日本語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日本語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触
Twitter の日本語ハッシュタグ #北海道あるある に触発されて書いてみる。 わりと有名な話だと思うのだが、北海道弁には「押ささる」という言葉がある。 方言なので、その意味を尋ねられるのだが、説明が難しい。難しいというよりは説明が面倒くさいのかもしれない。 意味は、次の2つである。 「押すことができる」(可能) 「(自然に,意図せずに)押される」(使役自発) さらに、「押ささっている」(= 押された状態にある) などという活用もできて、非常に便利な言葉である。そのため北海道民は日常的に使っている。 便利だと感じるのは、他の言葉で置き換えができないからなのだろう。そして、他の言葉で置き換えができないから説明が難しいのだろう。 この「押ささる」という単語をどう説明すればいいか日々頭を悩ませていたが、ある日、以下の関係が同じであることを発見し、これを用いて説明すればわかりやすいことに気づいた
負のオーラを自動検出したい 前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。 前回のエントリでも言いましたが、著作権侵害モノ以外にも、「残しておくとまずいツイート」は色々ある可能性があり、たとえば誹謗中傷の類いがあるかと思います。誹謗中傷ツイートを自動抽出する方法はにわかには思いつきませんが、たぶん「クソ」とか「死ね」とか「バカ」とかそういう悪口の辞書が必要になりそうです。 ところで、言語データの分析手法として、単語ごとに感情特性を評価した辞書というものがあちこちで作られていまして、これを使ってツイートがどのような感情を帯びているか分析するということが、よくやられています。Yahoo!がそういうツールを提供してたりもします(参考リンク)。 Yahoo!のリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く