サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
買ってよかったもの
ne555.hatenadiary.org
MeCabで形態素解析 ツイートなんかを分析したいのなら、まずは形態素解析しなきゃオハナシにならないでしょ、と。たとえば「僕は杉山です。」って文を形態素っていう単位に分けて、その形態素の情報を得る、と。形態素の情報っていうのは読み方だとか品詞だとか活用だとか。 形態素解析をするには、いまではMeCabというソフトウェアを使うのがデファクトスタンダードです。 なので、僕のUbuntuにもMeCabを入れます。MeCabを使った開発をするための開発環境や形態素の辞書も入れます。 $ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 mecab-jumandic-utf8ここまでやるとMeCabが動くはずなので、動かしてみます。 ※実際には僕は別の方法を試した後にこれらのパッケージがあることを知ったので、この通りには試していません
TwitterのStreaming API TwitterのStreaming APIを使ってみたくなりました。 Streaming APIというのは、まあその名前通りなのですが、ツイートがストリーミングされてくるAPIです。 大規模データで遊んでみたい 私は前職で音声認識用の統計的言語モデル(ことばの繋がりの関係を統計的に表したモデル)を生成するという業務も担当していました。 限定された範囲の音声認識ができれば良いのなら言語モデルは小さくて良いのですが、より汎用的で、より良い言語モデルを作るには(さらに言うならより良い音声認識をするには)、多くの例となる日本語文章を集める必要があります。この例文を集めたものをコーパスと呼びます。 前職ではツイートを集めてコーパスとし、言語モデルを生成したところ、わりと良い言語モデルを得ることができました。音声認識させる発話の内容にもよりますが、有名なコー
このページを最初にブックマークしてみませんか?
『元40歳無職プログラマの日常』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く