タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

mecabに関するpunitanのブックマーク (2)

  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • 『衣類用語辞書の構築』

    皆さん、初めまして。2009年新卒入社の遠山と申します。 広告効果検証システムCAMPのシステムを担当しております。 今回のエントリーでは、「衣類用語辞書の構築」についてお話したいと思います。 弊社では、アメーバブログのNGワードの検知にアダルトキーワードを登録した辞書を用いたり、流行語や著名人ブログ情報の検索サイトのアメーバ辞書(携帯のみ対応)では、人名を登録した辞書を用いたりしています。 独自の辞書を用いてブログ記事を解析することで、何の話題についてその記事が書かれているかを知る指標を得ることができます。 今回は、個人的にファッションが好きなので、2MBのコーパス(流行のファッションについて書かれたレポートのテキスト)から「ライダースジャケット」や「Tシャツワンピース」(※Tシャツとワンピースではないです。)といった衣類名を抽出し、ファッションの分野に特化した衣類用語辞書を作成した話を

    『衣類用語辞書の構築』
  • 1