タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

nlpに関するnagachikaのブックマーク (3)

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • 「buffaloって10回書いて」 - ならば

    Buffalo buffalo Buffalo buffalo buffalo buffalo buffalo Buffalo buffalo buffalo は文法的に正しい「英文」で、簡略化した句構造木は下の図のようになる*1。 オリジナルは8回のBuffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffaloだが、8回や10回に限らず、buffaloを任意の回数繰り返した「英文」は文法的に正しい。 そして、(頭文字が大文字のBuffaloと小文字のbuffaloの区別を事前に付けない場合は)この「英文」の句構造木は一意に決まらない。たとえば8回の場合、大文字・小文字の違いを無視すると、Wikipediaの記事とは違う句構造木を作ることができる。 100回の場合。関係詞節が多重入れ子になる。 上で載せた句構造木は全てRuby

    「buffaloって10回書いて」 - ならば
  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • 1