タグ

形態素解析に関するhsato2011のブックマーク (3)

  • R言語で文字列の類似度を計算する

    ビッグデータによる解析で注目されているのは、文字列解析です。 数値解析はこれまでも行われてきましたが、非定型で定量化されていない文字列のデータをどう解析するかは大きな課題でした。しかし、いろいろ解析手法が編み出されてきており、かつIT技術の進歩によって膨大なデータを取り扱えるようになっていることから、現実的に使える分析になっています。 これまでR言語による分析をはじめたと書いてきましたが、今回は具体的な文字列解析に関する内容を書いておこうと思います。 文字列の類似度を定量化する2つの文字列を比較して、どの程度類似しているかを定量化します。いろいろ手法はあると思っていますが、とりあえず使いやすそうなのは「レーベンシュタイン距離」です。 レーベンシュタイン距離(レーベンシュタインきょり)あるいは編集距離(へんしゅうきょり)は、情報理論において、二つの文字列がどの程度異なっているかを示す数値であ

    R言語で文字列の類似度を計算する
    hsato2011
    hsato2011 2016/07/11
    R言語を使ってデータ分析
  • 形態素解析ツールの品詞体系

    ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。 いわゆる形容動詞は名詞の形容動詞語幹として含まれ、 形容詞には含まれない。Juman の指示詞という カテゴリは「連体詞」に含まれている。 判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

    hsato2011
    hsato2011 2016/07/05
    形態素解析ツールのルールとか
  • 公開ツール - NAIST Computational Linguistics

    研究室で開発した自然言語処理ツールの一覧です. 公開中のツール 日形態素解析システム ChaSen 「茶筌」 品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs 日語係り受け解析システム CaboCha「南瓜」 汎用 テキストチャンカー/タガー YamCha SVM 学習ツール TinySVM Large margin confidence-weighted オンライン学習ツール AROW++ Latent Dirichlet Allocation 学習ツール lda 高速形態素解析器システム MeCab 高速文字列検索システム SUFARY コーパス管理・検索ツール 「茶器」 日語述語項構造解析器 SynCha「新茶」 統計的日語校正 Chantokun「ちゃんとくん」 英語誤り検出 NAIST Error Detection System at EDC

  • 1