[B! 形態素解析] hsato2011のブックマーク

hsato2011 id:hsato2011

形態素解析に関するhsato2011のブックマーク (3)

R言語で文字列の類似度を計算する
ビッグデータによる解析で注目されているのは、文字列解析です。数値解析はこれまでも行われてきましたが、非定型で定量化されていない文字列のデータをどう解析するかは大きな課題でした。しかし、いろいろ解析手法が編み出されてきており、かつIT 技術の進歩によって膨大なデータを取り扱えるようになっていることから、現実的に使える分析になっています。これまでR言語による分析をはじめたと書いてきましたが、今回は具体的な文字列解析に関する内容を書いておこうと思います。文字列の類似度を定量化する２つの文字列を比較して、どの程度類似しているかを定量化します。いろいろ手法はあると思っていますが、とりあえず使いやすそうなのは「レーベンシュタイン距離」です。レーベンシュタイン距離（レーベンシュタインきょり）あるいは編集距離（へんしゅうきょり）は、情報理論において、二つの文字列がどの程度異なっているかを示す数値であ
hsato2011 2016/07/11
R言語を使ってデータ分析

R

形態素解析

データ

研究

機械学習
リンク
形態素解析ツールの品詞体系
ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。いわゆる形容動詞は名詞の形容動詞語幹として含まれ、形容詞には含まれない。Juman の指示詞というカテゴリは「連体詞」に含まれている。判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description
hsato2011 2016/07/05
形態素解析ツールのルールとか

ツール

形態素解析

自然言語処理

chasen
リンク
公開ツール - NAIST Computational Linguistics
松本研究室で開発した自然言語処理ツールの一覧です．公開中のツール日本語形態素解析システム ChaSen 「茶筌」品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs 日本語係り受け解析システム CaboCha「南瓜」汎用テキストチャンカー/タガー YamCha SVM 学習ツール TinySVM Large margin confidence-weighted オンライン学習ツール AROW++ Latent Dirichlet Allocation 学習ツール lda 高速形態素解析器システム MeCab 高速文字列検索システム SUFARY コーパス管理・検索ツール「茶器」日本語述語項構造解析器 SynCha「新茶」統計的日本語校正 Chantokun「ちゃんとくん」英語誤り検出 NAIST Error Detection System at EDC
hsato2011 2016/06/28
自然言語処理

ツール

形態素解析

構文解析
リンク
1