タグ

形態素解析に関するy-kawazのブックマーク (2)

  • MeCabで中国語の形態素解析(分かち書き)をしてみる | 100% Pure NEET

    2017年10月更新 同じ話題について書きました:「MeCabの中国語分割辞書を作る話」 形態素解析(分かち書き)とは 形態素解析というのは「我是英國人」という文章を入れたときに「我/是/英國/人」という形態素(意味を持つ最小の単位)に分割するものです。ここでは必ずしも形態素に分割することを求めていないので「分かち書き」という言葉を使います。 このエントリを作ろうと思ったのは情報がほとんどなくて自分が非常に苦労したからです。このエントリがあることで多くの人にとって役に立つことを願います。 中国語の形態素解析器はほとんどない 「関口宏司のLuceneブログ」によると 「中国語には(商用のものを除き)形態素解析器が(あまり)ない」という話を聞いたことがあります とのことです。他にも「(2004年度修士論文)JPドメインにおける茶筌を用いた中国語ページの抽出(PDF注意)」を見ると 3.2.1

  • Gomoku: 辞書込みの形態素解析器 - sileのブログ

    IgoをベースにしてJARファイルに辞書データを同梱した形態素解析器を作成した。 名前は同系統のGomoku(ver 0.0.1)。 特徴 開発コンセプト(?)は「JARファイルのみで形態素解析」と「サイズを(比較的)小さく」の二点。 このJARファイル一つで形態素解析が行える(外部の辞書データ不要)、という点が最大の特徴。 ただし、その分辞書のカスタマイズ性には乏しい。 ※ 辞書を変更する場合はjarファイルごと取り替える必要がある その他の特徴を列挙: 辞書データサイズがIgoより小さい 辞書込みJARファイルのサイズは4MB程度。解凍時は10MB程度*1。※ Igoは辞書サイズは40MB程度 辞書のデータサイズを節約するために、形態素の素性から品詞以外の情報を除外 そのため原型や読み等の情報を解析結果から得ることは不可能 (デフォルトの)辞書にはIPADIC(mecab-ipadic

    Gomoku: 辞書込みの形態素解析器 - sileのブログ
  • 1