タグ

形態素解析に関するnana4gontaのブックマーク (4)

  • Twitterから興味・関心を分析する(その1) - moguranosenshi

    2013-09-24 Twitterから興味・関心を分析する(その1) 自然言語処理 前回のエントリでは、Voyage GroupのTreasure2013というインターンについて書きました。 今回は、そのインターンで開発したWebサービスについて書きたいと思います。 私たちのチームでは、自分とFollowingユーザとの共通の趣味を見つけるサービスを開発しました。 ここでは、私が担当した"Twitterから興味・関心を分析する"部分の話を書きたいと思います。 アルゴリズム つぶやきを収集する つぶやきからキーワードを抽出する キーワードを分類してカテゴリごとに関心の強さを計る ユーザごとに興味・関心の類似度を求める つぶやきを収集する つぶやきの収集には、Twitter REST APIを使います。 REST APIについてはREST API v1.1 Resources | T

    Twitterから興味・関心を分析する(その1) - moguranosenshi
  • Elasticsearch 日本語形態素解析のための文字列正規化の重要性

    語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう! この記事は、Elasticsearch Advent Calendar 2014 の18日目のエントリーです。即席で申し訳ないですが、なんとかまとめましたので是非最後までお付き合いください。 今回は、日形態素解析における文字列正規化のお話です。 それでは早速題に。 非正規化された日語の文章を形態素解析を使って、なるべく意図したようにトークナイズするためには、全角英数字を半角英数字に正規化したり、半角カタカナを全角カタカナに正規化したり、不要な文字を除外したり、単語ではなく、文字単位での正規化が重要になってきます。 Japanese (kuromoji) Analysis Plugin のページでも紹介されているように、全角英数字や半角カタカナの正規化には、CJK Width F

    Elasticsearch 日本語形態素解析のための文字列正規化の重要性
  • Goで全裸 - すぎゃーんメモ

    Pure Go で辞書同梱な形態素解析器 kagome を公開してみました - Qiita という記事を見て、「Go形態素解析できれば @zenra_bot もGoで作れる!」と思い、とりあえず全裸にするやつ作ってみた。 https://github.com/sugyan/go-zenra やってることは 全裸で形態素解析をするスクリプト - すぎゃーんメモ と同じで。 Kagome が MeCab と同様に形態素解析してくれる(同じ辞書を使っているらしい)ので、基的にはそれを使って動詞の前に「全裸で」を挟み込むだけ。 $ go get github.com/sugyan/go-zenra/cmd/zenrize $ echo 'Goを書いてます' | zenrize Goを全裸で書いてます $ cat input.txt そうだ!嬉しいんだ生きる喜び たとえ胸の傷が痛んでも 何の為に

    Goで全裸 - すぎゃーんメモ
  • 忍殺語形態素解析辞書「チャドー」がリリース|Colorless Green Ideas

    「ドーモ。自然言語処理屋=サン。形態素解析辞書チャドーです」オジギ終了後0.7秒後。ネオサイタマのドロップボックスにアップロードされた辞書のURLが示された。 「アイエエエエ! ケイタイソカイセキ!? ケイタイソカイセキナンデ!?」 小説『ニンジャスレイヤー』の日語訳 [1] では独特の言葉遣いが使われており、俗に「忍殺語」 [2] と呼ばれている。この忍殺語の形態素解析を行うための辞書「チャドー」のバージョン1.0.0が2014年5月10日公開された。今のところ、Dropboxを通じて配付されている。 かつてニンジャが横行していた時代、日の人々は文字を連ねるのみで、それを分かつことを知らなかった。古事記にもそう書いている。しかし、言葉の切れ目が分からないと実際不便である。このような状況に対して、平安時代の哲学剣士ミヤモト・マサシは、ジュージツの修行中に形態素解析という手法を発見した。

    忍殺語形態素解析辞書「チャドー」がリリース|Colorless Green Ideas
  • 1