NLPに関するhirokikyのブックマーク (5)

  • 形態素解析器ベンチマーク (Python で人工無能) - 傀儡師の館.Python:楽天ブログ

    2003.03.04 形態素解析器ベンチマーク (Python で人工無能) カテゴリ:ことばの処理 久々に自分で肉を焼いてべた。なんて生活だ(笑)。このところのお気に入りは、ノルウェー産の子持ちシシャモ。安くてうまいのでいい。体にもいいしね。で、たまには自分で肉を焼いてべようと豚肉を買ってきた。やっぱりコンビニの弁当についている肉より自分で焼いた肉の方がうまい。鉄のフライパンにしっかり油をひいて焼いてう。テフロン加工のフライパンは焦げ付かなくていいのだけど、やっぱり鉄のフライパンで焼いた方が肉はうまい。 ○ 形態素解析器ベンチマーク (Python で人工無能) しばらく前に形態素解析器のベンチマークをしようと思っていてすっかり忘れていた。ということで、簡単なベンチマークをやってみた。この機械翻訳用の試験文から日語だけを切り出して5回繰り返すテキストファイルを作っやってみた。それ

    形態素解析器ベンチマーク (Python で人工無能) - 傀儡師の館.Python:楽天ブログ
    hirokiky
    hirokiky 2011/10/07
    面白い。NTTcomの機械翻訳用の試験文とやらが気になる
  • 形態素解析 エンジン 一覧

    ChaSen 日形態素解析システム CaboCha Support Vector Machines に基づく日語係り受け解析器 JSplitter 日語の単語抽出ツール MeCab ChaSenを基に開発された高速な形態素解析器 Sen Java 形態素解析エンジン すもも NTT 物性科学基礎研究所で開発された日形態素解析システム 大量の日語データを高速に形態素解析することを目的 JUMAN 日語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール Breakfast 富士通研究所が開発した日形態素解析システム KNP 日語文の構文解析を行なうシステム SUFARY suffix arrayというデータ構造を用いて高速な文字列検索を行なう MACD Java RM用いた形態素解析システム Rosette GoogleAmazon、Lycos 等名だたるサ

    hirokiky
    hirokiky 2011/10/07
    卒業研究に使える、素ばらすぃ
  • KyTeaのモデル

    人名・地名モデル v. 1.3: 能動学習を行い、単語分割精度を上げました(97.33%→97.82%)(3月20日、21:00):KyTeaの人名・地名モデル v. 1.3 v. 1.2: さらに、東北地方の地名や独特な名前の扱いを改善し、「人名・性→人名・姓」と誤植を直しました(3月14日、17:30):KyTeaの人名・地名モデル v. 1.2 v. 1.1: 地名の対応を改善させて、単語分割を少しロバストにしました(3月14日、15:00):KyTeaの人名・地名モデル v. 1.1 v. 1.0: 東北大地震を受けて、人名・地名モデルを作りました。今は人名にある程度強いですが、地名はまだあまり出来ていません。続けて作業します(3月14日、14:00):KyTeaの人名・地名モデル v. 1.0 解析結果 モデルを使って固有表現っぽいものを抽出してみました:結果 (3月16日 09

    hirokiky
    hirokiky 2011/10/07
    ひらがなモデル面白い、ひらがなの文字を解析できる。
  • 教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記

    ふと思いだして,グラムさんの教師なし形態素解析(単語分割)ツールであるlatticelmを試してみた.音声認識結果のラティスを入力できることが特徴のひとつですが,テキストを入力とする場合はほぼ持橋さんの教師なし形態素解析論文と同等のことを行います.latticelm version 0.2インストールにはOpenFSTが必要です. WebHome Wikipedia文データから10,000行を取り出して適用してみました.$ time ./latticelm -prefix out/ input.txtLoaded 3307 symbolsRunning on 10000 sequences手元のMBAではかなり時間がかかる(1イテレーションに20分近く)ので,途中経過を載せておく.head samp.22 ア ンパ サンド ] ]ア ンパ サンド ( a m p er s a n d

    hirokiky
    hirokiky 2011/10/07
  • ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool) - 木曜不足

    EMNLP 2011 でひときわ目を引くタイトル "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。 Cooooooooooooooollllllllllllll のような文字を必要以上に繰り返す twitter でよくみる表現に注目して、このような表現が意見や評価を述べるときによく使われるという点を主張しているのがポイント。 まあ直感的にもうなずける分析だと思う。 論文の中では、そのためにまず Cooooooooooooooollllllllllllll -> cool のように正規化を行っている。 提案されている手法がとてもシンプルでおも

    ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool) - 木曜不足
    hirokiky
    hirokiky 2011/09/26
    niiiiiiiiiice!!!!
  • 1