[B! NLP] hirokikyのブックマーク

形態素解析器ベンチマーク (Python で人工無能) - 傀儡師の館.Python：楽天ブログ

2003.03.04 形態素解析器ベンチマーク (Python で人工無能) カテゴリ：ことばの処理久々に自分で肉を焼いて食べた。なんて生活だ(笑)。このところのお気に入りは、ノルウェー産の子持ちシシャモ。安くてうまいのでいい。体にもいいしね。で、たまには自分で肉を焼いて食べようと豚肉を買ってきた。やっぱりコンビニの弁当についている肉より自分で焼いた肉の方がうまい。鉄のフライパンにしっかり油をひいて焼いて食う。テフロン加工のフライパンは焦げ付かなくていいのだけど、やっぱり鉄のフライパンで焼いた方が肉はうまい。 ○ 形態素解析器ベンチマーク (Python で人工無能) しばらく前に形態素解析器のベンチマークをしようと思っていてすっかり忘れていた。ということで、簡単なベンチマークをやってみた。この機械翻訳用の試験文から日本語だけを切り出して５回繰り返すテキストファイルを作っやってみた。それ

hirokiky 2011/10/07

面白い。NTTcomの機械翻訳用の試験文とやらが気になる

NLP
Python

リンク

形態素解析エンジン一覧

ChaSen 日本語形態素解析システム CaboCha Support Vector Machines に基づく日本語係り受け解析器 JSplitter 日本語の単語抽出ツール MeCab ChaSenを基に開発された高速な形態素解析器 Sen Java 形態素解析エンジンすもも NTT 物性科学基礎研究所で開発された日本語形態素解析システム大量の日本語データを高速に形態素解析することを目的 JUMAN 日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール Breakfast 富士通研究所が開発した日本語形態素解析システム KNP 日本語文の構文解析を行なうシステム SUFARY suffix arrayというデータ構造を用いて高速な文字列検索を行なう MACD Java RM用いた形態素解析システム Rosette Google、Amazon、Lycos 等名だたるサ

hirokiky 2011/10/07

卒業研究に使える、素ばらすぃ

NLP

リンク

KyTeaのモデル

人名・地名モデル v. 1.3: 能動学習を行い、単語分割精度を上げました（97.33%→97.82%）（3月20日、21:00）：KyTeaの人名・地名モデル v. 1.3 v. 1.2: さらに、東北地方の地名や独特な名前の扱いを改善し、「人名・性→人名・姓」と誤植を直しました（3月14日、17:30）：KyTeaの人名・地名モデル v. 1.2 v. 1.1: 地名の対応を改善させて、単語分割を少しロバストにしました（3月14日、15:00）：KyTeaの人名・地名モデル v. 1.1 v. 1.0: 東北大地震を受けて、人名・地名モデルを作りました。今は人名にある程度強いですが、地名はまだあまり出来ていません。続けて作業します（3月14日、14:00）：KyTeaの人名・地名モデル v. 1.0 解析結果モデルを使って固有表現っぽいものを抽出してみました：結果 (3月16日 09

hirokiky 2011/10/07

ひらがなモデル面白い、ひらがなの文字を解析できる。

nlp

リンク

教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記

ふと思いだして，グラムさんの教師なし形態素解析（単語分割）ツールであるlatticelmを試してみた．音声認識結果のラティスを入力できることが特徴のひとつですが，テキストを入力とする場合はほぼ持橋さんの教師なし形態素解析論文と同等のことを行います．latticelm version 0.2インストールにはOpenFSTが必要です． WebHome Wikipediaの本文データから10,000行を取り出して適用してみました．$ time ./latticelm -prefix out/ input.txtLoaded 3307 symbolsRunning on 10000 sequences手元のMBAではかなり時間がかかる（1イテレーションに20分近く）ので，途中経過を載せておく．head samp.22 アンパサンド ] ]アンパサンド ( a m p er s a n d

hirokiky 2011/10/07

NLP

リンク

ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool) - 木曜不足

EM NLP 2011 でひときわ目を引くタイトル "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。 Cooooooooooooooollllllllllllll のような文字を必要以上に繰り返す twitter でよくみる表現に注目して、このような表現が意見や評価を述べるときによく使われるという点を主張しているのがポイント。まあ直感的にもうなずける分析だと思う。論文の中では、そのためにまず Cooooooooooooooollllllllllllll -> cool のように正規化を行っている。提案されている手法がとてもシンプルでおも

hirokiky 2011/09/26

niiiiiiiiiice!!!!

NLP

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

NLPに関するhirokikyのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (2)

NLPに関するhirokikyのブックマーク (5)

形態素解析器ベンチマーク (Python で人工無能) - 傀儡師の館.Python：楽天ブログ

形態素解析 エンジン 一覧

KyTeaのモデル

教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記

ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool) - 木曜不足

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

形態素解析エンジン一覧