yuisekiのブックマーク - はてなブックマーク

統計的機械翻訳ツールキットcicada - 自然言語処理 on Mac

機械的にことばの意味を汲み取って別の言語で表現する機械翻訳は、人工知能や自然言語処理が目指す究極の目標の一つとされて、古くから研究されてきました。近年では、大量の対訳データに基づいて統計的な言語モデルや機械学習アルゴリズムを利用する統計的機械翻訳が主流です。単語や句の単位で二カ国語を対応させる比較的表層的で頑健な方法から、文の構文的な関係が表現された構文解析木や、複数の構文解析木をコンパクトに表現した構文解析森の状態から変換規則を求めるような、文法を利用した高度な方法まで様々提案されています。統計的機械翻訳の手法は、たとえ同じ言語であっても、たとえば話し言葉から書き言葉に変換するといった言い換えの用途にも利用できます。統計的機械翻訳システムのオープンソースとしてはMosesが有名ですが、cicadaは最新の研究成果が様々盛り込まれていながら、とてもまとまりがあって使い勝手の良い実装です。

yuiseki 2013/11/04

tech

リンク

高速実装CRFSuiteとベンチマーク - 自然言語処理 on Mac

テキストから人名や地名など内容を特定するような箇所を取り出す固有表現抽出や、名詞句や動詞句などのようにかたまった単語の列を求めるチャンキング、単語の品詞を特定する形態素解析など、自然言語処理の様々なタスクでCRF(Conditional Random Fields)の機械学習アルゴリズムが利用されています。 CRFSuiteはCRFの学習とテスト実行を高速に行うオープンソースの実装で、CRF++と並んで広く利用されています。メモリ使用量を抑えるよりも処理を高速に行う実装を目指していて、効率的なオンライン学習のアルゴリズムであるAveraged PerceptronやPassive Aggressive、AROW (Adaptive Regularization Of Weight Vector)なども利用することができます。他のオープンソースと比較したベンチマークテストの結果を見ると、訓練

yuiseki 2013/10/30

tech

リンク

驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac

日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです：ソフトウェアの更新も一人旅になってきた - ny23の日記このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります：

yuiseki 2012/09/22

リンク

多目的かつ高速軽量な自然言語処理ツールSENNA - 自然言語処理 on Mac

昨年米国で開催されたTAC 2011 RTE-7では、NECのシステムが第一位を獲得したそうです： NECのテキスト含意認識技術がNIST主催の評価タスクで第一位を獲得(2012年4月13日): プレスリリース | NEC IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features このシステムのテキスト解析にはSENNA (Semantic/syntactic Extraction using a Neural Network Architecture) というツールが利用されています。SENNAは、多層ニューラルネットに基づいて、品詞タグ付け、チャンキング、固有名抽出、意味役割ラベリング、構文解析といった様々

yuiseki 2012/06/19

リンク

自然言語処理向けの非常に効率的なオンライン学習器opal - 自然言語処理 on Mac

opalは、自然言語処理に適したオンライン学習器で、二値の素性に特化して大規模な学習を非常に効率的に行います。線形または多項式カーネルが利用できて、ホームページに性能比較表が載っていますが、どちらの方式でも驚くほど高速かつ省メモリで学習とテストができます。線形学習器といえば、LIBLINEARが高速なことで有名ですが、これをも遥かに凌駕する性能です。 opal - C++ header library of online learning with kernel slicing#Performance comparison このopalをMacPortsに登録しました。ただし、OPALという物理演算エンジンのパッケージがすでに登録されていたため、MacPorts上ではopal-ml (Machine Learning) という名前になっています。最新バージョンのopalは、コンパイル時にオ

yuiseki 2012/01/29

リンク

日本語の単語分割 - 自然言語処理 on Mac

日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an old morphological analyzer http://mecab.sourceforge.net/ これらのツールは主に新聞記事のような一般的なテキストが対象です。単語辞書に登録されていない語は未知語として処理されますが、特定分野のテキストを対象として解析精度を保つためには、専門用語や新語などを適宜登録する必要があります。他方、文字間に単語境界があるかどうかを機械学習の2値分類問題として解く手法があり、ツールも公開されています。 KyTea (京都テキスト解析ツールキット) 次

yuiseki 2012/01/29

リンク

PFI+NTTの大規模データリアルタイム分析基盤JubatusをMacで動かす - 自然言語処理 on Mac

NTTとPFIから、大規模データ分析基盤のJubatusがオープンソースとして公開されました。 http://preferred.jp/2011/10/jubatus.html ホームページのチュートリアルには、動作環境としてLinux2.6以降とありますが、Macでも動きましたので、MacPortsとしてまとめてみました。ただし、まだ動作検証をあまりしていないので、おかしなところがあるかもしれません。なお、Debian Linuxでのインストール手順の記事も参考になりました。 Jubatusのインストールと若干の動作確認 - kuenishi's blog インストールにあたって必要なソフトがいくつもありますが、そのうちの pkgconfig, py-msgpack, msgpack, libzookeeper, ux-trie, mecab-utf8のportはすでにあり、今回新たに

yuiseki 2011/11/08

リンク

MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac

HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su

yuiseki 2011/06/07

リンク

自然言語処理・機械学習ツールのMacPortsを登録 - 自然言語処理 on Mac

自分用にと思って作っていた自然言語処理・機械学習用のMacPortsですが、せっかくなので本家に登録してみました。 TinySVM: Support Vector Machines YamCha: Yet Another Multipurpose CHunk Annotator Google Code Archive - Long-term storage for Google Code Project Hosting. BACT: a Boosting Algorithm for Tree Classification http://crfpp.sourceforge.net/ pecco - C++ library for efficient classification with conjunctive features Palmkit - a statistical languag

yuiseki 2011/05/14

リンク

はてなブックマーク

タグ

ブックマーク / hjym-u.hatenadiary.org (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第3週）

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス