タグ

ブックマーク / d.hatena.ne.jp/nokuno (7)

  • Thriftインストールメモ - nokunoの日記

    かな漢字変換エンジンのような複雑なソフトウェアの開発には、シンプルなLAMPのアプローチだけでは限界があると最近は感じています。以前SWIGを使ってAnthyのライブラリをPHPから使えるようにしたのですが、SWIGのような拡張モジュールによる連携ではスクリプトが呼ばれるたびに初期化が必要となる、という問題点がありました。 というわけで多言語RPCフレームワークであるところのThriftを使ってみることにしました。まずは以下のページから体をダウンロードします。Apache Thrift次に公式Wikiを参考に、体と利用言語ごとのインストールを行います。FrontPage - Thrift Wiki以下のページのサンプルを実行してみます。Ubuntu 8.04 で Thrift を試してみた - なんとなく日記やり方はURLの通りですが、PHPの場合が紹介されていなかったので、thrif

  • ルールベースから機械学習へ移行すべきタイミング - nokunoの日記

    自然言語処理において機械学習が用いられるのは,ルールベースでやっていた処理の管理が難しくなってきたときだと言われています.それでは,具体的にルールベースから機械学習へ移行すべきタイミングはいつなのか,という問題について考えました. ルールの数が数十〜数百個を超えたとき ルールに優先順位があって管理が難しくなったとき ルール同士が矛盾していて曖昧性が発生しているとき ルールの組合せを考慮したいとき ルールにパラメータがあって調整するのが難しいとき こんなところでしょうか.ツイートする

  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

  • 自然言語処理における「全部入り」パッケージ - nokunoの日記

    以下のエントリの翻訳です.End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか? ここでいう全部入りとはつまり,生のテキストから始めて,構文解析や意味的構造を出力するもののことを指す.多くのNLP研究は一度に1つのタスクしか取り扱わず,そのタスク専用のソフトウェアが開発されている.しかし多くのアプリケーションでは,あなたが与えたテキストがなんであれ動いてくれるような,最初から最後まで面倒を見てくれるものが望ましい. あなたがこれを価値あるゴールだと思うなら(注意点は下にある),そのようなシステムはあまり多くないが,ここに当てはまると思われるものがいくつかある.もし誤りや不明

  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • 1