fubar_fooのブックマーク - はてなブックマーク

Thriftインストールメモ - nokunoの日記

かな漢字変換エンジンのような複雑なソフトウェアの開発には、シンプルなLAMPのアプローチだけでは限界があると最近は感じています。以前SWIGを使ってAnthyのライブラリをPHPから使えるようにしたのですが、SWIGのような拡張モジュールによる連携ではスクリプトが呼ばれるたびに初期化が必要となる、という問題点がありました。というわけで多言語RPCフレームワークであるところのThriftを使ってみることにしました。まずは以下のページから本体をダウンロードします。Apache Thrift次に公式Wikiを参考に、本体と利用言語ごとのインストールを行います。FrontPage - Thrift Wiki以下のページのサンプルを実行してみます。Ubuntu 8.04 で Thrift を試してみた - なんとなく日記やり方はURLの通りですが、PHPの場合が紹介されていなかったので、thrif

fubar_foo 2012/04/15

avro|thrift

リンク

ルールベースから機械学習へ移行すべきタイミング - nokunoの日記

自然言語処理において機械学習が用いられるのは，ルールベースでやっていた処理の管理が難しくなってきたときだと言われています．それでは，具体的にルールベースから機械学習へ移行すべきタイミングはいつなのか，という問題について考えました．ルールの数が数十〜数百個を超えたときルールに優先順位があって管理が難しくなったときルール同士が矛盾していて曖昧性が発生しているときルールの組合せを考慮したいときルールにパラメータがあって調整するのが難しいときこんなところでしょうか．ツイートする

fubar_foo 2011/10/23

nlp

リンク

本当に必要なN-gramは2割しかない - nokunoの日記

Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い

fubar_foo 2011/09/23

nlp

リンク

自然言語処理における「全部入り」パッケージ - nokunoの日記

以下のエントリの翻訳です．End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか？ここでいう全部入りとはつまり，生のテキストから始めて，構文解析や意味的構造を出力するもののことを指す．多くのNLP研究は一度に1つのタスクしか取り扱わず，そのタスク専用のソフトウェアが開発されている．しかし多くのアプリケーションでは，あなたが与えたテキストがなんであれ動いてくれるような，最初から最後まで面倒を見てくれるものが望ましい．あなたがこれを価値あるゴールだと思うなら（注意点は下にある），そのようなシステムはあまり多くないが，ここに当てはまると思われるものがいくつかある．もし誤りや不明

fubar_foo 2011/09/23

nlp

リンク

大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

fubar_foo 2011/06/17

dataset

リンク

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201

fubar_foo 2011/02/21

nlp

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

fubar_foo 2010/11/25

nlp
mecab

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (7)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス