発表してきました。第4回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) ?WEB祭り? : ATNDDatamining04 textminingView more presentations from nokuno.処理に使ったコードはこちらにあります。 nokuno - Project Hosting on Google Code
表題の通り,米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです.Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は,この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者でもあります.これは必見ですね. なお,以前から公開されていて既に講義や課題が始まっている機械学習と人工知能の講義はこちら.Machine LearningIntro to AI - Introduction to Artificial Intelligence - Oct-Dec 2011 スタンフォード大学のオンライン講義 - nokunoの日記ツイートする
id:takeda25 さんが開発したN-gramかな漢字変換の精度が気になったため,Mozcの辞書を利用して変換を行なう拙作のstakkと精度を比較してみた.コーパスにはMS IME Corpusに含まれるnews1を用いた.Unicode文字列はNFKCで正規化してある.N-gram 漢字-かな変換 - アスペ日記nokuno/stakk - GitHub Microsoft Research IME Corpus - Microsoft Research Precision, Recall, F-measureはLCS(least common subsequence)による評価で,CERは編集距離に基づく文字エラー率である.手法 Precision Recall F-measure CER Mozc 0.929 0.932 0.930 0.0794 N-gram 0.947 0.9
Mozcの辞書圧縮の論文を読みました.IMEはクライアントPCで動くし常駐するので消費メモリを小さくしようという話です.Efficient dictionary and language model compression for input method editors内容的にはNLP2011で聞いた話+接続コストのキャッシュの実験を追加したものになっています.最終的なサイズと内訳は以下のようになっていることがわかります. 辞書:13.3MB Token: 7.9 Reading: 2.4 Word: 3.0 接続コスト:2.9MBTokenも圧縮されているので一概には言えませんが,典型的には品詞が左右合わせて32ビット,コストが16ビット,表記IDが32ビットで合計80ビット(10バイト)を使っています.品詞の情報は意外とメモリを食っているなあという印象を受けました.ツイートする
makeよりマシなビルドシステムでいいのがないか調べてみました. ビルド自体を行なうタイプ GNU Make- GNU Project - Free Software FoundationSCons: A software construction toolBoost.Build V2 ビルドファイルを自動生成するタイプ Autotools - WikipediaAutotools Introduction - automakeAutomake - GNU Project - Free Software Foundation (FSF) waf - The meta build system - Google Project Hosting CMake - Cross Platform Make gyp - Generate Your Projects - Google Project H
最近の自分のMacbook Airの環境を晒しておきます. アプリケーション iTerm 2 標準のTerminalよりフォントが綺麗な気がするので使っています. Evernote ブログの下書きやアイデアのメモに使っています. Dropbox ファイルの同期とバックアップに活用しています. Chrome ブラウザはChromeです.最近は拡張も増えてきました. AutoPagerize Google Calendar Checker (by Google) Google Dictionary (by Google) Google Mail Checker Google Reader Notifier (by Google) Google Tasks (by Google) Hatena Bookmark GoogleChrome extension Language Links for
オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています.Python による日本語自然言語処理というわけで,NLTKで日本語でコーパスを扱う環境を整えました. NLTKのインストール公式サイトを見ながらインストールする.最新版はNLTK2.0で,オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています.Download - Natural Language ToolkitMac OSXの場合はPortでもインストールできるらしいのですが,うまくいかなかったのでパッケージをダウンロードしました. コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします.$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注
サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍についてまとめました.オライリー社から出版されているものが多いですね.日本語だと,以下の本が有名です.Amazon.co.jp: 集合知プログラミング: Toby Segaran, 當山 仁健, 鴨澤 眞夫: 本Amazon.co.jp: 入門 自然言語処理: Steven Bird, Ewan Klein, Edward Loper, 萩原 正人, 中山 敬広, 水野 貴明: 本Amazon.co.jp: ビューティフルデータ: Toby Segaran, Jeff Hammerbacher, 堀内 孝彦, 真鍋 加奈子, 苅谷 潤, 小俣 仁美, 篠崎 誠: 本実は他にもこの手の本は洋書で色々と出版されています.Amazon.co.jp: Mining the Social Web: Matthew A. Rus
Pythonでグラフ構造を扱うには,networkxというライブラリが便利です.Overview — NetworkX v1.5 documentation# 使い方$ sudo easy_install networkx$ python>>> import networkx# ノードとエッジの貼り方>>> graph = networkx.Graph()>>> graph.add_node("youzaka")>>> graph.add_node("seiryo")>>> graph.add_edge("youzaka", "seiryo")>>> print graph.nodes()['youzaka', 'seiryo']>>> print graph.edges()[('youzaka', 'seiryo')]# 隣接ノードへのアクセス>>> print graph.neighb
Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあるから スクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるから また,機械学習のライブラリを言語別にまとめた質問もありました.こちらもJava, Python, Rが多いですね.Which programming language has the best repository of ma
というわけでPFIで開催しました!伝説のレッドブル倉庫はこちら.ICMLは機械学習分野のトップカンファレンスです.今回は,ICML2011の予稿集から1人30分程度で論文の紹介を行いました.ICML 2011, The 28th International Conference on Machine Learning - Bellevue, Washington Sparse Additive Generative Model for Text by @tsubosakaさんIcml2011 reading-sage View more presentations from tsubosaka論文 背景 LDAなどのDirichlet-Multinomialを使った文書生成モデルが流行っている 問題1:Inference Cost 問題2:Over parametrization 問題3:
TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です.例によって順不同です.生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ!射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋本舗unnonounouchiumi logBLOG::broomie.net蝉々亭Overlasting::Lifeやた@はてな日記aito の日記 睡眠不足?!gologo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人
というわけで第5回自然言語処理勉強会での発表資料「スペル訂正についてのサーベイ」を公開します。 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記スペル訂正エンジンについてのサーベイ #TokyoNLP View more presentations from nokuno 紹介した論文A Spelling Correction Program Based on a Noisy Channel ModelAn Improved Error Model for Noisy Channel Spelling CorrectionLearning a Spelling Error Model from Search Query LogsImproving Query Spelling Correction Using Web Search ResultsA Lar
@nobu_k さんのつぶやきでこのエントリを知りました。Changing Bits: Lucene’s FuzzyQuery is 100 times faster in 4.0Luceneで曖昧検索を効率化した話です。 最初の実装では、転置インデックスを全探索して編集距離がN以下の単語を拾っていたレーベンシュタインオートマトンという、編集距離がN以下の単語のみをアクセプトするオートマトンを利用することにした 単語ごとに構築したレーベンシュタインオートマトンをマージするという操作が必要になるが、なかなかうまくいかなかった 難解な論文を見つけたが、実装は難しかった良いライブラリを見つけたので、PythonからJavaに移植した 最後に1つだけ残ったバグは、移植の失敗ではなく元ライブラリのバグだった。報告すると1日で直ってきた。この前のエントリでは、有限状態トランスデューサを使った辞書の圧縮
Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht
地震から1週間と2日間が経ちました。この間はほぼシリコンバレーに行っていたため、ustreamなどで日本の状況を確認しながらも、連日のマスメディアの災害報道にはさらされずにいました。地震の当日は成田空港にいて、サンフランシスコ行きの飛行機に乗って日本を離れる2時間15分前に揺れが来ました。前日まで豊橋の言語処理学会に参加していて、疲労も溜まっていたので運の悪いタイミングでした。 【速報】まだ生きてます!@成田空港 - nokunoの日記震源近くや津波の被害を受けた地域の方はまだまだ大変だと思いますが、個人的な環境は落ち着いてきたのでこの体験について考え直したいと思います。 日本はすごい日本の最近の建物は本当に凄いと思いました。成田空港は特別頑丈にできているのかもしれませんが、建物そのものの損壊などは見当たらず、電気や水道も止まらず通常通りでした。携帯電話と公衆無線LANはややつながりづらか
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く