nfunatoのブックマーク - はてなブックマーク

Wikipediaによるテキストマイニング入門 - nokunoの日記

発表してきました。第４回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#4) ?WEB祭り? : ATNDDatamining04 textminingView more presentations from nokuno.処理に使ったコードはこちらにあります。 nokuno - Project Hosting on Google Code

nfunato 2013/03/16

nlp

リンク

2011-12-16 - nokunoの日記

nfunato 2011/12/17

リンク

米スタンフォード大が機械学習と人工知能に続き，自然言語処理と確率モデルの講義を一般公開 - nokunoの日記

表題の通り，米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです．Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は，この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者でもあります．これは必見ですね．なお，以前から公開されていて既に講義や課題が始まっている機械学習と人工知能の講義はこちら．Machine LearningIntro to AI - Introduction to Artificial Intelligence - Oct-Dec 2011 スタンフォード大学のオンライン講義 - nokunoの日記ツイートする

nfunato 2011/11/18

リンク

Ngramかな漢字変換とMozc辞書の比較 - nokunoの日記

id:takeda25 さんが開発したN-gramかな漢字変換の精度が気になったため，Mozcの辞書を利用して変換を行なう拙作のstakkと精度を比較してみた．コーパスにはMS IME Corpusに含まれるnews1を用いた．Unicode文字列はNFKCで正規化してある．N-gram 漢字-かな変換 - アスペ日記nokuno/stakk - GitHub Microsoft Research IME Corpus - Microsoft Research Precision, Recall, F-measureはLCS(least common subsequence)による評価で，CERは編集距離に基づく文字エラー率である．手法 Precision Recall F-measure CER Mozc 0.929 0.932 0.930 0.0794 N-gram 0.947 0.9

nfunato 2011/11/03

nlp

リンク

Mozcの辞書圧縮の論文を読んだ - nokunoの日記

Mozcの辞書圧縮の論文を読みました．IMEはクライアントPCで動くし常駐するので消費メモリを小さくしようという話です．Efﬁcient dictionary and language model compression for input method editors内容的にはNLP2011で聞いた話＋接続コストのキャッシュの実験を追加したものになっています．最終的なサイズと内訳は以下のようになっていることがわかります．辞書：13.3MB Token: 7.9 Reading: 2.4 Word: 3.0 接続コスト：2.9MBTokenも圧縮されているので一概には言えませんが，典型的には品詞が左右合わせて32ビット，コストが16ビット，表記IDが32ビットで合計80ビット（10バイト）を使っています．品詞の情報は意外とメモリを食っているなあという印象を受けました．ツイートする

nfunato 2011/11/03

nlp

リンク

C++のビルドシステムまとめ - nokunoの日記

makeよりマシなビルドシステムでいいのがないか調べてみました．ビルド自体を行なうタイプ GNU Make- GNU Project - Free Software FoundationSCons: A software construction toolBoost.Build V2 ビルドファイルを自動生成するタイプ Autotools - WikipediaAutotools Introduction - automakeAutomake - GNU Project - Free Software Foundation (FSF) waf - The meta build system - Google Project Hosting CMake - Cross Platform Make gyp - Generate Your Projects - Google Project H

nfunato 2011/10/16

dev

リンク

Macbook Airにおける最近の開発環境 - nokunoの日記

最近の自分のMacbook Airの環境を晒しておきます．アプリケーション iTerm 2 標準のTerminalよりフォントが綺麗な気がするので使っています． Evernote ブログの下書きやアイデアのメモに使っています． Dropbox ファイルの同期とバックアップに活用しています． Chrome ブラウザはChromeです．最近は拡張も増えてきました． AutoPagerize Google Calendar Checker (by Google) Google Dictionary (by Google) Google Mail Checker Google Reader Notifier (by Google) Google Tasks (by Google) Hatena Bookmark Google Chrome extension Language Links for

nfunato 2011/08/24

mac

リンク

NLTKで日本語コーパスを扱う方法 - nokunoの日記

オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています．Python による日本語自然言語処理というわけで，NLTKで日本語でコーパスを扱う環境を整えました． NLTKのインストール公式サイトを見ながらインストールする．最新版はNLTK2.0で，オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています．Download - Natural Language Toolkit Mac OSXの場合はPortでもインストールできるらしいのですが，うまくいかなかったのでパッケージをダウンロードしました．コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします．$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注

nfunato 2011/08/23

nlp
python

リンク

サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍 - nokunoの日記

サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍についてまとめました．オライリー社から出版されているものが多いですね．日本語だと，以下の本が有名です．Amazon.co.jp：集合知プログラミング: Toby Segaran, 當山仁健, 鴨澤眞夫: 本 Amazon.co.jp：入門自然言語処理: Steven Bird, Ewan Klein, Edward Loper, 萩原正人, 中山敬広, 水野貴明: 本 Amazon.co.jp：ビューティフルデータ: Toby Segaran, Jeff Hammerbacher, 堀内孝彦, 真鍋加奈子, 苅谷潤, 小俣仁美, 篠崎誠: 本実は他にもこの手の本は洋書で色々と出版されています．Amazon.co.jp： Mining the Social Web: Matthew A. Rus

nfunato 2011/08/23

リンク

Pythonでグラフ構造を扱うには - nokunoの日記

Pythonでグラフ構造を扱うには，networkxというライブラリが便利です．Overview — NetworkX v1.5 documentation# 使い方$ sudo easy_install networkx$ python>>> import networkx# ノードとエッジの貼り方>>> graph = networkx.Graph()>>> graph.add_node("youzaka")>>> graph.add_node("seiryo")>>> graph.add_edge("youzaka", "seiryo")>>> print graph.nodes()['youzaka', 'seiryo']>>> print graph.edges()[('youzaka', 'seiryo')]# 隣接ノードへのアクセス>>> print graph.neighb

nfunato 2011/08/23

python

リンク

自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

Quoraで「自然言語処理に適したプログラミング言語はどれか？」という質問をしたところ，やっぱりPythonが一番人気のようです．What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ（re）が強力だからnumpyとscipyがあるからスクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるからまた，機械学習のライブラリを言語別にまとめた質問もありました．こちらもJava, Python, Rが多いですね．Which programming language has the best repository of ma

nfunato 2011/08/21

python
nlp

リンク

ICML2011読み会を開催しました #icmlreading - nokunoの日記

というわけでPFIで開催しました!伝説のレッドブル倉庫はこちら．ICMLは機械学習分野のトップカンファレンスです．今回は，ICML2011の予稿集から1人30分程度で論文の紹介を行いました．ICML 2011, The 28th International Conference on Machine Learning - Bellevue, Washington Sparse Additive Generative Model for Text by @tsubosakaさんIcml2011 reading-sage View more presentations from tsubosaka論文背景 LDAなどのDirichlet-Multinomialを使った文書生成モデルが流行っている問題1：Inference Cost 問題2：Over parametrization 問題3：

nfunato 2011/07/18

machinelearning

リンク

NLPに関する良質なブログリスト - nokunoの日記

TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です．例によって順不同です．生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ！射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋本舗unnonounouchiumi log BLOG::broomie.net蝉々亭Overlasting::Lifeやた＠はてな日記aito の日記睡眠不足？！go logo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人

nfunato 2011/07/12

nlp

リンク

スペル訂正エンジンについてのサーベイ #TokyoNLP - nokunoの日記

というわけで第5回自然言語処理勉強会での発表資料「スペル訂正についてのサーベイ」を公開します。第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記スペル訂正エンジンについてのサーベイ #TokyoNLP View more presentations from nokuno 紹介した論文A Spelling Correction Program Based on a Noisy Channel ModelAn Improved Error Model for Noisy Channel Spelling CorrectionLearning a Spelling Error Model from Search Query Log sImproving Query Spelling Correction Using Web Search ResultsA Lar

nfunato 2011/04/24

リンク

Luceneの曖昧検索を100倍高速化したアルゴリズム - nokunoの日記

@nobu_k さんのつぶやきでこのエントリを知りました。Changing Bits: Lucene’s FuzzyQuery is 100 times faster in 4.0Luceneで曖昧検索を効率化した話です。最初の実装では、転置インデックスを全探索して編集距離がN以下の単語を拾っていたレーベンシュタインオートマトンという、編集距離がN以下の単語のみをアクセプトするオートマトンを利用することにした単語ごとに構築したレーベンシュタインオートマトンをマージするという操作が必要になるが、なかなかうまくいかなかった難解な論文を見つけたが、実装は難しかった良いライブラリを見つけたので、PythonからJavaに移植した最後に1つだけ残ったバグは、移植の失敗ではなく元ライブラリのバグだった。報告すると1日で直ってきた。この前のエントリでは、有限状態トランスデューサを使った辞書の圧縮

nfunato 2011/03/29

リンク

Facebookの新しいリアルタイム解析システムとは？ - nokunoの日記

Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

nfunato 2011/03/27

リンク

成田空港で一晩を明かした私が地震について思うこと - nokunoの日記

地震から1週間と2日間が経ちました。この間はほぼシリコンバレーに行っていたため、ustreamなどで日本の状況を確認しながらも、連日のマスメディアの災害報道にはさらされずにいました。地震の当日は成田空港にいて、サンフランシスコ行きの飛行機に乗って日本を離れる2時間15分前に揺れが来ました。前日まで豊橋の言語処理学会に参加していて、疲労も溜まっていたので運の悪いタイミングでした。【速報】まだ生きてます！＠成田空港 - nokunoの日記震源近くや津波の被害を受けた地域の方はまだまだ大変だと思いますが、個人的な環境は落ち着いてきたのでこの体験について考え直したいと思います。日本はすごい日本の最近の建物は本当に凄いと思いました。成田空港は特別頑丈にできているのかもしれませんが、建物そのものの損壊などは見当たらず、電気や水道も止まらず通常通りでした。携帯電話と公衆無線LANはややつながりづらか

nfunato 2011/03/20

unclassified

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス