Ce site n'existe plus. Vérifiez que l'URL commance par https ? Vous pouvez essayer de remplacer limsi.fr par lisn.upsaclay.fr dans l'URL ©LISN 2024
以前、「簡潔データ構造 LOUDS の解説」というシリーズの記事を書いたことがあります。 LOUDS というのは木構造やtrieを簡潔に表すことができるデータ構造なのですが、この中で「簡潔ビットベクトル」というものについてはブラックボックスとして扱っていました。 また、中学生にもわかるウェーブレット行列を書いたときも、その中で出てきた「完備辞書」の実装には触れませんでした。 この「簡潔ビットベクトル」「完備辞書」は、同じものを指しています*1。 今回は、このデータ構造*2について書いてみます。 完備辞書でできること ビット列に対する定数時間の rank と selectです*3。 rank()は、「ビット列の先頭から位置 k までに、1 のビットがいくつあるか」*4。 select()は、「ビット列の先頭から見て、n 個目の 1 のビットの次の位置はどこか」*5。 それぞれ例を挙げます。
あけましておめでとうございます.もう1月も終わりですが,ようやく年を越してしまった課題を終わらせつつあります. 昨年の9月,11月にそれぞれ情報処理学会第213回自然言語処理研究会と人工知能学会第91回人工知能基本問題研究会にて機会をいただき,自動要約に関する最近の研究動向についてお話してきました.ありがたいことに,資料を公開して欲しい,との声をいくつか頂戴しましたので,内容を整理してここに掲載しておきたいと思います. Automatic summarization from Hitoshi NISHIKAWA 今年の言語処理学会第20回年次大会では,東京工業大学の高村先生が自動要約に関するチュートリアルをしてくださいます.言語処理学会第20回年次大会は絶賛事前参加受付中です.
先日, @overlast さんから,DSIRNLP(データ構造と情報検索と言語処理勉強会 )という会にお誘いを頂きまして,以前から考えていたことをちょこっとお話してきました.当日の様子は, @mamoruk さんが togetter にまとめてくださっていますので,そちらもご覧ください. 第5回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - Togetterまとめ 私の発表スライドは slideshare に置いておきました.いくつか直したいところがあるので,そのうち差し替えるかも. いまさら聞けない “モデル” の話 @DSIRNLP#5 from Koji Matsuda 他の方々がものっそい最先端な話ばかりのなか,私一人だけがひどくぼんやりとした内容でたいへん恐縮でしたが,問題意識を共有するきっかけを頂けたことに感謝しています. そもそもこの話をしようと思ったきっかけ
この記事は、zariganitoshさんの記事を基に、実際に私が試した内容をまとめただけのものです。 MeCabとは オープンソースの日本語の形態素解析エンジンです。 日本語の文章を分析して、名詞を取り出してくれたりするすごいやつです。 MeCabとsaykanaを組み合わせて使えば、漢字混じりの日本語を喋らせる事が出来るようになります。 さらに、Node.jsでTwitterライムラインを監視し、更新された内容をMeCabで解析→sayknaで出力させて、日本語のツイートを喋らせる事もできます。 前提条件 Mac : 10.8.2 MeCab : 0.996 mecab-0.996.tar.gz IPA 辞書 : 2.7.0 mecab-ipadic-2.7.0-20070801.tar.gz ダウンロード MeCabとIPA辞書を上のリンクからダウンロードして、適当なディレクトリにおき
自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました. 自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています. きっかけは,勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで, 株式会社Gunosyの勉強会の場で,発表の機会を頂きました. それが,9/11で,その後9/26に研究室内で同じ内容で発表しました. どちらも思った以上に好評を頂け,公開してはと進めて頂いたので,公開することにしました. もちろん間違いが含まれている可能性も多分にあるので.気づいた方はご指摘頂けると幸いです. 内容ざっくり 前半は,ニューラルネットワークを図を使
先日,身内の勉強会(&ラボの勉強会)で,Deep Learningについてお話してきました.これまで興味がなさそうだったのに何故急に?というのはおいておいて. 紹介したのは,Deep Learningの第一人者のひとり, Yoshua Bengio先生自身が執筆された,以下の論文. Yoshua Bengio, Practical recommendations for gradient-based training of deep architectures, arXiv:1206.5533v2, 2012 どうやら書籍の草稿のようで,Bengio先生の長年の研究で得られたさまざまなノウハウ(最近の手法まで)がぎっしり詰め込まれています.すごい. 以前から気にはなりつつも,ちょっと分量が多い(30ページくらいある)ので,なかなか手を出すことができなかったのですが,ようやくヤル気が出てきた
The summer is over, and it's time to go back to school and continue our exploration of the NLTK book. We're finally getting at the last part of the second chapter - conditional frequency distributions. What is a conditional frequency distribution? From a statistical point of view, it is a function of 2 arguments - a condition and a concrete outcome - producing an integer result that is a frequency
もう一週間ほど前になってしまうのですが,最先端NLP勉強会 という会に参加させていただきました. じつは昨年も参加するべく申し込みまでは行ったものの,事情があって参加できず.今年はなんとかリベンジを果たせました. 二日間で30本もの論文を読むこの勉強会,読む論文の選出プロセスにも工夫が凝らされています. 参加者全員が,対象となる会議の予稿集に目を通し,面白そうだと思った論文数本(今年は12本)に対して投票を行う. 多くの票を集めた論文,上位30本ほどを候補とし,参加者はその中から自分が紹介する論文を選ぶ. という二段階をとっているので,いわゆる「ハズレ」な論文が少なくなっており,どの発表もたいへん勉強になりました. 私が紹介したのは以下の論文, Mohammad Taher Pilehvar, David Jurgens and Roberto Navigli, Align, Disamb
ラテン語ネタが続きますが 工藤さんがぐぐたすで紹介してた word2vec が面白そうだったので。 https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep learning で 単語のベクトル表現を学習してくれる。 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。 It was recently shown that the word vectors capture many linguistic regularities, for example vector operations vector('Paris') - vector('France') + vector('Italy') results in a vector that is very close to vector('Rome'), and
Some weeks ago, Microsoft Research announced NLP toolkit called MSR SPLAT. It is time to play with it and take a look what it can do. Statistical Parsing and Linguistic Analysis Toolkit is a linguistic analysis toolkit. Its main goal is to allow easy access to the linguistic analysis tools produced by the Natural Language Processing group at Microsoft Research. The tools include both traditional l
折角DSIRNLPに来たので、NLPっぽいことをして遊んでみた話。ネタです。 コードは https://github.com/naoyat/latin にあります。lda_demo.py というやつです。 gensim便利です。PythonからLDAとかLSIとか割と高速にやってくれるトピックモデリングライブラリです。 http://radimrehurek.com/gensim/ ↑チュートリアルが分かりやすくてためになるのでぜひご一読を! from gensim import corpora, models, similarities 元テキスト 初級ラテン語リーディングで読んだラテン語テキストをコーパスにしましょう text = latin.textutil.load_text_from_file('latin.txt') print text Thēseus et Ariadnē.
(23:57) また遅くなった。 いったんプレースホルダとしてテキストを入れておく。 (ばかげた習慣だ、日付が変わってからでも前日の日付の日記が書けるかどうか調べたほうがいいんじゃないか) (0:32) A社(やっぱりぼかす)を受けようかということで、ほこりをかぶっていた N-gram かな漢字・漢字かな変換(C++版) を引っ張り出して、以前翻訳した「変身」を漢字かな変換してみた。 (結局あれは支払い最低金額に行くこともなく埋没してしまったが、著作権を気にせず使える現代日本語テキストが手に入ったという意味はあった) MeCab の結果 N-gram 漢字かな変換の結果 比較結果(diff+目で見てユニークなものを数え上げ) MeCab のほうがいい箇所:63箇所 N-gram 漢字かな変換のほうがいい箇所:52箇所 どちらも良い or どちらもダメ:23箇所 うーん、MeCab よりずっ
はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く