rindai87のブックマーク - はてなブックマーク

手元に置いておくと安心できる、情報系の人向けな日本語の本のリスト - EchizenBlog-Zwei

最近、人に本を薦める事が多くなった。とりあえずこの辺を読むといいですよ的なリストを作っておくと便利だと思ったので作ることにした。以下、「事前知識のいらない入門本」「事前知識はいらないけど本格的な本」「事前知識がないと何言ってるかわからないけど有益な情報が満載な本」の3つにわけて列挙する。事前知識のいらない入門本数式少なめ、脳負荷の小さめな本をいくつか。何をやるにしてもデータ構造、アルゴリズム、数学はやっておくと幸せになれるよ。情報検索と言語処理データマイニングとか自然言語処理とかやりたい人にはとりあえずこれ。さすがに古い話が多くなってきたのでそろそろ新しい入門用情報検索本がでないかなあと思っている。図解・ベイズ統計「超」入門伝説のベイジアン先生がベイズの基礎を教えてくれる本。ベイズやりたい人はこれ。珠玉のプログラミングデータ構造とかアルゴリズムとかの考え方の基礎を教えてく

rindai87 2014/02/24

リンク

「入門機械学習」を献本していただきました - EchizenBlog-Zwei

「入門機械学習」を献本していただきました。ありがとうございました。というわけで早速読み終わったので感想を書いておく。機械学習の入門書ではない本書はタイトルから連想されるような機械学習に入門するような内容は書かれていない。一切数式は登場せずアルゴリズムはすべてブラックボックス化されている。では本書はダメな本なのかというとそんなことは全くない。少なくとも「入門機械学習」というタイトルに興味をもって本書を手にとった人にとっては大変有益な本だと思う。大きなデータを扱って何かしたい人が最初に読むべき本繰り返すが本書は機械学習の仕組みについては書いていない。仕組みはブラックボックスとして割り切ることで従来の機械学習の入門書が触れていない部分を非常に大きく扱っている。それは何かというと「汚いデータからどうやって機械学習の入力データを作るか」「機械学習の手法をどのように選択するか」「機械学習に

rindai87 2013/01/21

リンク

「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei

「高速文字列解析の世界」という大変すばらしい本が発売された。わりと敷居が高い本ではあるので読む前に知っておくとよさそうなことを書いておく。「高速文字列解析」とは本書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。キーワードは3つオビにも書いてあるけれど、本書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基本的な道具として本書の色々なところで出て

rindai87 2013/01/09

NLP

リンク

渋谷の会社に転職しました - EchizenBlog-Zwei

というわけで転職しました。渋谷といってもモゲマスの会社ではなくDSIRNLPのときにお世話になっていた会社です。待遇や環境、仕事内容などあらゆる面が大幅に改善されモチベーションがうなぎのぼりです。さらに前職同様、一緒に仕事をする方にも恵まれていて圧倒的な感じがします。思わず最善を尽くしたいと思える環境でした。がんばります。

rindai87 2012/05/02

おおおおおおおおおおおおおおおお

IT

リンク

自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei

自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造まずはこれ。有名な本なので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか？最小の労力で解決するにはどこをいじればよいのか？などが書いてある。「webサービスで自然言語処理だ！」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで本書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(

rindai87 2011/10/12

リンク

「テキストマイニングを使う技術/作る技術」を読んだ - EchizenBlog-Zwei

自然言語処理は大学時代からやっていたのだが、恥ずかしながらテキストマイニングについてはよくわかっていなかった。@shima__shima先生から「テキストマイニングを使う技術/作る技術」を紹介していただいたので読んでみた(紹介していただき、ありがとうございました)。本書によるとテキストマイニングは厳密な定義はないものの、テキストデータから抽出されたデータを用いたデータマイニングを指すらしい。で、従来のデータマイニングであれば数値データからそのままマイニングすればいいけれどテキストデータは自然言語で書かれていてそのままでは使えないので自然言語処理(NLP)を用いてマイニングで使うデータを抽出するよ。ということらしい。なんとなくNLPの中にテキストマイニングがあるのかと思っていたのだが、テキストデータとデータマイニングの橋渡しをする技術としてNLPを使っている、というのが正しいのかも。本

rindai87 2011/10/03

リンク

未知の分野の論文を読むときの10のポイント - EchizenBlog-Zwei

同じ分野の論文ばかり読んでいると視野が狭くなるので専門外の分野の論文も積極的に読んでいきたい。とはいえ未知の分野だとどの論文から読めばいいのかわからず困ることも。そんなときにこれまで試して役に立ったことをメモしてみた。 1.調べる論文は英語に絞るこれは日本人の論文が良くないということではなく日本人の論文も含め優れた論文は国際会議(つまり英語)でも発表されているから。英語が苦手でも頑張って英語論文を読んだほうが質のよい論文に出会う確率が高い。 2.関連ありそうな単語を検索して意味を調べるまずはひたすら検索タイム。最初は漠然とした言葉でしか検索できなくても調べたい分野の用語は頻出するはずなので、だんだん知るべき用語がわかってくる。英語の単語がわからない場合も調べていれば日本語/英語を併記してくれているものがでてくるはず。あとは頻出語の意味を分かる範囲でざっと調べておく。余談だけれど技術系の

rindai87 2011/09/08

学習

リンク

機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei

ニーズがあるのかさっぱりわからない機械学習超入門だけどひっそり続けていきたい。前回は識別関数の基礎であるパーセプトロンの簡単な説明とPerlによる実装を解説した。実はこの時点でかの有名なSVM(Support Vector Machine、サポートベクターマシン)もほぼ完成していたのだ！というわけで今回はSVMをPerlで作ってしまうお話。参考: これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei 機械学習超入門〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 機械学習超入門II 〜Gmailの優先トレイでも使っているPA法を30分で習得しよう！〜 - EchizenBlog-Zwei 機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei さて