タグ

ブックマーク / echizen-tm.hatenadiary.org (6)

  • 社会は厳しい - EchizenBlog-Zwei

    社会が厳しいのでメモしておきます。 勤怠について 前職がブラックだったので精神状態があまりよくないです。毎日最低8時間は寝たいところです。充分な睡眠をとるためには定時帰宅が何より大切です。 今の環境では(ホワイトではあるのですが、何故か)残業が推奨されているのであまりよくないです。定時帰宅が徹底されているか、定時出社が要求されないか、そもそも勤怠管理がないような環境に興味があります。 とにかく安定した睡眠時間の確保は以降のあらゆることに優先します。 外出がつらい 外出すると疲れるので休日は家から一歩も出ない生活がしたいです。 興味があることについて 機械学習と簡潔データ構造に興味があります。ほかにもデータ構造とアルゴリズムまわりのことは大体好きです。今の環境ではあんまりこういう話ができる人がいないので悲しい限りです。(話せるよ、というひと一緒に勉強会しましょう) 論文読んだり実装したりする

    社会は厳しい - EchizenBlog-Zwei
    terazzo
    terazzo 2015/11/11
    ファンタジスタドールのプロかな
  • 手元に置いておくと安心できる、情報系の人向けな日本語の本のリスト - EchizenBlog-Zwei

    最近、人にを薦める事が多くなった。とりあえずこの辺を読むといいですよ的なリストを作っておくと便利だと思ったので作ることにした。 以下、「事前知識のいらない入門」「事前知識はいらないけど格的な」「事前知識がないと何言ってるかわからないけど有益な情報が満載な」の3つにわけて列挙する。 事前知識のいらない入門 数式少なめ、脳負荷の小さめなをいくつか。何をやるにしてもデータ構造、アルゴリズム、数学はやっておくと幸せになれるよ。 情報検索と言語処理 データマイニングとか自然言語処理とかやりたい人にはとりあえずこれ。さすがに古い話が多くなってきたのでそろそろ新しい入門用情報検索がでないかなあと思っている。 図解・ベイズ統計「超」入門 伝説のベイジアン先生がベイズの基礎を教えてくれる。ベイズやりたい人はこれ。 珠玉のプログラミング データ構造とかアルゴリズムとかの考え方の基礎を教えてく

    手元に置いておくと安心できる、情報系の人向けな日本語の本のリスト - EchizenBlog-Zwei
    terazzo
    terazzo 2014/02/24
  • 「4人のロシア人の方法」で編集距離を高速化する - EchizenBlog-Zwei

    ちょっと前に「4人のロシア人の方法(Method of Four Russians)」というのを論文で見かけて面白かったので紹介しておく。 簡単に言ってしまうと、ある処理を高速化したい時にデータ全体を小さなブロックに分割してブロック単位での結果を事前に計算したテーブルで持っておくよ、というアルゴリズム。 名前は知らなくてもアルゴリズム自体は知ってる人は多いかもしれない。 Method of Four Russians - Wikipedia, the free encyclopedia アルゴリズム自体は汎用的なものだが編集距離の高速化を例として説明するのが一般的なようなのでそれに倣う。 文章で書くとごちゃごちゃするのでスライドで。もっふる。 http://www.scribd.com/doc/94190119/MoFR ※追記:↑のスライド、正直自分でもわかりやすいとは思えないので余裕が

    「4人のロシア人の方法」で編集距離を高速化する - EchizenBlog-Zwei
    terazzo
    terazzo 2012/05/21
  • 【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei

    最近サザエさんとキュアピースのじゃんけん対決が話題になっている。 じゃんけんポンで日曜日 またこれに関連して「サザエさん ジャンケン学」というサイトが注目を集めている様子。 サザエさん ジャンケン学 このサイトによるこれまでの予測的中率は44.7%とのこと。 さて自然言語処理という技術の分野ではNgramモデルというものがある。これは簡単に言うと「まことに」という言葉の後には「残念ですが」という言葉がつながりやすいとか、「ちょっと」の後には「いいですか」がつながりやすいというように「どういう言葉の後にどういう言葉がつながるか」ということを表現するモデルのこと。 これをじゃんけんに応用することで「この人はグー、グーときたら次はチョキを出す」というような傾向を予測することができる。 このNgramモデルを使うことでサザエさんに50%くらいの確率で勝てることがわかったので以下にまとめる。 Ngr

    【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei
    terazzo
    terazzo 2012/03/29
  • 話題の新技術、簡潔データ構造の入門用資料をまとめてみた - EchizenBlog-Zwei

    最近私の周辺で簡潔データ構造に興味を持つ人が増えてきた。簡潔データ構造といえばGoogle日本語入力でも使われている話題の新技術。自然言語処理界隈で機械学習の次にブームになるのはこれだ!と個人的に思っている。 というわけで入門用の資料をまとめてみた。 簡潔データ構造では、すべての基礎である簡潔ビットベクトルがあって、その上に応用として簡潔木(LOUDSなど。Google日本語入力で利用されている)、簡潔文字列(ウェーブレット木など。FM-Indexに利用されている)がある。最近ではこれらより複雑なデータ構造に対する簡潔構造も研究されている。 ということをふまえて以下の資料を読むと良い。 Efficient dictionary and language model compression for input method editors Taku Kudo et al. Google

    話題の新技術、簡潔データ構造の入門用資料をまとめてみた - EchizenBlog-Zwei
    terazzo
    terazzo 2011/12/09
  • 圧縮接尾辞配列ライブラリ csalibの圧縮率の高さは異常 - EchizenBlog-Zwei

    圧縮接尾辞配列の第一人者、定兼先生が開発、公開してくださっているcsalibを試してみたのでメモ。 http://researchmap.jp/sada/csalib/ まずはgooglecodeからcsalibとdbwtを入手。解凍しmakeする。 $$ mkdir csalib/ $$ cd csalib/ $$ wget http://csalib.googlecode.com/file/csalib100810.zip $$ unzip csalib100810.zip $$ make $$ cd .. $$ mkdir dbwt/ $$ cd dbwt/ $$ wget http://csalib.googlecode.com/file/dbwt100730.zip $$ make $$ cd ..このライブラリはdbwtでテキストをBurrows-Wheeler変換し、その後m

    圧縮接尾辞配列ライブラリ csalibの圧縮率の高さは異常 - EchizenBlog-Zwei
    terazzo
    terazzo 2010/08/19
  • 1