タグ

ブックマーク / sleepy-yoshi.hatenablog.com (5)

  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
  • 情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - シリコンの谷のゾンビ

    しばらく情報検索に関わるブログ記事を書いていなかったけれど,「情報検索ことはじめ〜教科書編〜」から丸2年が経過し,Modern Information Retrievalの第二版が発売されたことで,2011年版を書いてみようと思ったので,ここ2年で発売された情報検索の教科書について書くことにする. あの頃は検索を勉強し始めて8ヶ月のペーペーだったけれど,そのまま加算すると,どうやら2年8ヶ月になるらしい.「まるで成長していない…」とか某安西先生につぶやかれそうな気がするけれど,自分のことは棚に上げて,この2年間に新たに出版された教科書を紹介したいと思う. さて,例によって若輩の主観と独断と偏見にまみれた記事になっています.誤りの指摘,違ったご意見があれば,コメント頂けると幸いです. 情報検索の教科書 この2年で出版された教科書的存在の文献は3冊.それぞれ紹介する.以下の3冊の共通点としては

    情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - シリコンの谷のゾンビ
    InoHiro
    InoHiro 2013/05/27
  • 箇条書き(enumerate, itemize)の行間を狭くする - シリコンの谷のゾンビ

    意外と知らなかった. \begin{enumerate} \setlength{\parskip}{0cm} % 段落間 \setlength{\itemsep}{0cm} % 項目間 \item ほげほげ \item ほげほげ \end{enumerate} だそうだ. (引用元:enumerateの行間調整)

    箇条書き(enumerate, itemize)の行間を狭くする - シリコンの谷のゾンビ
    InoHiro
    InoHiro 2013/01/17
  • 行頭にスペースを挿入,指定した文字を挿入 - シリコンの谷のゾンビ

    昔からずっと疑問に思ってた行頭に文字を挿入する方法 過去に見つけた方法は,regex-replaceを使って行頭表現をマッチさせるもの >をすべての行頭に挿入する - 睡眠不足?! これがまさに探していたもの C-x C-i リージョンの行頭にスペースを挿入 C-x r t リージョンの行頭に指定した文字を挿入 今度は削除するのはどうすればいいのだろう?こちらは現段階ではreplace-regexpしか思いつかない.リージョンに限定するためにはnarrow-to-region(C-x n)を実行してから,M-x replace-regexpを呼び出すみたい.けれど禁呪らしく,デフォルトでは禁止されてるとか. "リージョンの"という文脈が難しそう.意外と時間がかかりそうなので今回はここまでにしておこう.

    行頭にスペースを挿入,指定した文字を挿入 - シリコンの谷のゾンビ
  • awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ

    今までテキスト処理などでワンライナーを使うときはperlを使っていた.Perlを先に覚えた身としてはawkやsedは過去の産物だと思い込んでいた.awkの方が簡潔に書けるケースに出くわしたことをきっかけにawkを勉強してみたら単なわず嫌いだったことに気が付いたのでポイントをまとめてみる. なおプログラミング言語としてはAWKという表記が正しく (Aho, Weinberger, Kernighanの頭文字! ということだけは以前から知っていた),オリジナル処理系のことをawkと呼ぶのだろうけれど,今回は処理系の違いは気にしないのでawk, nawk, gawkの違いは気にしないことにした.ていうか詳しく知らない. 「awkってなんぞ?」という方が対象読者.スクリプト言語と正規表現の基礎知識が少しでもあれば,たぶんすぐに使えるようになると思う.awkを一度でも使ったことがある人には新しい情

    awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ
  • 1