maganebaのブックマーク - はてなブックマーク

第1回ウェブ学会シンポジウム - naoyaのはてなダイアリー

月曜日に、東大の安田講堂で開催された第1回ウェブ学会シンポジウムで発表しました。以下、発表資料です。 Web-Gakkai Symposium 2010View more presentations from Naoya Ito. 会場の様子などは、今回の発表をファシリテートしてくださったたつをさんの、たつをのChangeLogに綺麗な写真と共に感想などがありますので、是非どうぞ。

maganeba 2010/04/16

あとで読む

リンク

実践ハイパフォーマンスMySQL 第2版 - naoyaのはてなダイアリー

オライリー・ジャパンから実践ハイパフォーマンスMySQL 第2版が発売されました。第2版の出版にあたって、弊社の id:stanaka, id:hideoki と自分の3人で監訳を担当させていただきました。実践ハイパフォーマンスMySQL 第2版作者: Baron Schwartz,Peter Zaitsev,Vadim Tkachenko,Jeremy D. Zawodny,Arjen Lentz,Derek J. Balling,伊藤直也(監訳),田中慎司(監訳),吉川英興(監訳),株式会社クイープ出版社/メーカー: オライリージャパン発売日: 2009/12/14メディア: 大型本購入: 17人クリック: 373回この商品を含むブログ (45件) を見る好評だった初版は確か、自分がはてなに入社した直後ぐらいに読んだ記憶があるのでもう 5 年も前になります。はてなの MySQ

maganeba 2009/12/17

リンク

Logarithmic merging - naoyaのはてなダイアリー

IIR の第4章 Dynamic indexing では検索用のインデックスにおいて対象とする文書に頻繁に更新が発生する場合にどうそれを扱うべきかという話題を扱っています。ここで "Logarithmic merging" という話が出てきます。以前に読んだ際に良く理解できなかったので、改めて復習してみました。 Dynamic indexing 頻繁に検索対象の文書群に更新が発生する場合の問題点は、(postings ファイルはディスク上にあるので) 転置インデックスをその都度構築し直すコストが高くなってしまうというところです。かといって更新をしないと、検索結果が古いままでヒットすべきものがヒットしなくなってしまいます。そこで Dynamic indexing の戦略を採ります。ディスク上の大きなインデックスであるメインのインデックスに加えて、インメモリの小さな補助インデックスを用意し、更

maganeba 2009/05/16

リンク

List::FrontCode - naoyaのはてなダイアリー

先日 Array::Gap という Variable Byte Codes による整列済み整数の圧縮の実装を作りました。(id:naoya:20080906:1220685978) 今日は Front Coding を使った同じような圧縮リストクラス、List::FrontCode を作ってみました。Front Coding は辞書式順に整列済みの文字列リストなどを圧縮する手法です。WEB+DB PRESS Vol.42 のアルゴリズム&データ構造の記事で PFI の岡野原さんによる解説があったので、それを参考に実装しました。 Front Coding Front Coding は http://www.hoge.jp http://www.hoge.jp/a.htm http://www.hoge.jp/index.htm http://www.fuga.com/ http://www.

maganeba 2008/09/26

リンク

第2回アルゴリズムイントロダクション輪講 - naoyaのはてなダイアリー

今日は id:motemen 主催のアルゴリズムイントロダクション輪読会第2回でした。現在弊社では今年のインターンシップを 2回目(年に2回のうちの後半) 開催中ですが、先月まで来てくれていたインターン一期生も数名輪読会に参加し、東京オフィスからも数名参加、お客さんも増えて大変盛り上がりました。輪講第2回の今日の発表は自分が担当で、内容は「第4章漸化式」でした。アルゴリズム計算時間の漸近的限界を得るため、再帰アルゴリズムの計算時間の漸化式を解きます。4章では漸化式の解法として置き換え法、再帰木、分類法が紹介されています。アルゴリズムイントロダクションの第一巻は、前半しばらく計算量の話が続きます。6章からようやくソートアルゴリズムの話に入ります。次回5章は「確率論的解析と乱択アルゴリズム」です。数学的基礎とデータ構造 (アルゴリズムイントロダクション) 作者: T.コルメン,R.

maganeba 2008/09/10

あとで読む

リンク

Kansai.pm での発表資料 (Hadoop Streaming で MapReduce) - naoyaのはてなダイアリー

Kansai.pm に参加しました。とても楽しかったです。自分も "Hadoop Streaming で MapReduce" という題目で発表しました。取り急ぎ、資料を以下に公開します。 http://bloghackers.net/~naoya/ppt/080530kansai pm.ppt MapReduce は Google のバックエンドで動いている分散並列バッチ処理システムです。GFS は Google の分散ファイルシステムです。Google ウェアのクローンとしてオープンソースで開発されているのが Hadoop。Hadoop は Yahoo! Inc や Facebook, Amazon.com などでも利用されているとのこと。Hadoop は Java ですが、Hadoop Streaming を使うと　Java 以外でも MapReduce できます。以下のエントリも合

maganeba 2008/06/16

リンク

Introduction to Information Retrieval #6 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval の6章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_06.ppt 6章はスコアリング(重み付け)がテーマです。スコアリングの基本として、文章の属性毎に重みを与えてスコアを計算する Weighted zone scoring が最初に紹介されています。次に、文書に含まれる単語に重みを与える方法として tf-idf が話題に挙がります。tf-idf などで各単語に数値を与えられたドキュメントは、各単語の重みを成分とする M 次元 (M は辞書の単語数) のベクトルとみなすことができます。このドキュメントベクトルをM次元空間に展開しベクトル計算でドキュメント間の相関(類似性)を算出する手法として Vector space model の解説が

maganeba 2008/06/13

あとで買う

リンク

インターフェイス指向設計 - naoyaのはてなダイアリー

本を読むこととは、その本を読んだことに費やした時間の間、その書籍のテーマについて考えを巡らせることではないか、と近頃思います。本を読みながら集中して、ある特定のテーマについて考え続ける。本を読み終えた頃には、その思考の量的な価値が、自らの中で質的な価値に変換されているというのが理想であり、それが読書の醍醐味ではないかと思います。インターフェイス指向設計 ―アジャイル手法によるオブジェクト指向設計の実践を読みました。この書籍はシステム設計における「インターフェイス」(ユーザーインターフェイスではなく、プログラムインターフェイス) についての書籍です。インターフェイスについて考えを巡らせるにあたって、思考のための指針を与えてくれる良著だと思います。プログラムインターフェイスというものをどのように捉えるか。ファイルをブロック単位で読むための手順であるとか、ソートのアルゴリズムであるとか、そ

maganeba 2008/05/29

あとで買う

リンク

Introduction to Information Retrieval #5 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval の5章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_05.ppt 5章はインデックス圧縮がテーマです。辞書の圧縮と postings files の圧縮に対するそれぞれのアプローチについての解説が主です。転置インデックスの振る舞いに特化した圧縮手法などが紹介されていて、とても面白い章でした。数値表現をビット単位で最適化する γ coding などは目から鱗です。次回の輪読会は 6/8 予定です。次章の内容は、検索結果のスコアリングについて。tf-idf や Vector space model についての話が中心になります。過去の章のアーカイブは同 URL のディレクトリ (http://bloghackers.net/~naoya

maganeba 2008/05/18

あとで読む

リンク

Hadoop Streaming - naoyaのはてなダイアリー

id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

maganeba 2008/05/14

分散ファイルシステム

リンク

MapReduce - naoyaのはてなダイアリー

"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

maganeba 2008/05/12

google

リンク

Introduction to Information Retrieval #4 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval の4章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_04.ppt 4章はインデックス構築に関するアルゴリズムなどがテーマです。前半では単一マシン上で二次記憶装置を使ったインデックス構築手法として、入力を適当なサイズのブロックに分けて最後にマージする Blocked sort-based indexing (BSBI) と、BSBI を改良して入力をストリームで扱うようにした Single-pass in-memory indexing (SPIMI) が紹介されています。次に、例えばウェブ検索のような、単一のマシンでは扱いきれない巨大なインデックスを扱う戦略として、並列計算クラスタで分散インデックスを構築する Google の Ma

maganeba 2008/05/04

あとで読む

リンク

Emacs の vc-annotate - naoyaのはてなダイアリー

もしかしたら常識なのかもしれませんが、Emacs の vc-annotate がとても良いです。vc-annotate は vc (version control, バージョン管理システムのフロントエンド。Emacs から直接 svn {diff, commit, revert} することができる) に含まれる機能の一部です。vc-annotate を使うと、バージョン管理システム、例えば Subversion に保存された過去の履歴を気になったときにとても容易に調べることができます。ソースを開いて M-x vc-annotate (C-x v g) すると (そのファイルがバージョン管理化に置かれて居れば) vc-annotate-mode になります。例えば Subversion で管理されている plagger の Plagger::Plugin::CustomFeed::Debu

maganeba 2008/04/04

あとで読む

リンク

はてなブックマークのコミュニティについて - naoyaのはてなダイアリー

はてなブックマークからは毎日のようにいままでは知りようがなかったすばらしい記事やニュースを得ています。こうして日記を書いた後にたくさんのフィードバックをいただいています。コメントのないブックマークでも、その一つ一つがとても嬉しい。そこに人がいる、という感じがします。はてなブックマークを作って良かった、と思います。一方、はてなブックマークでの厳しい一言で人が傷ついたりしているのを見かけます。誰かがちょっと間違ったということを指摘するのに、バカとかアホとか、そんなことを書く必要は本当にあるんだろうか、自分の思う正しい回答を丁寧に示すだけでよいのではないか、と思います。人間の感情なので、色々思うことは止めようがない、とも思います。また一方で、それを外にストレートに出さないよう理性を働かせるのもまた、人間のあり方だと思います。コメントを見て「身から出た錆だ」と思ったこともあるし、僕自身も自覚

maganeba 2007/06/16

あとで読む

リンク

naoyaのはてなダイアリー - 負荷とは何か

調べごとをしたので blog に書いて理解を深めようのコーナーです。長文です。 Linux でシステム負荷を見る場合にお世話になるのが top や sar (sysstat パッケージに同梱されてるコマンド) などのツールです。 top ではシステム統計のスナップショットを見ることができます。今システムがどういう状態かなーというときは top が便利。 top - 08:16:54 up 3 days, 14:43, 6 users, load average: 0.18, 0.07, 0.03 Tasks: 43 total, 2 running, 41 sleeping, 0 stopped, 0 zombie Cpu(s): 18.2% us, 0.0% sy, 0.0% ni, 81.8% id, 0.0% wa, 0.0% hi, 0.0% si一方の sar では10分ごとのシ