タグ

ブックマーク / naoya-2.hatenadiary.org (7)

  • KOF 2008 の発表資料 - naoyaのはてなダイアリー

    KOF 2008 での発表資料「はてな流大規模データ処理」を以下にアップロードしました。 http://bloghackers.net/~naoya/ppt/081108huge_data.ppt 一部参考文献からの引用 (Introduction to Information Retrieval から Vector space model の図、たつをの ChangeLog から転置インデックスの図) があります。この場を借りて感謝。 環境によってはおそらくフォントの表示がいまいちだと思いますが、ご了承ください。 追記 SlideShare にアップロードしました。 081108huge_data.pptView SlideShare presentation or Upload your own. (tags: linux mysql) 追記: メモリはディスクの 150 倍について

    KOF 2008 の発表資料 - naoyaのはてなダイアリー
  • Introduction to Information Retrieval #1 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval の 輪講 に参加しています。自分はこの輪講で復習係を担当させてもらっています。毎回輪講の頭に、前回分の内容をサマリしてプレゼンテーションする係です。 これから輪講の度、作成した資料を公開していきたいと思います。第一回目の資料を以下に置いておきます。 http://bloghackers.net/~naoya/iir/ppt/iir_01.ppt (ppt, 274K) 第一回目は、書籍の第一章 "Boolean Retrieval" の復習です。大規模データを検索する検索システムにおいて、転置インデックスはどのように作成されるか、またブーリアン検索 (「渋谷 and ラーメン」という検索クエリの類) はどう処理されるかといったことの導入部です。 先週末の第二回目は、転置インデックス作成時の前処理部分(トークナイズ、

    Introduction to Information Retrieval #1 の復習資料 - naoyaのはてなダイアリー
    subarukun
    subarukun 2008/02/06
    たつをさんのゼミの復習資料。文字列検索システムについて、分かりやすくまとめている。
  • naoyaのはてなダイアリー - amazlet のブックマークレット (12/17版)

    Amazon.co.jp の商品のURLがまたしても変更になったので、これに対応するよう amazlet のブックマークレットを更新しました。amazlet をお使いの方は、お手数ですが再度ブックマークレットのセットアップを行ってください。 http://www.amazlet.com/ なお、Amazon.co.jp の商品画面でブックマークレットを直接起動してリンク画面を開いているのではなく、いつも amazlet の検索フォームから検索しているという方は再セットアップの必要はありません。

    naoyaのはてなダイアリー - amazlet のブックマークレット (12/17版)
    subarukun
    subarukun 2006/12/18
    さっそく直さねば~。
  • XML::Feed で XML::RSS::LibXML を使う - naoyaのはてなダイアリー

    はてなRSSではフィードの Auto-Discovery や parse にCPANモジュールのXML::Feedを使っています。XML::Feed は XML::Atom と XML::RSS を抽象化したユニバーサルな parser で、且つ Feed Auto-Discovery の機能も実装されている便利モジュールです。作者は Six Apart の Ben Trott 氏。 これまではてなではあまり積極的に XML 関連モジュールは使ってこなかった(正規表現でぶっこ抜き)のですが、はてなRSS に関しては巡回時にフィードを parse するだけなので、一時的なアクセス増に対する parse 回数の増加などはないだろうと判断して、XML::Feed を採用しています。 もとい、先日ベンチを取ったりしていた XML::RSS::LibXML は動作も安定していそうだし、速度的には X

    XML::Feed で XML::RSS::LibXML を使う - naoyaのはてなダイアリー
    subarukun
    subarukun 2005/06/22
    フィード解析モジュールについて。
  • naoyaのはてなダイアリー - 隠さなくていいものは隠したってしょうがない#コメント欄

    こういう重要な内部事情をどんどん外に向けてオープンにしていく発想が、はてなのユニークネスの中で最も不思議なところである。これは容易に真似できることではない。ある種の狂気と言ってもいい。 だいたいなぁ、ある機能を実装するのにどれだけ工数がかかったのかというようなことは秘匿すべき内容だ、というのが旧来型の常識なんだよ。 読んでいてはらはらする。 それが正直なところである。 でもそれは、そう骨髄反射してしまう僕のほうが古臭くて間違っているのだ、とあるときから考えることにした。 大きな企業そのほかが、社内の情報を外に出したがらない、秘匿にするというのにはいくつか理由があると思いますが、その主なものは、一つは自社のコアバリューが外部に漏れるのを防ぐ、つまり競争優位性のポイントやノウハウが流出してしまうのを防ぐ、ということ。もう一つは、リスク回避としての情報秘匿。何かまずい情報が流出してしまい信頼を失

    naoyaのはてなダイアリー - 隠さなくていいものは隠したってしょうがない#コメント欄
    subarukun
    subarukun 2005/06/10
    仕事内容を社外でどこまでオープンにしていいか。秘密では面白くないが、あとで問題になるのも困る。
  • 僕やはてながPerlを選ぶ理由 - naoyaのはてなダイアリー

    ご存知の通り、はてなのシステムはほぼすべてPerlで書かれています。そもそも僕がはてなに入った一つの理由に、僕が一番得意とする言語であるPerlを使ってシステムを構築していたという点があったりします。 世の中にはたくさんのプログラミング言語があります。PerlJavaRubyPHPPython、C、C++、lisp、Smalltalk、Cobol...数え上げたらキリがありません。そして、プログラマはかならずと言っていいほど、どれかひとつ以上の言語を愛しています。好き、ではなく愛しているのです。 自分が愛しているものを批判されると感情的になりやすいのは人の常、プログラミング言語の差異に関する議論は炎上しがちで、よく宗教戦争だなんて言われたりもします。その中で、言語なんてどれも一緒だなんていう乱暴なまとめがされることもよくあったりします。 しかし、何年かプログラマというものを経験して

    僕やはてながPerlを選ぶ理由 - naoyaのはてなダイアリー
    subarukun
    subarukun 2005/05/20
    私はCとPerl(汗;;;
  • naoyaのはてなダイアリー - はてなブックマークとTagging

    はてなブックマーク以外のソーシャルブックマークサービスを見渡すと、そのほとんどがブックマークの横串刺しのために Social Tagging、つまりは Folksonomy アーキテクチャを採用しています。当初はてなブックマークを開発する際もタグの実装をするかどうかを議論しました。 話はちょっと変わるのですが、はてなブックマークの一番良い所っていうのは何でしょう。その中の一つ(僕は一番だと思っているのですが)は、"○○users"をクリックした先、エントリーページでブックマーカーのコメントをまとめて閲覧できることだと感じています。 自分がブックマークしたページに、他の人はどんな感想を抱いているのか。賛同しているのか、疑問をもっているのか。コメントが付けられていれば、エントリーページでそれを俯瞰することができます。 タグにも同じ側面があると思います。今読んだページに、その人がどういうタグを付

    naoyaのはてなダイアリー - はてなブックマークとTagging
    subarukun
    subarukun 2005/05/09
    タギングやフォークソノミーとの棲み分け、融合などについて開発者が語る。
  • 1