タグ

2009年2月9日のブックマーク (6件)

  • Subversionリポジトリのバックアップ方法いろいろ - ぱせらんメモ

    Subversionリポジトリのバックアップ方法が色々ありすぎて何がベストなのかわからなかったので調べてまとめてみた。 ただのファイルコピー 普通にファイルシステム上でディレクトリをコピー(あるいはアーカイブ)する方法。非推奨。 誰かがリポジトリにアクセスしている最中にやると壊す可能性がある。 リポジトリディレクトリをコピーしたいならsvnadmin hotcopyを使うべき。 長所 簡単。 速い。 短所 バックアップデータの可搬性に乏しい(アーキテクチャ依存)。 リポジトリをロックしないので壊す可能性がある。 データエラーが検出できない。 svnadmin dump/load svnadminのdumpとloadを使う方法。 誰かがアクセス中でも一貫性が保たれる。 あくまで管理対象のファイルのみのバックアップなので、設定やフックなどは別途バックアップが必要となる。忘れがち。 差分バックア

    Subversionリポジトリのバックアップ方法いろいろ - ぱせらんメモ
  • Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks(eurosys07.pdf)

    Overview New! Dryad and DryadLINQ are now available in source form at the Dryad GitHub repository, with pre-built binaries available from NuGet.org. For release documentation see our Getting Started with DryadLINQ page. Most of the information below is historical and will be updated over time and migrated to the DryadLINQ documentation site. Dryad is an infrastructure which allows a programmer to

    Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks(eurosys07.pdf)
  • Resources | SIGIR

    This page contains more information retrieval resources that might be of interest. Old IR literature SIGIR Museum contents Research Prototypes and other software Lemur: Toolkit for language modeling and information retrieval MG: Managing Gigabytes fast search engine Porter Stemmer: stemming algorithm Terrier: A full-text search engine Wumpus: File system search Zettair: A full-text search engine E

  • Introduction to Information Retrieval #17 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval 輪読会 17章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_17.ppt 17章のテーマは "Hierarchical clustering" で、前回 16 章の非階層型クラスタリングに続き、階層型クラスタリングの話です。 階層型クラスタリング 階層型クラスタリングはその名の通り、階層構造を伴ったクラスタリングの手法です。例えば「はてなダイアリー」に関するクラスタと、「はてなブックマーク」に関するクラスタは、二つが合わさって上位に「はてな」というクラスタを形成し、更に上位に「ウェブサービス」というクラスタを形成するかもしれません。こうして階層構造はデンドログラムと呼ばれる二分木を構成します。 ウェブサービス -+- はてな -+- は

    Introduction to Information Retrieval #17 の復習資料 - naoyaのはてなダイアリー
  • 「74冊読みました」の面接官にブログがばれた→(中略)→ワインおいしいです\(^o^)/ - ミームの死骸を待ちながら

    先月の下旬の話。アキバで野良黒と晩酌しつつ飯をっているとメールが届いた。 Hashさん 74冊の面接官です。 ブログ拝見しましたお元気そうで何より。 ( ゚Д゚) <- Hash 。 。 / / ポーン ( Д ) (参照: コンサルの面接で「74冊読みました」と言ったら「それは何がすごいの?」と返された - ミームの死骸を待ちながら ) いや。 いやいやいやいや。...ずいぶんブクマがついてまずいなとは思っていたのだが、まさか見つかろうとは。どうしよコレ、業務なんたらアレ罪? ...と取り乱すも、会社とは関係なくお話でも...と誘われたので、のこのこと恵比寿のイタリアンな店でお事してきた*1。 発見の経緯を聞くと、面接官 (仮に、多田さんと呼ぶ。理由は後述) の後輩がはてなーで*2、僕のエントリを見て「このコンサルってどこですかねー」と多田さんに話を振ったところ「それウチだよ」と

    「74冊読みました」の面接官にブログがばれた→(中略)→ワインおいしいです\(^o^)/ - ミームの死骸を待ちながら
  • IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

    Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン