sleepy_yoshiのブックマーク / 2009年2月9日

sleepy_yoshi id:sleepy_yoshi

2009年2月9日のブックマーク (6件)

Subversionリポジトリのバックアップ方法いろいろ - ぱせらんメモ
Subversionリポジトリのバックアップ方法が色々ありすぎて何がベストなのかわからなかったので調べてまとめてみた。ただのファイルコピー普通にファイルシステム上でディレクトリをコピー（あるいはアーカイブ）する方法。非推奨。誰かがリポジトリにアクセスしている最中にやると壊す可能性がある。リポジトリディレクトリをコピーしたいならsvnadmin hotcopyを使うべき。長所簡単。速い。短所バックアップデータの可搬性に乏しい（アーキテクチャ依存）。リポジトリをロックしないので壊す可能性がある。データエラーが検出できない。 svnadmin dump/load svnadminのdumpとloadを使う方法。誰かがアクセス中でも一貫性が保たれる。あくまで管理対象のファイルのみのバックアップなので、設定やフックなどは別途バックアップが必要となる。忘れがち。差分バックア
sleepy_yoshi 2009/02/09
バージョン管理

subversion
リンク
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks(eurosys07.pdf)
Overview New! Dryad and DryadLINQ are now available in source form at the Dryad GitHub repository, with pre-built binaries available from NuGet.org. For release documentation see our Getting Started with DryadLINQ page. Most of the information below is historical and will be updated over time and migrated to the DryadLINQ documentation site. Dryad is an infrastructure which allows a programmer to
sleepy_yoshi 2009/02/09
research

mapreduce
リンク
Resources | SIGIR
This page contains more information retrieval resources that might be of interest. Old IR literature SIGIR Museum contents Research Prototypes and other software Lemur: Toolkit for language modeling and information retrieval MG: Managing Gigabytes fast search engine Porter Stemmer: stemming algorithm Terrier: A full-text search engine Wumpus: File system search Zettair: A full-text search engine E
sleepy_yoshi 2009/02/09
IR

research
リンク
Introduction to Information Retrieval #17 の復習資料 - naoyaのはてなダイアリー
Introduction to Information Retrieval 輪読会 17章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_17.ppt 17章のテーマは "Hierarchical clustering" で、前回 16 章の非階層型クラスタリングに続き、階層型クラスタリングの話です。階層型クラスタリング階層型クラスタリングはその名の通り、階層構造を伴ったクラスタリングの手法です。例えば「はてなダイアリー」に関するクラスタと、「はてなブックマーク」に関するクラスタは、二つが合わさって上位に「はてな」というクラスタを形成し、更に上位に「ウェブサービス」というクラスタを形成するかもしれません。こうして階層構造はデンドログラムと呼ばれる二分木を構成します。ウェブサービス -+- はてな -+- は
sleepy_yoshi 2009/02/09
IR

iir
リンク
「74冊読みました」の面接官にブログがばれた→(中略)→ワインおいしいです＼(^o^)／ - ミームの死骸を待ちながら
先月の下旬の話。アキバで野良黒猫と晩酌しつつ飯を食っているとメールが届いた。 Hashさん 74冊の面接官です。ブログ拝見しましたお元気そうで何より。 ( ﾟДﾟ) <- Hash 。　。 / ／ﾎﾟｰﾝ ( Д ) (参照: コンサルの面接で「74冊読みました」と言ったら「それは何がすごいの？」と返された - ミームの死骸を待ちながら ) いや。いやいやいやいや。...ずいぶんブクマがついてまずいなとは思っていたのだが、まさか見つかろうとは。どうしよコレ、業務なんたらアレ罪？ ...と取り乱すも、会社とは関係なくお話でも...と誘われたので、のこのこと恵比寿のイタリアンな店でお食事してきた*1。発見の経緯を聞くと、面接官 (仮に、多田さんと呼ぶ。理由は後述) の後輩がはてなーで*2、僕のエントリを見て「このコンサルってどこですかねー」と多田さんに話を振ったところ「それウチだよ」と
sleepy_yoshi 2009/02/09
読み物
リンク
IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)
Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。メンテナンスフリーが理想ですが、もちろん難しい。現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。ポイン
sleepy_yoshi 2009/02/09
clustering

iir
リンク
- 2009年2月10日
- 2009年2月9日
- 2009年2月8日