タグ

2009年7月28日のブックマーク (5件)

  • Burrows-Wheeler変換の線形時間アルゴリズム - DO++

    研究紹介です。今夏のSPIRE 2009という学会で "A Linear-Time Burrows-Wheeler Transform using Induced Sorting", D. Okanohara, K. Sadakane, SPIRE 2009 pdf(draft) というのを発表します。これは与えられた文字列に対し接尾辞配列を経ないでBurrows-Wheeler変換を直接行うというもので、アルファベットサイズによらず入力長に対して線形時間で行えます。基的なアイディアは昨年のInduced Sortingによる接尾辞配列の線形時間構築アルゴリズム(いわゆるSAIS)を接尾辞配列を使わないでシミュレートするものです。pushとpop操作だけからなり、そのまま外部記憶上での構築とかにも対応できるようになっています。 Burrows-Wheeler変換(BWT, Block S

    Burrows-Wheeler変換の線形時間アルゴリズム - DO++
  • netflix prize is over, 時間経過による嗜好性の変化 - DO++

    米国のオンラインDVDレンタルサービス「Netflix」が、現在利用しているレコメンデーションシステムの性能をはじめに10%改善したチームに100万ドルの賞金を与えるという触れ込みで始まったnetflix prizeは当初の予想よりも時間がかかったが、つい最近最初からトップを走り続けていたbellkorと、上位陣のコラボレーションのチームが10%の壁を破った(leaderboard)。 彼らの手法は「非常に多くの様々な種類のレコメンデーションシステムの結果を混ぜ合わせる」という愚直だがいかにも精度が出そうだという方法を採用している(、と昨年度の結果からは思われる。近々詳細は出るだろう。) 実際に使ってとどめになったかどうかは分からないが、彼らのチームの主要メンバーがKDDで新しい手法を発表しており、単一の手法による最高精度を達成している。ちなみに今年のKDD(データマイニング系の学会の最高

    netflix prize is over, 時間経過による嗜好性の変化 - DO++
  • ディレクトリの中にある大量の小さなファイルを高速に読み込む方法 - 射撃しつつ前転 改

    ディレクトリの中にある大量のファイルを高速に読み込む方法が知りたかったので、実験してみた。想定しているシチュエーションは、一つ一つのファイルは数KB程度だが数が多い、という場合である。適当な順番でアクセスすると、ランダムアクセスになってしまいとても時間がかかる。個々のファイルを読み込む順番はどうでも良く、すべてのファイルを処理することさえできればいいので、原理的にはシーケンシャルアクセスで処理できてしかるべきである。 まず、ファイルシステムについて。HDDやSSDなどのハードウェアにアクセスする際には、ファイル名などという概念はもちろん存在しない。ファイル名と実際のディスク上の対応を管理するのがファイルシステムの主な役割である。ファイルシステムは、ファイル名からそのファイルに対応するブロック番号(メモリアドレスみたいなもんだな)を調べて、そのブロック番号を指定してHDDやSSDにアクセスす

    ディレクトリの中にある大量の小さなファイルを高速に読み込む方法 - 射撃しつつ前転 改
    otonasi_kaoru
    otonasi_kaoru 2009/07/28
    面白い
  • 『ディレクトリの中にある大量の小さなファイルを高速に読み込む方法 - 射撃しつつ前転 改』へのコメント

    ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

    『ディレクトリの中にある大量の小さなファイルを高速に読み込む方法 - 射撃しつつ前転 改』へのコメント
    otonasi_kaoru
    otonasi_kaoru 2009/07/28
    面白い
  • 卒業研究につまづいている人へ:範囲を決めてとりあえずザッと終わらす - 発声練習

    GTDでお馴染みのデビッド・アレンさんの受け売りだけれども 「知的労働は基的に終わりがない。だから、ストレスフリーに知的労働を行うためには区切りは自分でつける必要がある。」 私が見聞きした学生さんが卒業研究でつまづく際の典型例が「細かいところに執着し、しかも、その部分すら終わらせることができずに燃え尽きる」というもの。これが発生するする原因は以下のとおり。 卒業研究の目的(もしくは今行っている作業の目的)を理解していないため、終着点(作業の終わり)をイメージできていない 終着点がイメージできていないので、今、こだわっている部分の重要性を見積もることができない 終着点がイメージできていないので、今、こだわっている部分をどれぐらい深く(細かく)行えば「今のところは」十分なのかがわからない 研究は正解のない作業であり、正解がない作業はとりあえずやってみないと課題が何かすらわからないことがあるの

    卒業研究につまづいている人へ:範囲を決めてとりあえずザッと終わらす - 発声練習