タグ

algorithmに関するsatojkovicのブックマーク (136)

  • Part1 アルゴリズムと計算量を理解する

    量理論とは,一見してつかみどころのないアルゴリズムを定量的に把握し,その良し悪しを評価する考え方である。 アルゴリズム(Algorithm)とは,与えられた問題を解く手順のことだ。コンピュータの世界では,「プログラムによって問題を解く手順」ということになる。 JIS(日工業規格)は,アルゴリズムを次のように厳格に定義している。「明確に定義された有限個の規則の集まりであって,有限回適用することにより問題を解くもの。例えば,sin(X)を決められた精度で求める算術的な手順を,もれなく記述した文」(JIS X 0001-1987より)。 注目して欲しいのは,「有限個の規則」と「有限回適用」という言葉である。アルゴリズムを構成する規則の個数と,それを適用した時の処理の回数が有限であることが,アルゴリズムの条件になる。 したがって,それらの“数”からアルゴリズムの良し悪しを評価できることになる。例

    Part1 アルゴリズムと計算量を理解する
  • https://labs.cybozu.co.jp/blog/kazuho/archives/2008/06/friends_timeline.php

  • ウノウラボ Unoh Labs: 圧縮アルゴリズム

    尾藤正人(a.k.a BTO)です コンピュータを使ってる方ならいつもお世話になってるデータ圧縮。 gzipのようなツールで意識して圧縮していることもあれば、フォーマット自体に圧縮機能が備わっていて、意識しないで使っているケースもあるかと思います。 毎日のようにお世話になってるデータ圧縮ですが、その原理を知らない方も多いのではないでしょうか。 かくいう僕自身も、つい最近までは全く知りませんでした。 そこで、先日の社内勉強会で圧縮アルゴリズムについて一通りやってみました。 その資料を公開します。 僕も専門家ほど詳しいわけでもなく、単に勉強してみただけのくちなので、いろいろおかしな点もあるかもしれません。 何かありましたら、いろいろご指摘いただければと思います。 プレゼン資料の作成にはデータ圧縮法概説を大いに参考させていただきました。 参考っていうか、ほとんどそのまんまです。 ぶっちゃけデータ

  • タグクラウドのアルゴリズム (それなりブログ)

    それなりブログ 20台後半からWebエンジニアに転生した人が書く、プログラム・無駄口とかのそれなりのブログ 管理人: kjirou  座右の銘: 「三度の飯より、四度の飯」 タグクラウドの大きさを決めているアルゴリズムはどうなってるのかなと、PHPのTagCloud.phpと、Rubyのtagcloud-rubyを読んみました。 両方ともCSSセレクタ生成等が処理の中に入ってしまっており、ライブラリとしてはやや微妙な感じ。(元のPerlの実装に合わせているからだと思いますが) なので、アルゴリズムだけ貰おうかと。 【最も基的なアルゴリズム】 最終的に、各タグの大きさは25段階の範囲で区分される。 ソース内ではこれを level と読んでおり、0-24の範囲で指定している。 level算出方法は以下の通り 1. 最もタグ付けされている回数が多いタグの回数を取得し、それの平方根を求

  • http://homepage2.nifty.com/bkclass/doc_sha1.html

  • HowGoogleEarthReallyWorks - Google Earth の <ほんとの> 仕組み

    HowGoogleEarthReallyWorks - Google Earth の <ほんとの> 仕組み 目次 この文書について Google Earth の <ほんとの> 仕組み パート1 終幕: 3D の仮想地球を描画する 基 より良いフィルタリングを持ち込む さあ題に入ろう Google Earth の <ほんとの> 仕組み この文書について RealityPrime > How Google Earth [Really] Works の日語訳です。 推敲添削歓迎: 誤訳、タイポ、不統一、そのほか ... 有名サイト HowStuffWorks.com の記事 "How Google Earth Works" を読んだら, この記事が "それがどれだけスゴいか" や "その使い方" を書くだけで "それが(ほんとは)どんな仕組みで動いているのか" を説明していないこと

  • きまぐれ日記: タグとマルチラベル問題と機械学習

    ネット上のサービスを見ていると、メールなりWebページをある一意のカテゴリに分類するという整理法から、タグ(ラベル)をつけるという整理法に変わってきているようです。 代表的な例は Gmail。フォルダという概念はなくメールにラベルを付与していきます。私が良く使う方法は、「リマインダー」のラベル(メールの重要さという観点)と「内容」のラベルです。二つはそれぞれ独立した分類方法ですが、フォルダだと同居できません。他の例だと「はてなブックマーク」があります。ユーザが任意のタグを付与することができます。 機械学習の言葉を使えば、従来のフォルダは「シングルラベル」の分類問題、後者のタグは「マルチラベル」分類問題となります。文字どおり、前者はインスタンスに対し1つのラベルのみを付与する問題、後者は複数のラベルを付与する問題です。 さて、機械学習の分野でマルチラベル問題はどう進展してるのでしょうか?実際

  • studyinghttp.net - このウェブサイトは販売用です! - 解説 仕様書 利用 技術 である 手法 日本語訳 プログラミング リソースおよび情報

    このウェブサイトは販売用です! studyinghttp.net は、あなたがお探しの情報の全ての最新かつ最適なソースです。一般トピックからここから検索できる内容は、studyinghttp.netが全てとなります。あなたがお探しの内容が見つかることを願っています!

    satojkovic
    satojkovic 2005/12/05
     MD5とSHA-1についての解説
  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • http://www.rashmisinha.com/archives/05_10/tags-collaborative-filtering.html

    satojkovic
    satojkovic 2005/10/31
     協調フィルタリング+Tagging
  • きまぐれ日記: リアルめかぶ

    めかぶが好物の私ですが、スーパーで売っているいろんなタイプのめかぶをトライしています。しかし納得できるものが少ない。NAIST近くのサカエに売っていた「カネキ吉田商店」の「若めかぶとろろ」がやっぱり一番です。引っ越してきてからは、なかかなこのめかぶに出会うことがなかったのですが、つい最近嫁さんが見つけたそうです。どうやら150円で売ってるみたい。奈良では100円だったのに。。 ひさびさに出会えたこともあり、改めてその味に感動しました。なんたって歯ごたえが違います。たいていのスーパーのめかぶは、単にヌルヌルしてるだけなのですが、カネキさんのは適度なコリコリ感があります。焼酎がすすみます。量も比較的多めです。 このめかぶを安定して入手したいのですが。ダイエー系のスーパーならあるのかな? さて、形態素解析器 MeCab ですが、0.90の公開準備がようやく整いつつあります。解析精度のよきせぬバグ

  • Text Classification with CEEK.JP NEWS

    CEEK.JP NEWS の2009年1月から2011年12月の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。 ナイーブベイズ(Naive Bayes)分類法を用いており、概ね80%の精度で分類できます。 コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月) http://labs.ceek.jp/classify/cm.pdf 表の縦(グラフ)は、推定分野。表の横は、正解分野。 参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料) Tackling the Poor Assumptions of Naive Bayes Text Classifiers

  • きまぐれ日記: はてなキーワードを高速に付与

  • ESMAJ : EXACT STRING MATCHING ALGORITHMS

    Contents EXACT STRING MATCHING ALGORITHMS Animation in Java Christian Charras - Thierry Lecroq Laboratoire d'Informatique de Rouen Université de Rouen Faculté des Sciences et des Techniques 76821 Mont-Saint-Aignan Cedex FRANCE

    satojkovic
    satojkovic 2005/09/04
    文字列検索のアルゴリズム
  • B木 (B-tree)

    □ 多レベル索引の一種 挿入や削除のタイミングで動的な再編成が効率良く可能. レベル数は層レコード数 に対して ですむ. □ B-tree よりも後述の B-tree の方が良く使われるが,原理の 理解は B-tree の方が理解しやすいので,先に説明する. 以下ではキー値に重複がないものと仮定する. 定義 8 (B木 (B-tree))   が正整数であるとする.次の B木 (a B-tree of degree ) の 各ノードは次のような情報を持つページで,以下に述べる条件を満たすものである (図 6.5, p112 参照.): はroot ノード以外では である. root ノードでは である. レコード のキー値を で表すとすると, である. レコードは最大で 個まで持てる. はページへのポインタである. (つまり部分木へのポインタである.) 中に現れる全てのレコード

  • ブロックアルゴリズムとB-Treeアルゴリズム

    ファイルサーチを高速化するB-Treeアルゴリズム ext2、ext3がベースとするブロックアルゴリズムは、ブロック数が対応するディスクのジオメトリ数に制限されること、ファイルサーチにO(n)かかる(注)こと、ファイルサイズに関係するパフォーマンス低下など、いくつかの問題があった。 注:「O(n)」とは、実行時間が入力の大きさ「n」に比例するアルゴリズムである。O(n)は「nのオーダー」または「オーダーn」と読む。後述する「O(log n)」は、アルゴリズムの計算量に関する議論の場合logの底は常に2で、O(log n)の方がO(n)よりも効率が良い。例えばn=8の場合、O(log n)は入力8に対して3回の実行で済むが、O(n)は8回の実行となる。 ReiserFS、JFS、XFSといったファイルシステムでは、こうしたブロックアルゴリズムの限界に対して、早い段階からデータベースの技術をフ

    ブロックアルゴリズムとB-Treeアルゴリズム