[B! algorithm] [5ページ] basiのブックマーク

basi id:basi

algorithmに関するbasiのブックマーク (104)

ohmm（オンラインEMによるHMM学習）をリリースしました - DO++
Ohmm-0.01をリリースしました [Ohmm 日本語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。使う場合は、単語（アクセス履歴とかなんでもよい）に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報（ＤＮＡ）といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。本ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法（スケーリング、スパースな期待値情報の管理）もいれているので、そこそこ高速に動きます速度的には100万語、隠れ状
basi 2009/05/25
api

algorithm

自然言語処理

アルゴリズム

推薦

情報検索

機械学習
リンク
出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog
この前の続き。先週の週末にやるつもりだったけど、暇がなかった。 MeCabで区切った単語を再びつなげる - yasuhisa's blog 前回の流れとしては専門用語を一つの単語として取ってくるのは難しい MeCabを使うと細かくなりすぎる専門用語には名詞のsequenceが多そうじゃあ、名詞つなげてみればいいんじゃね? ということで名詞を繋げてみるだけというところをやりました(それだけ。。。)。id:niamさんがコメントしてくださったように"出現頻度と連接頻度に基づく専門用語抽出",自然言語処理, 2003を使うと専門用語らしさ(?)のようなスコア付けができるようなので、それをやってみることにしました。とりあえずp6のLR(CN)のところまでを実装。あとはスコア付けの関数を2つくらい用意して、評価指標の関数を用意すれば、という感じです。 # -*- coding: utf-8 -
basi 2009/05/24
algorithm

nlp
リンク
Expired
Expired：掲載期限切れですこの記事は，ダウ・ジョーンズ・ジャパンとの契約の掲載期限（90日間）を過ぎましたので本サーバから削除しました。このページは20秒後にNews トップページに自動的に切り替わります。
basi 2009/05/23
google

仕事

労働

読み物

経営

algorithm
リンク
データベースの動的デフラグ - mixi engineer blog
ノートPCの冷却ファンがうるさいのを対処しようとしてWebで調べたら、そのファンの設計者が「静音性へのこだわり」を語ったページにたどり着いて複雑な心境のmikioです。今回は、Tokyo Cabinet（TC）の最新バージョンで実装された動的デフラグ機能について長々と説明します。断片化とデフラグ任意のサイズのデータを管理する記憶装置においては、利用可能領域の断片化（fragmentation）の問題が常につきまといます。ファイルシステム上で任意のサイズのファイルを管理する際にも、データベースファイル内で任意のサイズのレコードを管理する際にも、C言語のmalloc/free関数群でメモリの管理をする際にも、様々なレイヤで断片化が起きうるのです。なぜなら、データを削除もしくは移動した際の空き領域を再利用するにあたって、その領域と同じサイズのデータが常に入ってくるとは限らないからです。特にデ
basi 2009/05/22
mixi

db

programming

tokyotyrant

algorithm
リンク
Canonical Huffman Codes - naoyaのはてなダイアリー
1999年出版と少し古い書籍ですが Managing Gigabytes を読んでいます。理解のために 2.3 で出て来る Canonical Huffman Codes の習作を作りました。ハフマン符号は情報圧縮で利用される古典的なアルゴリズムで、圧縮対象データに出現するシンボルの出現確率が分かっているときに、その各シンボルに最適な符号長の接頭語符号を求めるものです。通常のハフマン符号はポインタで結ばれたハフマン木を構築して、ツリーを辿りながら各シンボルに対する接頭語符号を計算します。このハフマン木には曖昧な箇所が残されています。ハフマン木は木の辺を右に辿るか左に辿るかで符号のビットが決まりますが、右が 0 で左が 1 などというのはどちらでも良いという点です。(曖昧だから駄目、という話ではありません。) 従って、ハフマン木から生成される符号は一意には決まりません。ここで各シンボル
basi 2009/05/11
algorithm
リンク
SQLで木と階層構造のデータを扱う――入れ子集合モデル
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
basi 2009/05/07
アルゴリズム

database

db

mysql

programming

sql

algorithm
リンク
steps to phantasien(2008-08-14) Netflix Prize 外野席
"集合知プログラミング" という本が出たらしい. 私の積読には元本の "Programming Collective Intelligence" があって, 途中まで読んだまま放置していたら日本語訳が出てしまった. (オライリーのアンチパターンと命名.) 悔しいので本は処分. そのうち日本語版で続きを読もう.... 興味を持っていたのは推薦エンジン(協調フィルタ)だった. 私の中では検索エンジンに匹敵するウェブのハイテクという位置付けなんだけど, 草の根には普及しておらず悲しい. 検索エンジンでの Hyper Estraier や senna に相当する協調フィルタの立ち位置はデッドヒートが予想される...とだいぶ前から思ってるんだけど, いまのところ閑古鳥気味. まったく, 出し抜くだけの実力があればなあ. 先の皇帝ペンギン本では, 一章にさっそく協調フィルタが登場する. 読んでみると
basi 2009/05/03
レコメンド

レコメンデーション

機械学習

協調フィルタリング

集合知

algorithm

推薦

研究
リンク
hatena-bookmark-xul/chrome/content/common/05-SuffixArray.js at master · hatena/hatena-bookmark-xul
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
basi 2009/04/20
algorithm

hatena

javascript

search

suffixarray

suffix_array
リンク
クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ
集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ
basi 2009/04/20
algorithm

アルゴリズム

clustering

集合知

資料

programming
リンク
ベイズを学びたい人におすすめのサイト - download_takeshi’s diary
ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ
basi 2009/04/20
bayes

統計

programming

algorithm

ベイズ

研究
リンク
「物理法則を自力で発見」した人工知能 | WIRED VISION
前の記事　「衛星成功に総書記は涙」：北朝鮮の核再開宣言とミサイル輸出「物理法則を自力で発見」した人工知能 2009年4月15日 Brandon Keim Image credit: Science、サイトトップの画像はフーコーの振り子。Wikimedia Commonsより物理学者が何百年もかけて出した答えに、コンピューター・プログラムがたった1日でたどり着いた。揺れる振り子の動きから、運動の法則を導き出したのだ。コーネル大学の研究チームが開発したこのプログラムは、物理学や幾何学の知識を一切使わずに、自然法則を導き出すことに成功した。この研究は、膨大な量のデータを扱う科学界にブレークスルーをもたらすものとして期待が寄せられている。科学は今や、ペタバイト級[1ペタバイトは100万ギガバイト]のデータを扱う時代を迎えている。あまりに膨大で複雑なため、人間の頭脳では解析できないデータセ
basi 2009/04/20
ai

algorithm

研究

科学

技術

人工知能
リンク
教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい
basi 2009/03/30
algorithm

研究

bayes
リンク
レコメンド, LSH, Spectral Hashing - DO++
WEB+DB press vol.49にレコメンド特集の記事をtkngさんと書きました。内容は最初は、協調フィルタリングやコンテンツマッチの簡単な話から、特徴量をどのように表すか、大規模データをどのように処理するかにいき、特異値分解などの低ランク行列分解によるレコメンドやRestricted Boltzmann Machineといった最近のnetflix prizeの上位の手法など、かなり突っ込んだ議論もしてます。個人的には三章でLocality Sensitive Hash(LSH)について扱っているあたりがお勧めです。レコメンドの内部の問題を極言すると、データというのは疎な高次元の数値ベクトル（数百万次元とか）で表され、クエリでベクトルが与えられた時、これと似たようなベクトルを探してこいという問題になります。”似たような”を数学的にいえば、クエリのベクトルとの内積（各ベクトルは長
basi 2009/03/23
アルゴリズム

database

レコメンド

algorithm

recommendation
リンク
【人工知能】物理エンジンで人工生命つくって学習させた
運動学習させました。この仮想生物が試行錯誤をして動き方を学習しました。この動画はマルチエージェント進化シミュレータのanlifeを開発していたときに作りました。2020/10/4 追記この後作ったゾンビを宮崎駿監督にみていただいたところが2016年にNHKで放送され一部話題になりました。2016年超会議での超人工生命の生放送企画を経て、ドワンゴにて新たな人工生命を開発することに→ リリース後半年でサービスクローズ人工生命を作る会社を立ち上げました→ https://attructure.com/
basi 2009/03/19
ニコニコ動画

algorithm

ai

3d
リンク
KENJI
更新履歴 DNS拡張EDNS0の解析 Linuxカーネルをハッキングしてみよう Windowsシステムプログラミング Part 3 64ビット環境でのリバースエンジニアリング Windowsシステムプログラミング Part2 Windowsシステムプログラミング Part1 Contents インフォメーション「TCP/IPの教科書」サポートページ「アセンブリ言語の教科書」サポートページ「ハッカー・プログラミング大全　攻撃編」サポートページブログ（はてな）　BBS　メールこのサイトについてテキスト暗号詳解 RSA暗号化アルゴリズム詳解 DES暗号化アルゴリズム crypt() アルゴリズム解析 MD5 メッセージダイジェストアルゴリズム crypt() アルゴリズム解析（MD5バージョン） TCP/IP IP TCP UDP Header Format（IPv4） Ch
basi 2009/02/27
セキュリティ

algorithm

hack

linux

network

programming
リンク
TListの実装と性能（1/2）－＠IT
第1回 TListの実装と性能はやしつとむアナハイムテクノロジー株式会社 2009/2/12 オブジェクト指向によって、アルゴリズムは隠ぺいされていることが多くなった。しかし、「用意されていない処理」が求められたときに対応できるだろうか（編集部）エンバカデロ・テクノロジーズの製品であるDelphiは、BorlandのTurboPascalを元祖とする製品です。1995年の発売当初から、コンパイル速度の速さとデータベースとの接続性の高さ、またPascalに追加されたオブジェクト指向による生産性の高さからユーザーを獲得してきました。 2008年9月にはDelphi 2009が発売され、内部文字コードがすべてユニコード化されるなどの新フィーチャーによって注目を集めています。ご多分に漏れずDelphiもオブジェクト指向な言語なわけですが、オブジェクト指向の三要素として、継承・隠ぺい・多態が
basi 2009/02/13
algorithm
リンク
マルチコア時代の高並列性IOアーキテクチャ Wavy - Blog by Sadayuki Furuhashi
シングルスレッドではもう遅い。以前にマルチコア時代の高速サーバーの実装で、「ネットワークIOはマルチスレッドで動かすが、その他の部分はシングルスレッドで動かす」というIOアーキテクチャの実装（mp::iothreads）を紹介しました。iothreadsはロジック部分をシングルスレッドで書けるため実装の手間を抑えることができ、ネットワークIOがボトルネックになるプログラムには特に適していると思われます。しかし実際にiothreadsを使ってプログラムを書いてみると、非常に負荷が高い状況でシングルスレッドの部分の処理速度がボトルネックになってしまうことがありました。そこでマルチコアCPUの性能を引き出すために、徹頭徹尾マルチスレッドで動かすIOアーキテクチャを実装してみました。 1つのスレッドが、ある時はepoll_wait()し、ある時はread(2)を行い、ある時はイベントを処理す
basi 2009/02/07
algorithm

高速化

IT

performance
リンク
MySQLに対するDrizzleの答え #1 スレッド管理編 - mixi engineer blog
先日、Drizzleのスレッド管理を担うコアの一部分がモジュール化され、勉強がてらMySQLのスレッド管理の設計を調べてみました。その時のメモ（だから文が少し固いかも）と、Drizzleでの戦略を今回のエントリーで公開します。最後のDrizzleでは？セクションまではプログラミングの教科書に載っている様な典型的なセオリを述べているだけなので、MySQLのインターナルに詳しい方は最後まで飛ばした方が良いかもしれません。ちなみにソースはMySQL 5.1とMySQL 6.0のドキュメントです http://dev.mysql.com/doc/refman/6.0/en/connection-threads.html http://dev.mysql.com/doc/refman/5.1/en/connection-threads.html 現在の仕組みと制限現在のMySQLでは新たなクラ
basi 2009/02/07
db

database

cache

algorithm

mysql

mixi
リンク
DBMによるテーブルデータベースその弐 - mixi engineer blog
インフルエンザで休んだ影響で仕事が鬼のように溜まって消化不良のmikioです（こんな記事を書いている場合じゃない）。さて今回は、Tokyo Cabinetでリレーショナル風データベースを実現したテーブルデータベース（TCTDB）の実装について説明します。 SQLiteとの違いは？ SQLiteはアプリケーション組み込み型のSQL対応リレーショナルデータベースのライブラリです。TCのテーブルデータベースよりもはるかに高機能で、それでいて性能も大変優れています。いわゆるデスクトップアプリケーションに組み込むデータベースをお探しであれば、TCなんかではなく、断然SQLiteがおすすめです。一方で、TCなどのDBMは、より単純なデータ操作をより高速に実行できるように設計および実装されています。典型的なユースケースとして、大規模Webサイトのアカウント管理や、データマイニングに伴う集計操作が挙げら
basi 2009/02/07
algorithm

sqlite

tokyocabinet

db

mixi
リンク
Introduction to Information Retrieval #16 の復習資料 - naoyaのはてなダイアリー
しばらく間が空いてしまいました。Introduction to Information Retrieval 輪読会 16章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_16.ppt 16章のテーマは、"Flat Clustering" で話題はクラス分類からクラスタリングへと移ります。16章ではクラスタとクラスタの間に関係性がないフラットクラスタリングを扱い、続く 17章ではクラスタ間に階層的構造を見出す階層型クラスタリング (Hierachical clustering) を扱います。クラスタリング 13章から15章までは Naive Bayes や SVM などによる "Classification" が話の主題でした。クラスタリングも同様に情報のグルーピングを行うものですが、Classification
basi 2009/01/17
algorithm

clustering

cluster
リンク
前のページ 1 2 3 4 5 6 次のページ