googleで調べたら、それっぽいものがありました。An Efficient Method for Weighted Sampling without ReplacementC. K. Wong and M. C. Easton中身はまだ未確認です。だって、有料・・・(そのうち独占禁止法が発令されるとは思うのですが、アメリカはせこいのでいつになるのやら・・・) 当初は順序統計量が使えるんじゃないかといろいろ考えてみたりしました。乱数をN個発生させた時の、最大値or最小値の確率分布がかけるので、最大値や最小値だけの乱数が生成できます。乱数をN個出す必用はありません。これで例えば、1000個から400個選びたい時は、1個目が400個乱数を出した時の最小値が、そのサンプルの生成に寄与するかしないかを見て、1つづつ処理していけばいいと思ったのですが、よく考えてみるとダメです。順序統計量の乱数は何か
2011/3/11 (Fri) アルコン2010実施報告書がPRMU研究会3月の予稿集に掲載されました 2010/12/23 (Thu) 評価用動画像を公開しました 2010/9/9 (Thu) アルゴリズムコンテスト表彰式の様子を追加しました 2010/9/1 (Wed) 9月7日にFIT2010にてコンテストの表彰式を行います 2010/7/30 (Fri) 応募の受け付けを終了しました 2010/5/31 (Mon) 応募の受け付けを開始しました 2010/5/20 (Thu) MinGW環境でのコンパイル方法を追加 2010/5/10 (Mon) Cygwin環境でのコンパイル方法を追加 2010/4/27 (Tue) ホームページの公開開始
【課題】可変長nグラムを適切に扱うことができる情報処理装置を提供する。 【解決手段】記号の並びを示す訓練データが記憶される訓練データ記憶部11と、訓練データに含まれる各記号に対応するグラム長を示すグラム長情報と、訓練データに含まれる各記号に対応するグラム長情報の示すグラム長より短いグラム長を有する代理の記号に関する代理情報とが記憶される可変長情報記憶部12と、訓練データとグラム長情報と代理情報とに対応する、訓練データに含まれる記号の接尾辞木を示す接尾辞木情報が記憶される接尾辞木情報記憶部13と、訓練データを用いて、接尾辞木情報を更新しながら各記号のグラム長情報と代理情報とをギブスサンプリングにより算出して可変長情報記憶部12に蓄積する処理を繰り返して実行するギブスサンプリング処理を行うギブスサンプリング部14と、を備える。 【発明の詳細な説明】 【技術分野】 【0001】 本発明は、記号の
On the surface nothing appears more different than soft data and hard raw materials like iron. Then isn’t it ironic, in the Alanis Morissette sense, that in this Age of Information, great wealth still lies hidden deep beneath piles of stuff? It's so strange how directly digging for dollars in data parallels the great wealth producing models of the Industrial Revolution. The piles of stuff is the
別にブログに書いてもしょうがないかなーと思っていたのですが、同じような目に遭う方がいるかもしれないのでちょろっとだけ書いておきます。 先日Stupaという関連文書検索システムを公開したのですが、その中で使用していたBayesian Setsというアルゴリズムが既に特許を取得されているため、公開を停止してほしいってメールが来ました。以前に公開したBayesian SetsのCPANモジュールAlgorithm::BayesianSetsも同様に下ろしてほしいとのことでした。特許の内容は以下のページに書いてあります。 http://www.wipo.int/pctdb/en/wo.jsp?WO=2007063328 特許の出願者がBayesian Setsの論文の著者と大学の機関のようなので、おそらく論文発表の前に出願したのではないかと思います。請求項の内容などをすべて詳細に読んだわけではない
Daichi Mochihashi NTT Communication Science Laboratories $Id: lwlm.html,v 1.1 2010/03/19 10:15:06 daichi Exp $ lwlm is an exact, full Bayesian implementation of the Latent Words Language Model (Deschacht and Moens, 2009). It automatically learns synonymous words to infer context-dependent "latent word" for each word appearance, in a completely unsupervised fashion. Technically, LWLM is a higher-or
SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基本中の基本で,自然言語処理では当たり前のように使われていてもおかしくな
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
gcbook, gcai, GCGCLoverのみなさん、お待たせしました。「ガベージコレクションのアルゴリズムと実装」の情報公開です。 書名:ガベージコレクションのアルゴリズムと実装 著者:中村 成洋/相川 光 監修:竹内 郁雄 ページ数:472ページ 本体価格:3,200円 発売開始日:2010年3月17日(水) ※地域・書店によって遅れることがあります ISBN:978-4-7980-2562-9 C3055 読み所 本書は次の2つのテーマを扱います。 1.GCのアルゴリズム(アルゴリズム編) 2.GCの実装(実装編) アルゴリズム編では、これまでに考案されてきた数多くのGCアルゴリズムの中 から、重要なものを厳選して紹介します。伝統的かつ基本的なものから、やや 高度なアルゴリズムを選定しています。GC独特の考え方や各アルゴリズムの特 性などを理解していただくのがアルゴリズム編の最大
as詳解 ActionScript 3.0アニメーション ―衝突判定・AI・3DからピクセルシェーダまでFlash上級テクニック を読んでいて、経路探索のアルゴリズムで A* が取り上げられていました。A* については、いろいろ検索して調べたりもしたのですが、やっぱり本に書いてあると理解しやすいですね。せっかくなので自分流に実装してビジュアライズしてみました。ダイクストラ法まずは A* の特別なケースでもあるダイクストラ法から見ていきます。クリックすると探索のシミュレーションが開始します。スタート地点(S)からゴール(G)への探索が始まります。色がついたところが「最短経路が決定した場所」です。スタート地点から少しずつ探索が完了していきます。半分ぐらい完了しました。まだまだ進みます。最後まで終わりました。最短経路を黒色矢印で表示しています。ダイクストラ法は、スタート地点から近いノード(=マス
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く