タグ

algorithmに関するincepのブックマーク (17)

  • スパースモデリングはなぜ生まれたか? 代表的なアルゴリズム「LASSO」の登場 - HACARUS INC.

    連載は「これから機械学習に取り組みたい」「ディープラーニングや機械学習を使った経験がある」といったエンジニアに向けて、データ量が少なくても分析が実現できる「スパースモデリング」という手法を紹介します。今回は、スパースモデリングの歴史を紐解きながら、その代表的なアルゴリズムであるLASSOについて解説します。 スパースモデリングの基アイデア オッカムの剃刀 2010年代初頭にバズワードにまでなったビッグデータ。今では当時の過熱ぶりはなくなり、ハードウェアやクラウド環境の充実とともに活用が広がっています。ビッグデータには一つの明確に定まった定義はありませんが、RDBMSでは扱いづらくなるほどの大量データであるという量的側面と、データの出処やその種類が多種多様であるという質的側面などが特徴として挙げられます。ビッグデータが手元にあり、解きたいビジネス課題にそのビッグデータを使うのが適当である

    スパースモデリングはなぜ生まれたか? 代表的なアルゴリズム「LASSO」の登場 - HACARUS INC.
  • Hierarchical Method - an overview | ScienceDirect Topics

  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
  • 将棋ソフトにみるAIのアルゴリズム | SiTest (サイテスト) ブログ

    AIが現在注目され、どんな世界になるか様々な想像や推測が飛び交っています。 将棋の世界では一足先に棋士を負かすような強いAIが登場し、既にある程度共存していると言っても過言ではない状態となっています。 そんな一足先にAIと現実が融合した将棋の世界を紐解きつつ、 人とAIの関わり方を考えていきたいと思います。 そもそも将棋が強いとはどういう事なのでしょう? 駒損しない、囲いや崩し方を知っている、詰将棋が得意、手筋を多く知っている… 様々な勝つ為に欠かせない要素がありそうです。 その中でも、1手の価値を知ることが特に重要です。 序盤は単純な動きしか出来ませんが、駒の交換が発生する中盤以降は好きな場所に自由に駒を打ち込んで相手陣地を脅かす事が出来るので、 終局に向かうにつれて1手の価値が飛躍的に高くなります。 将棋の解説でも「この順に進めば先手になる・手番を取る・0手で角を成る」等の単語が飛び交

    将棋ソフトにみるAIのアルゴリズム | SiTest (サイテスト) ブログ
  • ビタビアルゴリズム - Wikipedia

    ビタビアルゴリズム(英: Viterbi algorithm)は、観測された事象系列を結果として生じる隠された状態の最も尤もらしい並び(ビタビ経路と呼ぶ)を探す動的計画法アルゴリズムの一種であり、特に隠れマルコフモデルに基づいている。観測された事象系列の確率計算のアルゴリズムである 前向きアルゴリズム(英: forward algorithm)も密接に関連している。これらのアルゴリズムは情報理論の一部である。 このアルゴリズムには、いくつかの前提条件がある。まず、観測された事象と隠されている事象は1つの系列上に並んでいる。この系列は多くの場合時系列である。次に、これら2つの並びには一対一の対応があり、1つの観測された事象は正確に1つの隠されている事象に対応している。第三に、時点 での最も尤もらしい隠されている事象の計算は、 での観測された事象と での最も尤もらしい隠された事象の系列のみに依

  • EMD

    The Earth Mover's Distance The Earth Mover's Distance (EMD) is a method to evaluate dissimilarity between two multi-dimensional distributions in some feature space where a distance measure between single features, which we call the ground distance is given. The EMD ``lifts'' this distance from individual features to full distributions. Intuitively, given two distributions, one can be seen as a mas

    incep
    incep 2016/10/30
    確率分布同士の不一致の度合の測定手段.しかし,確率分布以外(例えばベクトル)にも適用可能.
  • Efficient data transfer through zero copy

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Efficient data transfer through zero copy
  • 最近のDoubleArrayの性能 - 射撃しつつ前転 改

    DoubleArrayの性能に関して、最近は少し改善されているかも知れませんとあるので、具体的にどれぐらい改善されているのか、少し書いてみます。もちろん、現実逃避です。 まず、DoubleArrayがなんなのかというところから説明をします。DoubleArrayは、簡単に言うとTrieを実現するためのデータ構造の一種です。日語ではダブル配列と呼ばれているようです。Trieに関しては横着プログラミング 第6回: chatty: 小うるさい端末あたりを読めば良いでしょうか。要するにTreeを表現するためのデータ構造です。使い道はいろいろありますが、辞書的なものに使われることが多いでしょうか。 Trieを単純に実現しようとすると、すごくたくさんメモリを使ってすごく速い実装をするか、速度を多少犠牲にしてメモリ消費量を削減するかの選択を迫られます。多くの場合はメモリを節約しないと使いものにならない

    最近のDoubleArrayの性能 - 射撃しつつ前転 改
  • Home

    Graphillion - 無数のグラフを効率的に扱うための高速・軽量ライブラリ 最新のドキュメントは英語版を参照ください. ニュース 特徴 概要 インストール チュートリアル グラフセットの作成 グラフセットの操作 並列計算 NetworkXとの連携 ライブラリ・リファレンス サンプルコード 今後の予定 参考資料 ニュース Graphillion 1.0 がとうとうリリースされました. Python 3 をサポートしました (Python 2 でも使えます). OpenMP を用いた 並列計算 が可能になりました. より効率的な辺の順序づけが実装されました. 高度な集合演算 (join, meet, quotient など) が追加されました. 2015年4月に,Graphillion のが出版されます. 2015年1-2月に,奈良先端科学技術大学院大学の川原純先生による講義で Gra

    Home
  • LR法 - Wikipedia

    構文解析を開始したとき、常に状態 0 から始まる。スタックは次のようになっている: [0] 構文解析器が最初に見る入力記号は '1' であり、アクション表を参照すると状態 2 への遷移が指示されているので、スタックが次のようになる: [0 '1' 2] スタックのトップは右端である。なお、説明のために状態遷移の原因となった記号(ここでは '1')をその前に記している。もちろん、当のスタックにはこのような記号はプッシュされない。 状態 2 ではアクション表によれば、次の入力記号が何であれ、5 番の文法規則を適用しなければならない。これはつまり、5 番の規則の右辺を認識したことを示す。そこで、出力ストリームに 5 を書き出し、スタックから1個の状態をポップし、GOTO表から(状態 0 で非終端記号 B)状態 4 をスタックにプッシュする。結果としてスタックは次のようになる: [0 B 4]

    LR法 - Wikipedia
  • 転置インデックス - Wikipedia

    転置インデックス(てんちインデックス、Inverted index)とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。 概要[編集] 情報処理テクノロジにおける転置インデックスとは、単語や数字といった内容から、それが含まれているデータベースやドキュメント群へのマッピングを保持するという、インデックス型データ構造である。ドキュメント群へのマッピングの場合、検索エンジンが実現される。転置インデックスファイルは、インデックスというよりはデータベースと呼んだほうがふさわしい場合もある。また、検索キーが単語(文字列)であり、連想配列の値が位置情報である場合、ハッシュテーブルの形態を取ることもある。 転置インデックスには大きく分けて2通りの手法がある。レコード単位転置インデックス(record level inve

  • Document Classification

  • マルコフ連鎖モンテカルロ法 - Wikipedia

    出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2016年3月) マルコフ連鎖モンテカルロ法(マルコフれんさモンテカルロほう、英: Markov chain Monte Carlo methods、通称MCMC)とは、求める確率分布を均衡分布として持つマルコフ連鎖を作成することによって確率分布のサンプリングを行う種々のアルゴリズムの総称である。具体的には、同時事後分布に従う乱数を継時的に生成する。代表的なMCMCとしてメトロポリス・ヘイスティングス法やギブスサンプリングがある。 MCMCで充分に多くの回数の試行を行った後のマルコフ連鎖の状態は求める目標分布の標として用いられる。試行の回数を増やすとともにサンプルの品質も向上する。 求められる特性を持つマルコフ連鎖を作成することは通常難しくない。問題は許容で

  • Binary decision diagram - Wikipedia

    "Branching program" redirects here. For other uses, see NC (complexity) § Barrington's theorem. In computer science, a binary decision diagram (BDD) or branching program is a data structure that is used to represent a Boolean function. On a more abstract level, BDDs can be considered as a compressed representation of sets or relations. Unlike other compressed representations, operations are perfor

  • Algorithm Implementation/Strings/Dice's coefficient - Wikibooks, open books for an open world

  • Naive Bayes spam filtering - Wikipedia

    Naive Bayes classifiers are a popular statistical technique of e-mail filtering. They typically use bag-of-words features to identify email spam, an approach commonly used in text classification. Naive Bayes classifiers work by correlating the use of tokens (typically words, or sometimes other things), with spam and non-spam e-mails and then using Bayes' theorem to calculate a probability that an

    Naive Bayes spam filtering - Wikipedia
  • そろそろChaIMEについて一言いっておくか - 射撃しつつ前転 改

    2月は割とガンガンと開発をしてきたのだが、3月に入ってさすがにエネルギーが切れてきたので、一旦、気分転換にエントリに書いてみることにする。 ChaIMEというのは主に研究目的のかな漢字変換エンジンである。奈良先の小町さん(id:mamoruk)がメインで開発していて、自分もここしばらくはアクティブに開発している。こちらでデモを試すことができる。ChaIMEの特徴はひたすらに統計情報で変換をするところなのだが、今回はそういった話ではなく、もうちょっと一般的なかな漢字変換についての話をダラダラと書いてみようと思う。 デモを見て分かる通り、今までのChaIMEはステートレスで、ひらがな列を入力に対してそれっぽい変換候補を複数出力してさぁ選べ、という形だった。文節境界を変更したり、文節毎に候補を出すことはできない。これは単に実装コストの問題で、研究用途で実験をする際には文節境界を変更してどうたらこ

    そろそろChaIMEについて一言いっておくか - 射撃しつつ前転 改
    incep
    incep 2011/04/22
    Viterbiなど
  • 1