[B! algorithm] wasamin0130のブックマーク

SymSpell対BK木：100倍速い文字列のあいまい検索とスペルチェック | POSTD

注釈：500,000単語収録の辞書内における1,000単語の検索時間 X:最大編集距離 Y:検索時間/ms 従来、スペル修正や文字列のあいまい検索には、 BK木が適していると言われてきました。しかし、これは本当でしょうか。また、スペル修正に関する私のブログに寄せられたコメントには、BK木が、あいまい検索のためのデータ構造として優れていると言及されていました。そのような経緯から、今回、BK木と他の選択肢のベンチマークを取って比較してみようと思い立ったわけです。近似文字列検索アルゴリズム近似文字列検索では、文字列リスト内の文字列を検索し、特定の文字列メトリックに従って、それに近い文字列を返します。文字列メトリックは多数あり、例えばレーベンシュタイン距離、 Damerau-Levenshtein距離、ハミング距離、ジャロ・ウィンクラー距離、 Strike a m

wasamin0130 2017/10/03

algorithm

リンク

文字列アルゴリズムの学びかた - Hatena Developer Blog

こんにちは！はてなアプリケーションエンジニアの id:takuya-a です。みなさんは、このような疑問をもったことはありませんか？ grep はどのように文字列を検索しているのか？ MeCab はどうやって辞書を高速にルックアップしているのか？パーサやコンパイラを作りたいけど、何から始めればいいのか？本稿では、「文字列アルゴリズムとはどんなものなのか？」「なぜ重要なのか？」「何を知っておくべきか？」「どうやって勉強すればいいのか？」といった疑問にお答えしていこうと思います。文字列アルゴリズムの意外な応用や、モチベーションを保ちやすい勉強のしかた、文字列アルゴリズムを勉強するために行った社内での取り組み、実装するときのコツといったトピックについても触れています。このエントリは、はてなエンジニアアドベントカレンダー2016の22日目の記事です。昨日は id:syou6162 さんに

wasamin0130 2017/02/05

algorithm

リンク

初心者でもOK！レベル別・アルゴリズムをすぐに学べる書籍とサイト12選 - paiza times

Photo by Tim Samoff 秋山です。皆さんはアルゴリズムについてどれくらい知っていますか？というか勉強したことありますか？私はもともと情報系だったので学校でも習いましたが、paizaのプログラミングスキルチェック問題を作るときなどはいまだにいろいろ調べることもあります。アルゴリズムについて勉強したことがない人の中には「ずっと気になってはいるものの、各プログラミング言語の書き方やフレームワークの使い方などを学ぶことに手一杯で、アルゴリズムはつい後回しになっている…」という方も多いと思います。ただ、アルゴリズムを知らないままプログラミングを続けていると、少し複雑な処理を考えなければならなくなったときなどに、力技のやり方しか考えつかなくて「すごい人だったらもっとスマートな書き方ができるんだろうな……」と悶々としてしまうことがあるはずです。今回はそんな方に向けて、アルゴリズ

wasamin0130 2017/01/25

algorithm

リンク

H.264の秘密 | POSTD

(編注：2020/08/18、いただいたフィードバックをもとに記事を修正いたしました。) (2016/12/11、いただきましたフィードバックをもとに翻訳を修正いたしました。) H.264は、動画圧縮コーデックの標準規格です。ネット上の動画、Blu-ray、スマホ、セキュリティカメラ、ドローンなどなど、今やあらゆるところでH.264が使われています。 H.264は注目すべき技術のひとつです。たったひとつの目標、つまりフルモーションビデオの送信に要するネットワーク帯域を削減することを目指した30年以上の努力の結晶なのです。技術的な面でも、H.264はとても興味深い規格です。この記事では、その一部について概要レベルでの知識を得られることでしょう。あまり複雑だと感じさせないようにするつもりです。今回おはなしする概念の多くは動画圧縮全般にあてはまるものであり、H.264に限ったものではありません

wasamin0130 2016/12/05

algorithm

リンク

C++/Rubyで基数木をつかって高速なHTTPルーティングを実現する - Qiita

はじめに数年にわたり、PadrinoやGrapeといったWebアプリケーションフレームワークのルーティングを改善してきた自分が、今年の11月頃から、従来とは異なるアプローチでHTTPルーティングの高速化について検証したので、その結果について解説する。なおこの記事では、その過程でC++で基数木を実装し、それを用いることにより、Rubyで高速なHTTPルーティングを実現した事例について、順を追って解説する。 tl;dr C++で基数木(Radix Tree)を表現するr2reeというライブラリを書いた。 r2reeのRuby向けバインディングであるr2ree-rubyを書いた。 r2ree-rubyを用いてRuby上でHTTPルーティングを行う pendragon-radixを書いた。多分、Rack準拠のルーティングライブラリでは最速。結果、Sinatraなどで用いられる正規表現+線形

wasamin0130 2016/12/05

algorithm

リンク

Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog

この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook この章では機械学習について、Webサービスの開発で必要とされる知識を中心に、とくに自然言語処理にフォーカスしながら解説します。 Webサービス開発と機械学習実現困難な機能の例闇雲な実装もう少しましな実装機械学習によるパラメータ決定分類問題のための機械学習手法パーセプトロン判別アルゴリズム学習アルゴリズム特徴量のとり方形態素解析量をともなう特徴組み合わせ特徴量モデル機械学習の種類教師あり学習分類 (質的変数の予測) 回帰 (量的変数の予測) 教師あり学習でのデータセット教師なし学習クラスタリング次元削減(次元圧縮) 頻出パターンマイニング異常値検出アルゴリズムの評価訓練データとテストデータ学

wasamin0130 2016/10/07

リンク

Word2Vec：発明した本人も驚く単語ベクトルの驚異的な力

Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野レコメンド機械翻訳 Q&A・チャットボット感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ参考世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。もしそん

wasamin0130 2016/09/03

algorithm

リンク

機械学習のためのPython入門クラスとメソッド編 - Beginning AI

機械学習にどのようなPythonの知識が必要かは、Python 機械学習プログラミングの監訳者福島真太朗（ふくしましんたろう）さんが以下のように述べられています。 Pythonの文法については、リスト、タプル、ディクショナリなどの基本的なデータ構造、forループ、print関数、zip関数、enumerate関数、関数やクラスの作成方法などが理解できていれば十分です。 thinkit.co.jp そこで今回はPythonで書かれた機械学習のコードを読めるように、リスト、タプル、ディクショナリなどの基本的なデータ構造、forループ、print関数、zip関数、enumerate関数、関数やクラスの作成方法について学んでいきます。従ってこの記事は、Pythonを一度もやったことがなく、機械学習のためにPythonを学びたいという人向けです。今回読み解くPythonコードについて今回は題

wasamin0130 2016/09/02

リンク

読んで良かった基礎知識の入門書 - Qiita

Help us understand the probl em. What is going on with this article?

wasamin0130 2016/03/22

リンク

ナップサック問題でマラソンマッチ入門 - notブログ

マラソンマッチって？競技プログラミングのうち、「より良い解を求める」ことを競うコンテストをマラソン形式と呼びます。例えば厳密解を求めることができない問題について、近似解のスコアを競ったりします。マラソンでよく使われるアルゴリズムマラソンで頻出なのは「ビームサーチ」と「焼きなまし法」です。この記事ではナップサック問題を例にしてこの２つのアルゴリズムを解説します。もちろん、この２つのアルゴリズムはどちらも近似アルゴリズムなので最適解は求められません。ビームサーチまずは順番にナップサックに入るだけ入れるコードを書いてみます。 #include <iostream> using namespace std; int main() { // 個数 const int N = 100000; // ナップサックの大きさ const int W = 100000; // 重さ・価値 in

wasamin0130 2016/03/20

algorithm

リンク

「遺伝的アルゴリズム」がどのような仕組みなのかが2分でわかるムービー

by fdecomite 複数の個体の中から、適応度の高い個体を優先的に選んで組み換え・突然変異などを繰り返し、解を探索していく「遺伝的アルゴリズム」がどういう仕組みなのか、2分で説明したムービーがYouTubeで公開されています。 Two Minute Papers - How Do Genetic Algorithms Work? - YouTube これは、物事を2分間で説明する「Two MinutePapers」というYouTubeのムービーシリーズの1本で、Károly Zsolnai-Fehérさんが作ったもの。ムービーの中でわかりやすい事例としてあげられているのは、「できるだけ既定のコースを進める車を自動で生み出す」という目的を遺伝的アルゴリズムでやってみるというBoxCar2D。三角形といくつかのタイヤをつけた「車」をコンピューターが生成、できるだけ先へ進むことを目指し

wasamin0130 2016/02/10

algorithm

リンク

計算グラフの微積分：バックプロパゲーションを理解する | POSTD

はじめにバックプロパゲーションとは、ディープモデルの学習を計算可能にしてくれる重要なアルゴリズムです。最近のニューラルネットワークではバックプロパゲーション (誤差逆伝播法) を使うことで、最急降下法による学習が愚直な実装と比べて1000万倍速くなります。例えば，バックプロパゲーションでの学習に1週間しかかからないのに対して、愚直な実装では20万年かかる計算になります。ディープラーニングでの使用以外にも、バックプロパゲーションはさまざまな分野で使えるとても便利な計算ツールです。それぞれで呼ばれる名称は違うのですが、天気予報から、数値的安定性を分析する時にまで多岐にわたり使用できます。実際に、このアルゴリズムは、いろいろな分野で少なくとも20回は再開発されています（参照： Griewank（2010））。一般的な用途自体の名前は”リバースモード微分”といいます。基本的に、この技術は

wasamin0130 2016/02/04

リンク

グラフ探索アルゴリズムのカレンダー | Advent Calendar 2015 - Qiita

グラフ探索アルゴリズムの論文紹介/手法紹介を書きます。ここの内容を書ける人間は(うちの研究室以外)日本にそういないはず、といって煽る。投稿する内容は optimized primarily for pedagogical reasons and may change without notice. Expect frequent rewriting and random updates. Comments and suggestions are welcome! Contributers may gain a piece of caramel. これがDLの次にあるもうひとつの人工知能だ

wasamin0130 2015/12/06

algorithm

リンク

ITエンジニアなら知っておきたい、今更聞けないアルゴリズムの種類一覧 - paiza times

Photo by Oferico 皆さんはアルゴリズムやデータ構造について勉強したことはありますか？そして、基本的なアルゴリズムについて、どのようなものがあって、どのようなときに使うとよいかといったことを説明することができますか？仕事をしていると、プログラミング言語等の勉強や業務に忙しくて、正直アルゴリズムどころではないという場合がほとんどでしょう。しかし、いつか勉強しようと思っていたけど、基本的なアルゴリズムにどんなものがあるのかなんて今更聞けないな……ということもあるかと思います。今回はそんな方に向けて、基本的なアルゴリズムの一部の概要に加え、アルゴリズムの勉強に役立つサイト、書籍をご紹介したいと思います。 ■アルゴリズムを学ぶ意味例えば、ソート等については、通常はすでにソート関数があるので、自分で作らなくても済む＝アルゴリズムも勉強しなくていいと思ってしまうかもしれません。しか

wasamin0130 2015/10/19

algorithm

リンク

ページ移転のお知らせ

ご指定のホームページは下記のアドレスに移動しました。ブックマークなどの登録変更をお願いします。 http://usapyon.game.coocan.jp/ ※10秒後に自動的に移転先のページにジャンプします。

wasamin0130 2015/10/18

リンク

手続き型のダンジョン生成アルゴリズム | プログラミング | POSTD

この投稿では、以前に TinyKeepDev がこちらで述べたランダムなダンジョンを生成する技法について説明しようと思います。元の投稿に比べて、もう少し具体的に話を進めるつもりです。まずは、以下に示したアルゴリズムの一般的な動作をご覧ください。部屋の生成はじめに、幅と高さを持つ部屋を円の中にランダムに配置しましょう。TKdevのアルゴリズムは、各部屋のサイズを生成するのに正規分布を用いています。これは一般的にとてもいいアイデアです。なぜかと言うと、これによってより多くのパラメータを扱うことができるようになるからです。幅/高さの平均と標準偏差間の異なる比率を選ぶと、通常は見た目の違うダンジョンとなります。ここで実行すべき関数は getRandomPointInCircle です。 function getRandomPointInCircle(radius) local t = 2

wasamin0130 2015/10/08

リンク

ハクビシンにもわかる全文検索 - Qiita

高速な全文検索アルゴリズムであるFM-indexについて解説する。理解しがたい点や間違っている点があれば是非コメントで指摘してほしい。概要 FM-indexはリニアな文字列に対して検索をするアルゴリズムで、主に簡潔データ構造とBWT(およびLF mapping)という二つのアイデアから成り立っている。BWTはBurrows-Wheeler変換のことで、文字列を特殊な並び順に変換するという可逆関数である。BWTされた文字列を簡潔データ構造固有の操作をすることで、クエリ文字列の長さに比例した短い時間で文字列を探し出すのがFM-indexだ。簡潔データ構造簡潔データ構造に関してはFM-indexで必要となる二つの関数だけ説明して、詳細は次の機会に譲るとする。さて、二つの関数はともに文字列のある位置より前の部分に含まれている文字の数を数え上げるというものでrank()とrankLessTha

wasamin0130 2015/07/21

algorithm

リンク

Atomの重要なプリミティブの最適化 | POSTD

これまで数カ月にわたり、私たちはAtomのパフォーマンスの改善に取り組んできました。その結果、最適化するための課題として特に興味深いのがマーカという構造体だと分かりました。マーカはバッファの内容が変更されても、バッファの論理的な領域を追跡することができます。例えば、以下の図で緑色のハイライトがかかった部分のマーカは、文字列を書き換えたとしても同じ領域に残り続けます。マーカは、Atomの機能を幅広くサポートする基本的なプリミティブです。検索および置換を行う場合には、マーカを使うことで検索結果のハイライト表示ができます。スニペットの場合も、文字列を書き換える際にマーカを使い、タブストップで移動する位置を追跡することができます。さらにはスペルチェックの場合でも、マーカを使ってスペルミスのある単語を抽出したり、その単語を書き換える際の再チェックをしたりすることもできます。そもそも

wasamin0130 2015/07/16

algorithm

リンク

トップページ | Programming Place Plus　アルゴリズムとデータ構造編

トップページここは、Programming Place Plus の、アルゴリズムとデータ構造編のトップページです。各種アルゴリズムとデータ構造に関して、詳細な解説や、Ｃ言語を使った具体的な実装例があります（Ｃ言語についての情報は、Ｃ言語編を参照してください）。データ構造整列アルゴリズム探索アルゴリズムその他のアルゴリズム APPENDIX リンク集参考書籍

wasamin0130 2015/06/30

algorithm

リンク

クーポンコードの打ち間違えを防ぐために工夫した話 - クックパッド開発者ブログ

こんにちは。会員事業部ビジネス開発グループの高田です。クックパッドは今年、株主優待制度として、プレミアムサービス一年間無料クーポンを贈呈しました。本エントリではクーポンコードを打ち間違えて、意図せず他の人のクーポンコードを使用するのを防ぐために工夫した話をご紹介します。はじめにクーポンコードは入力のしやすさを優先して数字だけの文字列にしました。はじめは rand 関数を使って生成しようとしていたのですが、数字の打ち間違えや順序間違いで、意図せず誤使用してしまうのを防ぐためにチェックサムを加えるのがいい、と同僚から助言をもらいました。いくつか調べて見たところ、Luhn アルゴリズムが上記を満たしていたので利用することにしました。 Luhn アルゴリズムの利用 Luhn アルゴリズムとは、誤り検出のためのチェックサム符号で、1 桁の間違いや隣接する数字の順序間違いを検出できるという特徴

wasamin0130 2015/06/23

algorithm

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

algorithmに関するwasamin0130のブックマーク (65)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス