[B! algorithm][Algorithm] [12ページ] crafのブックマーク

「パナマ文書」解析の技術的側面

世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか？私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca

craf 2016/04/11

algorithm

リンク

GoogleがTLSでの採用を提唱している共通鍵暗号方式「ChaCha」についてまとめた - sonickun.log

ChaCha（チャチャ）という一見ふざけた名前の暗号が最近（自分の中で）話題ということで，勉強がてらに記事にしてみました．背景 ChaChaの構造 Salsa20 Chacha 初期状態ラウンド操作 ChaChaの安全性実装してみた参考背景 2016年4月現在，TLSの新しいバージョンとしてTLS 1.3が提案されており，ドラフトが公開されている． draft-ietf-tls-tls13-11 - The Transport Layer Security (TLS) Protocol Version 1.3 TLS 1.2からの大きな変更点として，以下の2つがある．ハンドシェイクの省略によるRTT（Round Trip Time）の削減危殆化した暗号の廃止「危殆化した暗号」とは，Forward SecrecyでないCipher Suite（RSAのみを用いたもの）や，認証

craf 2016/04/04

リンク

ストリーミング検索プラットフォームの構築 | POSTD

7週間の Insightのデータエンジニアリングのための特別研究員プログラムでは、直近の卒業生と経験豊富なソフトウェアエンジニアが、大きなリアルタイムのデータセットを扱うためのデータプラットフォームの構築を通じて最新のオープンソース技術について学びます。Ryan Walker（今はCasetextのデータエンジニア）が自身のストリーミング検索プラットフォームのプロジェクトを考察します。平均すると、世界中のTwitterユーザにより 1秒間に約6,000ツイートされています。明らかに、この膨大かつ騒がしいデータストリームからリアルタイムシグナルを抽出することはとても興味深いことです。より一般的には、リアルタイムイベントをトラックするために高速度のストリーミングテキストソースを用いる際に、数多くの面白い未解決の問題があります。この投稿では、TwitterのFirehoseのようなスト

craf 2016/03/22

algorithm

リンク

Mathの高速化を検証する - Qiita

Mathは本当に遅いのか色の距離（色差）を計算するときにちょっとだけ試してみたので，実際によくある（小手先）高速化手法でMathが速くなるのか検証してみた．検証方法 JavaとAndroidで検証．単純に実行時間をSystem.nanoTimeで取得し，比較している．検証順や検証タイミングで最適化がかかったりするので，何回か実行して落ち着いた値で比較している． Javaの検証はIntel Xeon E5 3.5GHzのMac Pro，Androidの検証はQualcomm Snapdragon 800 MSM8974 2.2GHzのSO-02Fで試している．従来のMathクラスと，実装したDMathクラスで比較した． 10万回実行して1回あたりの実行時間をnano秒で表示している．詳しい方法は一番下を参照．べき乗の高速化べき乗を計算するMath.pow()は小数のべき乗もサポ

craf 2016/03/09

リンク

画像処理の数式を見て石になった時のための、金の針 - Qiita

$k$は定数で、だいたい0.04~0.06くらいです。Rの値によって以下のように分類できます。 Rが大きい: corner Rが小さい: flat R < 0: edge 図にすると、以下のようになります。 CSE/EE486 Computer Vision I, Lecture 06, Corner Detection, p22 これで手早くcornerを検出できるようになりました。ここで、corner検出についてまとめておきます。 cornerは複数のedgeが集まる箇所と定義できる変化量をまとめた行列の固有ベクトルからedgeの向き、固有値の大きさから変化量の大きさ(edgeらしさ)がわかる 2つの固有値の値を基に、edge、corner、flatを判定できる固有値の計算は手間であるため、判定式を利用し計算を簡略化するなお、Harrisはedgeの向きである固有ベクトルを考慮す

craf 2016/02/28

algorithm

リンク

PHP の壊れた mt_rand の品質を統計的に検証した - iwiwiの日記

メルセンヌ・ツイスターと似て非なるアルゴリズムが実装されていたことが発覚して話題の PHP の mt_rand 関数の品質を統計的に検証しました．果たして，PHP の「壊れた」mt_rand は安心して使うことができるのでしょうか……？ちなみに，結論から言うと，PHP の壊れた mt_rand は，（少なくともこのテストの範囲では）本家メルセンヌ・ツイスターと遜色ない品質を持っているようです．ただし，最後に PHP の乱数の別の懸念点についても紹介します．壊れた mt_rand とは PHP の mt_rand は，ドキュメントによると，有名な乱数生成アルゴリズム「メルセンヌ・ツイスター」を利用して高品質の乱数を生成する関数です．ところが，どうやら一部では知られていたこととして，PHP の mt_rand の実装にはバグがあり，本家メルセンヌ・ツイスターと挙動が一致していませんでした．

craf 2016/02/23

algorithm

リンク

分散プログラミングモデルおよびデザインパターンの考察その1 - Software Transactional Memo

Yahooの技術者が書いたブログ tech blog.yahoo.co.jp が悪い方向に期待を裏切ってくれたのに対し、 @kuenishi さんがまとまった文章 kuenishi.hatenadiary.jp を書いていたので、僕も2番煎じぐらいでまとまった文章を書く。始めに断っておくと、分散システムというのはまだまだ事例を集めていくフェーズを抜けきっておらず、体系立った大統一理論的な分類法は確立していない。ここに書くのは、これまでの分散システム事例やこれからの分散システム事例を分類していく際にその性質をカテゴライズする一助となれば良いな、程度の文章なのであまり真に受けないで欲しい。なぜYahooの記事が期待はずれなのか人によって意見はあるとは思うが、個人的に感じたのは以下の３つ。分散システムのデザインパターンと銘打っておきながら並列・並行システムの分野の話からクラウド環境へとこじ

craf 2016/02/22

リンク

分散プログラミングモデルおよびデザインパターンの考察

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 写真：アフロデータ＆サイエンスソリューション統括本部、データインフラ本部、今野です。早速ですが、今月開催の「Developers Summit 2016 （以下、デブサミ2016）」で当方が登壇する運びとなりました。気がつけば、前回の記事「分散システム処理モデルに関する動向について」から随分と日がたってしまいましたので、今回は、より広範囲な内容を整理してみたいと思います。デブサミ2016の当方の講演テーマは「温故知新」です。今回は、このテーマにもつながる話題として、クラウド環境の代表的な分散プログラミングモデルやデザインパターンについて、一般的な考察をしてみたいと思います。古典的なプログラミングモデルによる分類まず最初に

craf 2016/02/17

リンク

マリオメーカー学会の研究成果サーベイ【電子計算機部門】

HOME / 未分類 / マリオメーカー学会の研究成果サーベイ【電子計算機部門】マリオメーカー学会の研究成果サーベイ【電子計算機部門】 2015-11-26 13:54 by とびぎつね Comment : 0 本投稿は、日進月歩の進化を続けてきたマリオメーカー計算機の主要な発展を辿り、その全体像を把握することを目的としたサーベイです。マリオメーカー計算機とは、任天堂より発売された「スーパーマリオメーカー」のコースエディット機能を用いて、足し算を始めとする主要な演算を自動で行うコースのことを指します。これらの動画の正確な理解には、どうしてもある程度の予備知識が必要となるでしょう。もちろん、それらが無くてもある程度は把握できるように努めますが、より深い理解を求める方は、最低でも二進数と論理回路の知識を必要とします。なぜなら、通常のコンピュータと同様に、マリオメーカー計算機でも０と１

craf 2016/02/16

algorithm

リンク

Implementing a bit reader/writer in C.

craf 2016/01/15

algorithm
C

リンク

軽量なTime-based ID生成器”shakeflake(仮称)”について - SmartNews Engineering Blog

大平です。今回はさだまさしネタは特に無しです。先日、サービスのクローラーで使用しているID生成器について置き換えを行いました。非常に地味な話になりますが、本記事ではその辺の内幕の話をしたいと思います。 ID生成にまつわる苦悩弊社ゴクロの提供しているSmartNewsは表向きはニュースアプリですが、裏側の仕組みは検索エンジンに近似しています。ユーザーの方々の興味関心や、アクセス傾向をクエリーとし、その内容に応じた話題のニュースを検索結果として返却する、という風に捉えていただくと、なんとなく私が言わんとしている事を想像していただけるかと思います。 SmartNewsはTwitterのつぶやき情報を用いたトレンド分析をベースとしており、話題になっているニュースを選定するためには、大量のTwitter上のtweet、ならびにその中に含まれているURLに対してクロールを行う必要があります。日々配

craf 2016/01/14

algorithm

リンク

Google Chromeが採用した、擬似乱数生成アルゴリズム「xorshift」の数理

2015年12月17日、Google Chrome の JavaScript エンジン（処理系）である V8 の公式ブログにて、 JavaScript の標準的な乱数生成APIである Math.random() の背後で使われているアルゴリズムの変更がアナウンスされました。 Math.random() 関数は JavaScript を利用する際には比較的よく使われる関数ですので、親しみのある方も多いのではないかと思います。新たなバグの発見や、従来より優秀なアルゴリズムの発見によってアルゴリズムが変更されること自体はそれほど珍しくはないものの、技術的には枯れていると思われる Math.random() のような基本的な処理の背後のアルゴリズムが変更されたことに驚きを感じる方も少なくないかと思いますが、それ以上に注目すべきはその変更後のアルゴリズムです。実際に採用されたアルゴリズムの原

craf 2016/01/07

リンク

はてなブックマークにおけるアクセス制御 - 半環構造に基づくモデル化

はてなブックマークの持つデータには多岐にわたるアクセス制御のための属性があり、一貫した権限確認のしくみが必要となる。できる限り効率的にデータを取得するにはクエリ段階でアクセス制御に基づくフィルタリングが必要となるが、たとえばMySQLで取得した場合とElasticsearchで取得した場合など、複数パスでの整合性も求められる。本発表では、半環構造を用いることで整合性を担保するしくみと、一貫性を保つためのScalaでの実装上の工夫を紹介する。 WebDB Forum 2015 C-4: 技術報告セッション http://db-event.jpn.org/webdbf2015/

craf 2015/12/11

algorithm

リンク

ディープラーニングでおそ松さんの六つ子は見分けられるのか〜実施編〜 - bohemia日記

前回、おそ松さんたちをディープラーニングで見分けるため、準備編としておそ松さんたちの顔画像を5644枚集めました。今回はそれを用いて、ディープラーニングで学習させ、判別器を作って検証します。集めた画像人物枚数例おそ松 1126 から松 769 チョロ松 1047 一松 736 十四松 855 とど松 729 その他 383 使用フレームワーク最近GoogleからTensorFlowという新しいディープラーニングのフレームワークが発表されました。会社のブログに使い方書いたのですが、まだ慣れていないので、今回はchainerを使います。こちらだとすぐに高い成果を上げているImageNetのNINモデル、４層畳み込みニューラルネットワークがサンプルで入っていますので、こちらを改良して使います。 imageNetの使い方は、こちらやこちらを参考にしています。訓練データセット Im

craf 2015/11/24

algorithm

リンク

圧縮プログラムによる著者推定技術のニンジャスレイヤーへの応用

Every IR presents unique challenges. But - when an attacker uses PowerShell, WMI, Kerberos attacks, novel persistence mechanisms, seemingly unlimited C2 infrastructure and half-a-dozen rapidly-evolving malware families across a 100k node network to compromise the environment at a rate of 10 systems per day - the cumulative challenges can become overwhelming. This talk will showcase the obstacles o

craf 2015/11/24

algorithm

リンク

インターネット用の新しい圧縮アルゴリズム、Brotli のご紹介

.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads

craf 2015/11/24

algorithm

リンク

Google製の新しい圧縮アルゴリズム Brotli を軽く使ってみた - Qiita

Help us understand the probl em. What is going on with this article?

craf 2015/11/24

algorithm

リンク

遺伝的アルゴリズムで遅い正規表現を検出する - にょきにょきブログ

ある正規表現に様々な文字列を食わせてマッチするかどうか判定することは大変頻出するコードです。稀に、食わせる文字列のパターンによっては正規表現のマッチに猛烈に時間を消費する場合があります。僕も少し前に遭遇し、下記に公開しています。 developer.cybozu.co.jp この時は、(\\w|_){1,64}@ という正規表現があって、____________________ のようにアンダースコアを複数含む文字列のマッチに大変時間がかかるという問題でした。この、「対象文字列によってはマッチに時間がかかることがある問題」を、遺伝的アルゴリズムを用いて解決できないかチャレンジしてみましょう。考え方としては、ランダムな文字列を 10000 個ほど生成し、それぞれ正規表現にマッチするか判定させ、時間がかかった順にソートし、上位を交配させて世代を繰り返せば、遅い文字列が抽出でき

craf 2015/10/21

algorithm

リンク

機械学習プラットフォーム Azure Machine Learning を使ってみた – プログラミング生放送

Microsoft Azure ML (Machine Learning) にふれてみた話です。機械学習の知識はないですが、簡単に使えて、すぐに Web サービスなどに使えそうだったので、トライしてみました。そもそも、どんなことができるかは、提供されているサンプル一覧を見るとなんとなくわかります。 Microsoft Azure Machine Learning Gallery 映画のリコメンド、Wiki の説明文から似ている会社を探す、手書き文字の認識（予測）、自動車の価格予測など、いろいろあります。私が今、Azure ML とあわせて使ってみたいデータはツイートデータですが、ここでは、Azure ML のサンプルを元に紹介します。 Azure ML ワークスペースの作成と ML Studio はじめに、manage.windowsazure.com でワークスペースを作成します

craf 2015/03/20

リンク

JavaのTimSortがバグってる件について | さにあらず

Python で実装され、その後 Java にも移植されたソートアルゴリズムである TimSort が盛大にバグっていることが発見されました。このバグがどのようにして発生するのかについては、以下のドキュメントを精査して下さい。 TimSort fails with ArrayIndexOutOfBoundsException on worst case long arrays OpenJDK’s java.utils.Collection.sort() is broken: The good, the bad and the worst case どんなことが起こるのか通常の利用では想定しえない場所でArrayIndexOutOfBoundsExceptionが発生します。例えば、以下のようなスタックトレースになります。 Exception in thread "main" jav

craf 2015/03/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (73)

algorithmとAlgorithmに関するcrafのブックマーク (346)

お知らせ

今週のはてなブックマーク数ランキング（2025年10月第3週）

今週のはてなブックマーク数ランキング（2025年10月第2週）

今週のはてなブックマーク数ランキング（2025年10月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス