タグ

taroleoのブックマーク (4,340)

  • How AlphaGo Works

    The slides go through the implementation details of Google Deepmind's AlphaGo, a computer Go AI that defeated the European champion. The slides are targeted for beginners in the machine learning area. Korean version (한국어 버젼): http://www.slideshare.net/ShaneSeungwhanMoon/ss-59226902

    How AlphaGo Works
    taroleo
    taroleo 2016/03/14
    段位者の棋譜から次の手の確率を学習して幅を狭め、自分自身を対戦させて学習させることで最終勝ち負けに至るまでの演算回数(深さ)を減らす。
  • 就職して9年が過ぎる - 兼雑記

    転職して7年が過ぎたというのを読んで気づいたんだけど、そろそろ入社後9年が経過したらしい。僕は結構長い期間をここで過ごしたことになるんだなと思った。ちょっと以前のことを振り返ってみようと思う。言うまでもないけどこれは僕の書ける範囲での個人的な感想と体験談であって会社の見解等を表しているものではない。 きっかけ わりと重要でない Borgチーム (の周辺) いつのまにやらBorgという名前を普通に言って良くなっている。嬉しい。まあ当時もぶっちゃけ、秘密だから出してないっていうよりは、単に誰もアカデミア的なキャリアに興味が無いから出してなかったんだと思う(私見)。 さて、当時Borgというかクラスタマネージメントのあたりでは、コンピュータのリソースて適当にたくさん使ってるけど、これ節約したらすっげー支出減ったりしない?みたいなのがホットで、なんかとりあえず色々な人々が色んなことをやっていた。い

    就職して9年が過ぎる - 兼雑記
    taroleo
    taroleo 2016/03/11
    “細かいのガンガン潰さないと、リソースに限りある中で新しいことできない” 確かに
  • A Critique of ANSI SQL Isolation Levels | the morning paper

    the morning paper a random walk through Computer Science research, by Adrian Colyer Made delightfully fast by strattic A Critique of ANSI SQL Isolation Levels – Berenson et al. 1995 udpate: 2 minor corrections in the section on A5A per the comment from ‘banks’ – thanks! The ANSI SQL isolation levels were originally defined in prose, in terms of three specific anomalies that they were designed to p

    A Critique of ANSI SQL Isolation Levels | the morning paper
    taroleo
    taroleo 2016/02/24
    僕が学生のころにこのまとめがあればもっとすんなりこの論文を読めた気がする
  • ITは必要悪か?その1 - 急がば回れ、選ぶなら近道

    もともとは2016年の年の初めに書こうかと思っていたことですが、時間も経ってしまっていたところ、アリエルの井上さんとの対談  IT屋はバズワードを使ってはいけない……のか? (1/5):EnterpriseZine(エンタープライズジン) も あって、ちょうどいいので記録的に思うところを書いておきます。 ・前提 ここではITと言う漠然とした言い方になっていますが、日で最もマーケットの大きい、いわゆる業務システムを対象にしています。いわゆるSIの対象になるところです。と言っても一概に言えないので、売上2000億円程度の大規模企業の、下の方から、中小企業までの話にしています。売上が兆円単位の規模の社会インフラ系のシステムは、その2 ITは必要悪か?その2 - 急がば回れ、選ぶなら近道 で考えます。業務システムなのでコンシューマーものは考えてません。 ・ITは必要悪という認識 基的にユーザ企

    ITは必要悪か?その1 - 急がば回れ、選ぶなら近道
    taroleo
    taroleo 2016/02/24
    「アプリケーションを知っている」とCS屋さんが想像するより高度な(あるいは目的に特化した)ミドルウェアが必要になってくる。業務システム以外にも、計算機が必須になってきた生物分野でも同様の状況が
  • How Uber Engineering Evaluated JSON Encoding and Compression Algorithms to Put the Squeeze on Trip Data

    For compression, we put three lossless and widely accepted libraries to the test: Snappy zlib Bzip2 (BZ2) Snappy aims to provide high speeds and reasonable compression. BZ2 trades speed for better compression, and zlib falls somewhere between them. Testing Our goal was to find the combination of encoding protocol and compression algorithm with the most compact result at the highest speed. We teste

    How Uber Engineering Evaluated JSON Encoding and Compression Algorithms to Put the Squeeze on Trip Data
    taroleo
    taroleo 2016/02/23
    Among schema less data format, msgpack + zlib is a sole winner in terms of compressed size and encoding/decoding efficiency.
  • All Writs Act - Wikipedia

    The All Writs Act is a United States federal statute, codified at 28 U.S.C. § 1651, which authorizes the United States federal courts to "issue all writs necessary or appropriate in aid of their respective jurisdictions and agreeable to the usages and principles of law." The act in its original form was part of the Judiciary Act of 1789. The current form of the act was first passed in 1911[1] and

    All Writs Act - Wikipedia
    taroleo
    taroleo 2016/02/18
    今話題の
  • バイオインフォマティクスで実験ノートを取ろう

    生物系と違ってドライ系では実験ノート書かない人多いのなんで? ちゃんと書こうよ。費やした時間もトータルではちゃんと戻ってくるから。

    バイオインフォマティクスで実験ノートを取ろう
    taroleo
    taroleo 2016/01/05
    涙が出てきた。後悔する前に便利なツールを活用してノート取るの大事
  • Granularity of Locks and Degree of Consistency in a Shared Data Base – Part I | the morning paper

    the morning paper a random walk through Computer Science research, by Adrian Colyer Made delightfully fast by strattic Granularity of Locks and Degree of Consistency in a Shared Data Base – Gray et al. 1975 This is part 2 of a 7 part series on (database) ‘Techniques Everyone Should Know.’ This is a paper of two halves, connected by the common theme of locking. The first part of the paper examines

    Granularity of Locks and Degree of Consistency in a Shared Data Base – Part I | the morning paper
    taroleo
    taroleo 2016/01/05
    学生の頃、この論文がオンラインで読めなくて、図書館まで探しに行った記憶があります。intentional lockingの元祖
  • RSA(Rack-Scale-Architecture) - 急がば回れ、選ぶなら近道

    一応、Asakusaのアドベントカレンダーのネタです。 いろいろ今後のAsakusaの対応について、現状を踏まえて一回まとめます。 1.ビックデータの敗北 まず、現状のビックデータの現状はちゃんと踏まえておきたい。というのは、いままでの分散処理の技術革新は、クラウド・ビックデータ関連を中心で進んできたわけで、当然次の流れはその「歴史」を考慮しなければ、ビジネス的な先はないでしょう。 まず、経験的には日での「ビックデータ」の実行基盤としての大規模クラスターの展開はほぼ全滅に近いと思います。特に、日ではPByteを越えるデータはその辺に転がっているものではありません。もちろん何百台・何千台ものクラスターを構成・運用しているところもありますが、おそらく十指を越える程度でしょう。日の企業数が5万としても、99.9%の企業はそんなクラスターは持っていません。ただし、企業数が多いので結果としての

    RSA(Rack-Scale-Architecture) - 急がば回れ、選ぶなら近道
  • pyenv の Anaconda/Miniconda 対応について - Qiita

    2015 年は td-client-python のリリースに始まって (正確には 2014 年の Advent Calendar の Python Pandasからトレジャーデータを叩く?)、Treasure Data にとっての Python 元年と呼ぶことのできる年だったと思います。 何か td-client-python について書こうかとも思ったのですが、ソース読めば分かるようなことを書き下してもあまり面白くないので、ソースを読んでもよく分からないと一部で評判の pyenv および pyenv-virtualenv の実装についてこの機会に一部説明しようと思います。ぶっちゃけ Treasure Data とあんまり関係ないけど、td-client-python のテストにも pyenv 使ってるし Advent Caledar に書いても許される... はず。 pyenv とは

    pyenv の Anaconda/Miniconda 対応について - Qiita
    taroleo
    taroleo 2015/12/19
    おお「pyenv で Anaconda を使ううえでの問題点はほぼ解消した」
  • Hivemallで始めるkaggle - Qiita

    記事はTreasure Data Advent Calendar 16日目の記事です。 今年の11月にSoftware EngineerとしてTreasureDataに入社した成田です。 今回は、SQLで簡単にスケーラブルな機械学習ができるHivemallを1からAWSAmazon Elastic MapReduce(EMR)上で動かし、実際に初めてkaggleの問題を解いてみたいと思います。 準備 まず準備として ・kaggleアカウントの作成 ・AWS EMRのインスタンス作成 ・EMR上でのHivemallの用意 を行いました。 1. kaggleの登録 kaggleのアカウントは以下から登録することができます。 https://www.kaggle.com/ 基的に英語ですが、googleアカウントなどで簡単に登録できます。 登録が終わると、このようにいくつかのコンペを見るこ

    Hivemallで始めるkaggle - Qiita
    taroleo
    taroleo 2015/12/16
  • Readings in Database Systems, 5th Edition

    Readings in Database Systems (commonly known as the "Red Book") has offered readers an opinionated take on both classic and cutting-edge research in the field of data management since 1988. Here, we present the Fifth Edition of the Red Book — the first in over ten years.

    taroleo
    taroleo 2015/12/08
  • FluencyというYet another fluent Java loggerを作った話 - komamitsu.log

    この記事は、Fluentd Advent Calendar 2015 - Qiita の七日目の記事です。 先日、komamitsu/fluency · GitHub というFluentd (in_forward) 用のJava loggerを作ってみました。 元々、fluent/fluent-logger-java · GitHub の開発を見ていたのですが、Fluentd MLで色々と要望があって機能を拡張したい欲が高まったものの既存の実装的に面倒臭そうな感じだったので、ついカッとなってゼロから書いてしまいました。 特徴 特徴としては以下のものがあります。 通常 (fluent/fluent-logger-java · GitHub) より三倍速い fluency_benchmark.md · GitHub 参照 (後述するPackedForwardを利用した場合) Fluentdへの

    FluencyというYet another fluent Java loggerを作った話 - komamitsu.log
    taroleo
    taroleo 2015/12/07
    Prestoのモニタリング、ログ記録用に使ってますがしっかり動いてます。
  • Luigi によるワークフロー管理 - Qiita

    Workflow Hacks! #1 が開催されるなど、データ分析のワークフロー管理が見直されつつある今日この頃ですが、Treasure Data 社内ではこれまでのところ Luigi を主なツールとして利用しています。ここでは Luigi を使ったワークフローがどのようなものであるかを紹介します。 (追記: 2016-09-18)その後、社内ワークフローは Digdag(主にSQLのクエリ実行に利用)、及び Airflow(主にスクリプトの実行に利用)へと置き換わり、Luigi を利用することはほぼなくなりました。 ワークフロー管理ツールとは? データ分析における「ワークフロー管理ツール」とは、データ処理の過程で必要となる一連のタスク(データのロードや、クエリの実行など)を自動化し、管理するために設計されたソフトウェアです。例えば、毎日決まったタスクをスケジュール実行したり、問題が起きた

    Luigi によるワークフロー管理 - Qiita
    taroleo
    taroleo 2015/12/07
    これは詳しいな
  • Treasure Data Update 2015 - Presto - Qiita

    Treasure Dataではfluentd, 各種SDK, Data Connectorなどで収集されたデータに対して、Hive, Prestoによる分散SQLクエリが実行できます。特にPrestoはこの1年で大きく進化しましたので、ここでその内容について紹介していきたいと思います。 Prestoクエリの利用量は増え続けていて、2015年12月現在、Treasure Dataの利用統計では、 1日あたり5万クエリ (月換算で150万クエリ) 1日あたり10兆 (10 trillion) レコード を処理しています。2015年の始まりの時点では、1日あたりおよそ5000クエリ、1兆レコードという数字でしたので、この1年でほぼ10倍になった計算になります。昨年末のPrestoサービスの開始にあたり、CTOの太田と相談して10倍スケールできるように準備をしていたのですが、想定していたより早くこ

    Treasure Data Update 2015 - Presto - Qiita
    taroleo
    taroleo 2015/12/04
    2015年のTreasure Data Update、Presto編です。1日当たり50,000クエリ、10兆レコードを処理するまでになりました。
  • [SPARK-9999] Dataset API on top of Catalyst/DataFrame - ASF JIRA

    The RDD API is very flexible, and as a result harder to optimize its execution in some cases. The DataFrame API, on the other hand, is much easier to optimize, but lacks some of the nice perks of the RDD API (e.g. harder to use UDFs, lack of strong types in Scala/Java). The goal of Spark Datasets is to provide an API that allows users to easily express transformations on domain objects, while also

    taroleo
    taroleo 2015/11/26
    面白そう
  • Publishing Scala libraries to Sonatype

    taroleo
    taroleo 2015/11/10
    Detailed instructions on publishing your Scala projects to Maven central. #sbt-sonatype
  • What happened to Scala.React?

    taroleo
    taroleo 2015/11/07
  • Google Research出身でデータマネジメントと人工知能の世界的権威、Alon HalevyがリクルートのAI研究所(RIT:Recruit Institute of Technology)トップに就任。研究本拠点も米国シリコンバレーへ。 | リクルートホールディングス

    株式会社リクルートホールディングス(社:東京都千代田区、代表取締役社長 兼 CEO:峰岸真澄、以下リクルート)の人工知能AI)の研究機関である「Recruit Institute of Technology(以下、RIT)」は、2015年11月4日にグローバル研究開発拠点を米国シリコンバレーに新設いたします。Google Research出身でデータマネジメントと人工知能研究において世界的権威であるAlon Halevy(アロン・ハレヴィ)をトップに起用し、今後、グローバル規模でのAI研究をさらに加速させていく予定です。 1,リクルートのAI研究の目指す世界 リクルートは創業以来、「ひとりひとりのさまざまな生き方・価値観を、尊重しあい実現できる豊かな世の中を目指す」ことを目指し、ライフイベントや日常生活における全ての選択と意思決定の場面において価値のある情報「まだ、ここにない、出会い。

    Google Research出身でデータマネジメントと人工知能の世界的権威、Alon HalevyがリクルートのAI研究所(RIT:Recruit Institute of Technology)トップに就任。研究本拠点も米国シリコンバレーへ。 | リクルートホールディングス
    taroleo
    taroleo 2015/11/05
    おお
  • crosstool-NG

    Crosstool-NG is a versatile (cross) toolchain generator. It supports many architectures and components and has a simple yet powerful menuconfig-style interface. Please read the introduction and refer to the documentation for more information. See what the users of crosstool-NG have to say! Latest sources, bugs, questions? Head over to Crosstool-NG at GitHub! News Sep 24, 2023 Released 1.26.0 Get t

    taroleo
    taroleo 2015/11/04