gandenのブックマーク - はてなブックマーク

ganden id:ganden

ブックマーク / codezine.jp (8)

国内外のトップランカーが語るデータマイニングコンペの勝ち方～PyData.Tokyo Meetup #6、7イベントレポート
こんにちは、PyData.Tokyoオーガナイザーのシバタです。ボストンに向かう飛行機の中でこの記事を書き始めました。私事ですが、昨年12月よりDataRobot,Inc（下記「データロボット社」）という会社で働き始めました。今回は昨年10月に行われたPyData.Tokyo Meetup #6と今年2月に行われたPyData.Tokyo Meetup #7でのデータマイニングコンペをテーマに行った勉強会の様子をお伝えしたいと思っています。実はデータロボット社は多数のコンペ入賞者が働いていることで知られており、2つの勉強会に非常に関連の深い会社です。 DataRobot,Inc PyData.Tokyo Meetup #6 PyData.Tokyo Meetup #7 PyDataではこれまで機械学習や深層学習などデータ分析関連技術をテーマ別に扱ってきましたが、今回のテーマは、技術というよ
ganden 2016/04/13
kddcup

kaggle

machine_learning
リンク
フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析するアクセスログなどの大量の非構造化データを分析する大量のデータに対し、リコメンドに利用するための高度な分析処理を行う大量のデータを全文検索できるようにするこれらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、（検証環境としては）意外と高額な費用がかかってしまい、永続化
ganden 2015/04/24
リンク
IBM版Hadoopでクラスターを簡単セットアップ
はじめに IBM版Apache Hadoop（英語名：IBM Distribution of Apache Hadoop / 通称：IDAHO）とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。本記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複
ganden 2010/10/15
hadoop

ibm
リンク
Javaで軽快に使える「軽量フレームワーク」特集　～小さなライブラリ1つで動くStripes Framework（1）
はじめにこの連載も、回を追うに従い取り上げるフレームワークも大掛かりなものとなり、「どこが軽量だ？」とお叱りを頂戴することも多くなってしまいました。しかし今回は久々に、自信を持って「軽量です！」とオススメできるものです。「Stripes Framework」（以下、Stripes）は、Tim Fennellが中心となり開発が行われているフレームワークです。昨今のJavaフレームワークというと、圧縮ファイルを展開すると無数のライブラリファイルが並び「これ、全部入れないといけないのか？」とげんなりしてしまうことが多くなってしまいました。しかしこのStripesは、たった1つのJarだけで構成されている、非常に小型軽量なフレームワークです。あまり知られていないようですが、実は1.0がリリースされたのは5年以上も前という、意外と歴史のあるフレームワークなのです。対象読者 Javaで手ごろなフ
ganden 2010/07/05
Stripes

java

framework
リンク
Javaの限界を超えて実用化を目指す　新開発言語「Scala」のメリットとは～前編
Scalaとは Scalaは、2003年にJavac（コンパイラ）やJavaのGenericsの設計／開発貢献者であるMartin Odersky氏（スイス・ローザンヌ工科大学教授）によって、開発が開始された比較的新しいプログラミング言語です。Javaは実用言語として幅広いシステムで使用されてきましたが、下位互換性を保つという要請の中、言語としての機能強化がなかなか進まないといった限界も見えてきています。そのような現状もあることから、ScalaはJavaの後継として実用的な言語を目指して開発されています。 Scala最大の特徴は、Javaの良さを最大限継承しつつ、スクリプト言語や関数型言語の良いところも吸収し、先進的な機能／文法を取り入れている点です。また、今後のハードウェアのマルチコア化を見据え、簡易に並列処理プログラミングを行うことができるライブラリが付属しています。 Scalaのメリ
ganden 2009/11/06
scala

programming
リンク
「膨大なデータを分析して見えてくること」ニコニコ動画データ分析研究発表会
日本最大の動画投稿サービス「ニコニコ動画」は、動画上を流れるコメントや、自由に編集できるタグ機能といった特徴を持ち、単なる動画共有サービスにとどまらず、コミュニティサイトとしての側面も持つ。多くの人がアクセスする中で「アイドルマスター」「初音ミク（VOCALOID）」「東方プロジェクト」など、いろいろなムーブメントが生まれてきた。今も毎日多くの動画が投稿されており、各動画は「再生数」「コメント数」「マイリスト数」などの情報がわかるようになっている。すでに投稿動画数は200万本を超えるが、これら膨大なデータを分析することで、どんな現象やコミュニケーションが起きているのかを明らかにしようとするのが今回の発表会の目的である。分析する際の2つの障壁独自にデータ収集が必要であることしかし、そもそもニコニコ動画自体はデータを分析しやすいように広く提供しているわけではない。1つ1つの動画の再生数
ganden 2009/01/27
niconico

analytics

network

visualization

research

community
リンク
[PHPプロ!] MySQLのクエリを最適化する10のTips：CodeZine
ganden 2008/05/04
php

mysql

optimization
リンク
物理エンジンを使ってDirect3Dアプリケーションをつくる：CodeZine
はじめに　PCのスペックの向上によって3Dゲームでは力学（衝突処理やアニメーションで利用します）や流体（水などの液体の表現に利用します）などの物理を使った演出がよく使われるようになってきました。物理をゲームを取り入れる際に、力学や流体のモデルを元に3Dのオブジェクトの制御用のプログラムを組み込むわけですが、ゲームでは物理の処理だけにCPUなどの計算リソースを取られるわけにはいかないので、品質とパフォーマンスのバランスをとるのはなかなか手間がかかる仕事です。そこで、そうした処理を楽にしてくれるライブラリが物理エンジンになります。　物理エンジンには、今回の記事で紹介するAGEIA社のPhysXの他にオープンソースのOpen Dynamics Engine（ODE）やHavokと言ったものがあります。AGEIA PhysXが他の物理エンジンと違って特徴的なのは、PhysXハードウェアという専用の
ganden 2007/06/01
directx

3D

physx
リンク
1