Introducing Apache Arrow: A Fast, Interoperable In-Memory Columnar Data Structure Standard Engineers from across the Apache Hadoop community are collaborating to establish Arrow as a de-facto standard for columnar in-memory processing and interchange. Here’s how it works. Apache Arrow is an in-memory data structure specification for use by engineers building data systems. It has several key benefi
Machine Learning Studio (classic) will be retired by 31 August 2024 – transition to Azure Machine Learning Azure Machine Learning now provides rich, consolidated capabilities for model training and deploying, we'll retire the older Machine Learning Studio (classic) service on 31 August 2024. Please transition to using Azure Machine Learning by that date. From now through 31 August 2024, you can co
年末年始にpythonをいじってみた データ解析の面からRとpythonを比較した記事がいくつかあり、pythonでRの代りになる、という意見もあれば、Rの統計解析にとって代わりきることはないだろう、という意見もあるようだった この記事あたりに肯く人が多いのかと思った その他の参考記事は、こちらやこちら,こちら,こちら,こちら Rを使った6年くらいの経歴と、パイソンをいじった「たったの1週間」の体感で思うのは、 (1) Rの「積極的ユーザ」とパイソンの「積極的ユーザ」は少しタイプが違うので、今後もある程度のすみわけが続きそう、ということ。 (2) 融合領域のデータ解析をするなら、二つのユーザ文化が提供してくれるそれぞれを使うために、両方を使っておくとよいことがありそうだということ。 どういう点でそれを感じたか、というと(あくまでも、勝手な印象ですが…) (1) Rの関数・パッケージの解説文
Cytoscapeとは? Cytoscapeとは、欧米の研究機関によって開発されているオープンソースのネットワーク可視化ソフトウェアプラットフォームです。ネットワーク(数学の用語ではグラフ)可視化ソフトウェアとは、要するにデータを分析して、最終的には以下の様な描画を行うものです。 元となる情報は基本的に何でも良いので、以下の様な分野で利用されています: 遺伝子ネットワーク分析(主な開発目的です) ソーシャルネットワーク分析(日本語でも幾つか著作のあるJames Fowler教授にも協力していただいています) コンピュータ・ネットワークの可視化とセキュリティ分析 オントロジー等、グラフ構造を持つデータの可視化 このソフトウェアはもう10年以上も開発が続いています。私もカリフォルニア大学のチームの一員として、かなり初期から開発に加わっておりますが、私の努力不足もあり、日本語のドキュメントはとて
インストール〜基本操作〜線形回帰まで。 まずはaptでインストール。 sudo aptitude install python2.6-rpy2ubuntu便利。 パッケージのインポート&rに対するインターフェイスオブジェクトを生成。 基本的にこのオブジェクトを介してRを操る。 import rpy2.robjects as robj r = robj.rまずRからπの値を取得してみる。 ()だとRのコードとして評価される。 []だとRのオブジェクトを取得する。 という点に注意。 print(r('pi')) print(r['pi']) は.でもある程度代用できるけど、Rの関数・変数名にはちょいちょい.が入ってくるのでを使っておくのが無難。 上述のように()を使えばRのコードを評価できる。 Rの関数オブジェクトを定義してそれを使って値を計算してみる。 #値を2乗する関数 r('f <- f
私は情報収集にはてなブックマークを多用しており、暇な時は結構な割合ではてなブックマークで記事を探してます。しかし、はてなブックマークは最新の記事を探すのは便利ですが、過去の記事を探すにはいまいち使えません。個人的には多少過去の記事でも自分が興味を持っている分野に関しては、レコメンドして欲しいと感じてます。 ありがたいことにはてなはAPIを公開しており、はてなブックマークの情報を比較的簡単に取得できます。そこでこのAPIを利用して自分に合った記事を見つけるようなレコメンド機能をRとPythonで作成してみたいと思います。 利用するデータは、はてなAPIを使って収集します。具体的には、はてなブックマークフィードを利用して自分のブックマークしているURLを取得し、そのURLをブックマークしているユーザをエントリー情報取得APIを用いて抽出し、そのユーザのブックマークしているURLを収集します。こ
Earth Mover's Distance (EMD) について調べたことを整理しておきます。EMDは、ユークリッド距離のような距離尺度の一つで、二つの分布の間の距離を測ることができます。言語処理ではあまり聞いたことなかったのですが、画像処理や音声処理では比較的有名な距離尺度のようです。 EMDが使える問題設定は下図のようになります。 EMDは特徴量と重みの集合(シグネチャと呼ぶ)で与えられる分布Pと分布Qの間の距離です。ここで、特徴量間では距離 が定義されているのが前提です。特徴量がベクトルのときはユークリッド距離、特徴量が確率分布のときはカルバック・ライブラー距離(情報量)などです。EMDは、特徴量の集合が2つ与えられたときに、1個1個の特徴量間の距離をもとに、特徴量集合間の距離を求められるんですね。これはすごい。 重みは具体的な応用によって使い方が変わりますが、その特徴量の重要度を
gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く