タグ

2015年7月23日のブックマーク (25件)

  • Python:時系列分析(その1) : 分析技術とビジネスインテリジェンス

    Python pandasとstatsmodelsを用いた時系列分析についてまとめる。pandasは欠損値の処理や移動平均の算出に、statsmodelsはARIMAなど時系列解析の実施に用いるとよさそう。以下の内容について順次取り上げていきたい。 ●単純移動平均 ●自己相関関数(ACF:Auto Correlation Function) ●偏自己相関関数(PACF:Partial Auto Correlation Function) ●自己回帰過程:AR(p) ●自己回帰移動平均過程:ARMA(p, q) ●自己回帰和分移動平均過程:ARIMA(p, q, d) ●多変量自己回帰過程:VAR(p) ●状態空間モデル ARIMAまでがひとつの系列のみを対象とした分析。VARはARの多変量版で、ある系列を予測するのに他の系列のデータも活用する。状態空間モデルは、観測方程式と状態方程式(真の

  • Jubatusの特徴抽出モジュール

    海野です。 先日の プラグインの作り方 の続きで、特徴抽出モジュール fv_converter についてチュートリアルを行います。 前回の復習ですが、一般的に機械学習アルゴリズムでは、データはベクトルなどの抽象化されたデータを扱います。 テキストや画像などの生のデータと、こうし...

  • Jubatus 0.4.1 を使ってみる (4) 結構本気でプロダクトを作ろうとして気が付いたこと - (  ´Д`) トンファービ〜ム! ドゴォォォ ∵. ・゜(゜Д)ノ

    機械学習Jubatusを使って1つのプロダクトを作ってる。モックレベルはすぐ完成したので正直に言えばもっと早く完成できるかと思ったけど、実用レベルの精度を達成できなくて、凄く時間が掛かってしまった。というかまだ精度を頑張って上げているところ。 最初はスパッと解ける問題かと思ったら、データがスパース過ぎたのか問題設定が良くなかったのか全然精度が出なかったので、次元圧縮したり、n段で学習するようにしたりと色々やって、それなりの精度が出た。各段ごとに違うタスクを解いていたら、思ったより広範囲の事をやってたみたい。あまりに精度が出ず、各段で考えつく手法を色々試して精度確認もしていたので、思いのほか時間掛かった。そんなこんなである程度の精度は出たんだけど、それでも精度的にまだちょっと足りなくて、特徴量を見直したり、細かい変換を書けたりしている真っ最中だったりする。まあそんなこんなで、結構使ってみて思

  • Apache Spark入門 - omotenashi-mind

    はじめに Apache Sparkは多目的かつ高速なクラウドコンピューティングシステムです。Javaをはじめ、ScalaPythonから利用可能なAPIが提供されています。 また、Apache SparkにストアされたデータはSQLから参照できるようにもなっています。さらに、「MLlib」と呼ばれる機械学習機能、「GraphX」と呼ばれるグラフデータ機能や「Spark Streaming」と呼ばれるリアルタイム処理の仕組みも提供します。 何故高速なのか Apache Sparkはインメモリでの動作を前提に設計されています。 インメモリの場合、データの喪失の危険性がつきまといますが、その問題をカバーしているのがRDDs(Resilient Distributed Datasets)と呼ばれるアルゴリズムです。 RDDsはインメモリデータに対するフォールトトレラントな仕組みを提供して

  • 分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

    分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ
  • Spark0.3サンプル(Hishidama's Spark0.3 example Memo)

    概要 Sparkでのプログラミングは、Scalaのコレクションの関数の記述と似ている。 ScalaのコレクションではRangeやList等のインスタンスを作ってそれに対してmapやfilter関数を呼び出すが、 SparkではまずSparkContextというオブジェクトを作り、そこからコレクションっぽいオブジェクトやファイルを読み込むイテレーターを生成する。これらはRDDという名前のクラスで表されており、RDDにmapやfilterといった関数が定義されている。 import spark._ import SparkContext._ SparkContextは「spark.SparkContext」なので、spark配下のクラスをインポートする。 RDD関連は暗黙変換を利用しているので、SparkContextオブジェクトのメソッドもインポートしておく必要がある。 object Sam

  • Jubatus Casual Talks #2 異常検知入門

    2013/12/14 Jubatus Casual Talks #2 異常検知入門の資料です。Read less

    Jubatus Casual Talks #2 異常検知入門
  • Jubatusの機械学習ラインナップと利用シーン — Jubatus

    Jubatusの機械学習ラインナップと利用シーン¶ Jubatusによって行える機械学習とその利用シーンを紹介します。 ・ 多値分類(Classifier) 特徴ベクトル化された入力データを複数グループに分類します。 用途:Twitterカテゴリ分け、スパムメール判定など ・ 線形回帰(Regression) 入力データから出力データを推定します。 用途:株価予測、消費電力予測など ・ クラスタリング(Clustering) 入力データを似たグループの塊(クラスタ)に振り分けます。 用途:ユーザーセグメンテーション、トピック抽出など ・ クラスタ分析(Cluster Analysis) クラスタの構造変化などを分析します。 用途:セグメンテーション間の遷移分析、トピックの流行過程分析など ・ 統計分析(Stat) 時系列データのウィンドウ設定つき統計分析を行います。 用途:センサー監視、異

  • Map/Reduce Tutorial

    このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。 大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。 通常、Map/Reduce のジョブは、入力データセットを独立

  • Hadoop Reducerメモ(Hishidama's Hadoop Reducer Memo)

    Reducerの概要 Reducerは、Mapperの出力を演算する。 Mapperからの出力はキー毎にまとめられて、キーの昇順にソートされて入ってくる。 ほとんどのケースでは値は合算(集計)すると思うが、最大値や最小値を見つけるという事にも使える。 Mapperの出力をそのままOutputFormatに渡す場合はReducerは不要。 Reducerの個数を0にするとReducerは実行されない。 Reducerの出力 Mapperと同様に、reduce()メソッドでcontext.write()する為のインスタンスは使い回しがきく。 public class IntSumReducer<Key> extends Reducer<Key,IntWritable, Key,IntWritable> { private IntWritable result = new IntWritable

  • AnsibleとVagrantで開発環境を構築する | さくらのナレッジ

    AnsibleはChefやPuppetと同様に冪等性(べきとうせい)に配慮した構成管理ツールです。YAMLで記述したプレイブックのファイルが1つあれば動き、SSHさえ繋がれば対象サーバーにクライアントは不要、といったシンプルさが支持され、近年ユーザーを増やしています。 そのシンプルさは仮想マシンを利用した開発環境の構築にもうってつけに思えます。と言うことで今回はAnsibleをVagrantのプロビジョナーに使って開発環境を構築しました。 Ansibleの公式サイト Ansibleのインストール Ansibleはコントロールマシンに入っていればよく、セットアップ対象のサーバにはAnsibleのクライアントなどは不要です。SSHで接続さえできればOKです。今回のケースでは開発マシンのMacをコントロールマシンとし、Vagrantによる仮想マシンをセットアップ対象とします。 Ansible自体

    AnsibleとVagrantで開発環境を構築する | さくらのナレッジ
  • GitHub - SylvainJuge/memoryfs: Java7 in-memory filesystem implementation

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - SylvainJuge/memoryfs: Java7 in-memory filesystem implementation
  • GitHub - openCage/memoryfs: a java 7 nio2 memory based filesystem

    Dismiss Join GitHub today GitHub is home to over 40 million developers working together to host and review code, manage projects, and build software together. Sign up

    GitHub - openCage/memoryfs: a java 7 nio2 memory based filesystem
  • SSSSLIDE

    SSSSLIDE
  • Jubatus使ってみた 作ってみたJubatus

    社内勉強会で『Python 機械学習プログラミング』の第 3 章の発表を担当した際の資料です。教科書で触れられている各アルゴリズムについて、アルゴリズムの概要と Iris データセットへの適用結果を説明しています。 発表資料に対応して、Jupyter Notebook で実行した ipynb ファイルを Gist にアップロードしています。 https://gist.github.com/y-uti/bd0928ad4f4eff7794a00108f6cbe7cc [2017-05-08] スライド 37 ページの内容はカーネル SVM の理解について大きな誤りがあったため取り消します。

    Jubatus使ってみた 作ってみたJubatus
  • 最近読んだ論文 - xuwei-k's blog

    以下のtweetしたように、最近それなりに、(主にHaskell関連の)論文読んでるのだけれど 最近、論文読むの楽しいと思うことがそれなりにあるけど、いや楽しいとかじゃなく無意識に時間があればずっと論文読み続けてるのが当たり前の状態にならないとだめだ。って自身に言い聞かせようとし出すような変な意識の高まり方してる 2015-07-18 02:30:31 via Twitter Web Client 一回読んだだけではすべてを理解できるわけでもないし、「うまく日語に要約して紹介」ですら結構頑張らないとできる気がしないけど、それなりに読んでるのを、とりあえず一覧でまとめておこうと思った次第。 昔は論文なんて全然読む習慣なかったし、読もうとしても(英語力と前提知識の問題で)全然読めなかったけど、少しでも読めるようになってくると楽しいですね。 あと「読んだ」というのは、 最初に読んだのは結構昔だ

    最近読んだ論文 - xuwei-k's blog
  • 1ヶ月で-5kg!1日1分で結果が出る本物の体幹トレーニング

    「ポッコリお腹をなんとかしたい」「もっと美しい姿勢になりたい」「痩せやすい体になりたい」などお悩みではありませんか? 体幹トレーニングは、まさにこれらのお悩みを解決してくれるとても強力なトレーニングです。 しかし、体幹トレーニングの方法はとても多く、難しいものを選んでしまったり、効果のないものを含めた複雑なメニューを組んでしまい、継続できず失敗してしまう人が大半です。 このページでは、プロのトレーナーの指導のもと、当に効果的な方法だけを厳選して、効率よく実行できるプログラムをご紹介します。 私は初級者向けのプログラム、友人は上級者向けプログラムを1ヶ月チャレンジして、それぞれ3kg(50kg⇒47kg)、5kg(72kg⇒67kg)の減量に成功しました。 目次 1. いま体幹トレーニングをやるべき7つの理由 2. 効果を出す体幹トレーニングの2つの条件 3. 毎日やるべきたった1つの基

    1ヶ月で-5kg!1日1分で結果が出る本物の体幹トレーニング
  • vmstatコマンドで覚えておきたい使い方8個(+1個) | 俺的備忘録 〜なんかいろいろ〜

    LinuxやUNIXでパフォーマンスを監視する際にはお約束とも言えるvmstatコマンド。 どの現場でもよく使われるものだが、今回はこのコマンドで覚えておきたい使い方を紹介する。 なお、この内容はCentOS 7にてバンドルされている「procps-ng 3.3.9」のバージョンのものを用いている。 1.基的な使い方 オプション無しで実行すると、以下のように現時点でのパフォーマンス情報が出力される。 vmstat [root@test-centos7 ~]# vmstat procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 1 0 0 80556 128 13915

  • 私がsystemdを嫌う理由 | POSTD

    (訳注:7/24、いただいた翻訳フィードバックを元に記事を修正いたしました。) (訳注2:8/4、いただいた翻訳フィードバックを元に記事を再修正いたしました。) この2010年代にLinuxシステムの管理者をしていれば、systemdに関して何かしら思うところがあるでしょう。そして私は管理者たちの意見が両極端に分かれていることに驚きました。ほとんどの人(少なくとも意見を表明している人達)はsystemdが「大好き」か「大嫌い」かのどちらかのようです。私の場合、systemdをきっかけに昨年OpenBSDを使うことになったのですが、これを話したことで私がsystemdを「大嫌い」だと思われたようです。でも、それは違います。 当は、systemd自体は私がOpenBSDに移った理由のほんの一部にすぎません。しかし、この経験によって2つの重要な点に気付きました。まず、最近のLinuxの設計の問

    私がsystemdを嫌う理由 | POSTD
  • 大きなテキストファイルをawkで処理するときにcatで投げ込むのと、ファイル読み込みするのどっちが速いか比較 - カメニッキ

    追記が増えたので整理 経緯 2.5GBのテキストファイルを加工する必要があり、①vimで開いて加工→vim死亡②sublime textで開いて加工→sublime text死亡となったため、awkを用いて以下の様なコマンドを実行した。 $ cat sample.txt | awk '$5 ~ /((26|27|28|29|30)\/Jun|(01|02|03)\/Jul)/{ print }' > result.txt すると 「catいらなくね?」と指摘 さらにMATSUMOTO, Ryosuke (@matsumotory) | Twitter < 「キャッシュに入れて高速化してるんかと思った」 とコメントをもらいました。ので、どっちが速いかの検証です。 注意 加工の目的はログファイルからある期間だけの行を抜き取りたい 正規表現がいけてないのは気にしない 比較 awkにファイル指定す

    大きなテキストファイルをawkで処理するときにcatで投げ込むのと、ファイル読み込みするのどっちが速いか比較 - カメニッキ
  • Pythonで作るLaTex自動コンパイル環境 - Qiita

    こちらの記事http://fromatom.hatenablog.com/entry/2015/01/09/185942 を参考にLaTexの自動コンパイル環境の構築環境を構築しようとしたけど,うまく行かなかったのでPythonで作ってみた. Ubuntu 14.04 Python 3.4.0 ファイル監視 こちらの記事を参考にしたhttp://qiita.com/PyYoshi@github/items/9744a138c018734c69db Pythonにはwatchdogというファイル監視ライブラリがあるのでこれを利用した pipでinstallできた pip install watchdog 例えば以下のディレクトリ構成での自動コンパイルを考える *--build/ --この中にdviやpdfが生成される | | | *--doc.dvi | | | *--doc.pdf | |

    Pythonで作るLaTex自動コンパイル環境 - Qiita
  • DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita

    はじめに そもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました 公開しました 。またどうせ公開するなら、この機会にこれ(Q学習+関数近似)関連で持っている知識をついでに整理しようと思ってまとめました。 ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー!!!って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。(ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。) この記事ではNIPSとNatureの以下の2の論文 ・ V

    DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita
  • 言語処理100本ノックを(第5章まで)やってみた - フツーって言うなぁ!

    久しぶりに技術関係のネタ書きます. 「言語処理100ノック」という,自然言語処理関係の問題集があることを知ったので取り組んでみました. これは,東北大学の乾・岡崎研究室でのプログラミング勉強会にて使われている教材だそうです. 「100ノック」の言葉通り,100問の問題からなる問題集をこなすことで,自然言語処理に関する基礎力と,プログラミング言語運用能力が同時に培えるようになっています. こういうものが公開されるとは,「いい時代になったなー」と純粋に思います. www.cl.ecei.tohoku.ac.jp 内容は,自然言語処理だけでなく,データベース,機械学習など,今の言語処理関係の研究に必要なスキルがこれ1つで身につくように設計されています. 対象プログラミング言語はPythonのようですが,基的に他の言語でも問題なく進められるようにはなっていると思います(言語処理に強いプログラ

    言語処理100本ノックを(第5章まで)やってみた - フツーって言うなぁ!
  • Linux日和~ループバックマウントとオフセット~

    Linux,POSIX,BSD,UNIX,gcc,gdb,コマンド,プログラミング,サーバー,ネットワーク,ソースコード,デバッグ,パケットキャプチャ

  • 第4章 イメージの変更 - OpenStack 仮想マシンイメージガイド  - カレント

    guestfish は、イメージをローカルファイルシステムに直接マウントしません。代わりに、ファイルを表示、編集、削除するためのシェルインターフェースを提供します。touch、chmod、rm など、多くの guestfish コマンドは、伝統的な bash コマンドに似ています。 ときどき、仮想マシンイメージが最初に作成されたときに、仮想ネットワークインターフェースカードに割り当てられた MAC アドレスの設定を削除するために、イメージを編集する必要があります。その理由は、仮想マシンの次回起動時、MAC アドレスが異なるものになるからです。この例は、/etc/udev/rules.d/70-persistent-net.rules ファイルを削除し、/etc/sysconfig/network-scripts/ifcfg-eth0 ファイルの HWADDR 行を削除することにより、古い