You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
![Pythonでマルチバイト文字を扱う際に気をつける点。](https://cdn-ak-scissors.b.st-hatena.com/image/square/1ef26f6cb4349557952890dbe3e567f7f98dc151/height=288;version=1;width=512/https%3A%2F%2Fgithub.githubassets.com%2Fassets%2Fgist-og-image-54fd7dc0713e.png)
In this talk, we will give a technical deep dive into the new YARN shared cache feature (i.e. YARN-1492) and explore the benefits we are currently seeing on our production clusters at Twitter. The YARN shared cache aims to optimize the considerable amount of network bandwidth and storage spent on resource localization in YARN. Some of this is mitigated by the NodeManager localization service, but
Windows環境の場合は,配布されている実行ファイルを利用するのが最も簡単です.ただし,配布されている実行ファイルを利用するには,システムにVisual C++ 2008 SP1 再頒布可能パッケージ (x86)がインストールされている必要があります. Linux環境の場合は,ソースコードからビルドしてください. ビルド方法は,こちらを参照してください. Classiasは二値分類(binary classification),多クラス分類(multi-class classification),候補選択(candidate classification)の3つのタスクをサポートします. 二値分類は,与えられた事例の素性(属性)に基づいて,事例を正例(+1)もしくは負例(-1)に分類するタスクです. 事例のラベルには,"+1", "1", もしくは"-1"を用いることができ,ラベルにコロ
SVMの定番ツールのひとつであるlibsvmにはcross validationオプション(-v) があり,ユーザが指定したFoldのcross validationを実行してくれる. 実行例 % ./svm-train -v 2 heart_scale * optimization finished, #iter = 96 nu = 0.431885 obj = -45.653900, rho = 0.152916 nSV = 70, nBSV = 49 Total nSV = 70 * optimization finished, #iter = 84 nu = 0.512665 obj = -57.742885, rho = 0.134158 nSV = 78, nBSV = 61 Total nSV = 78 Cross Validation Accuracy = 81.8519%
Machine Learning for Hackers 作者: Drew Conway,John Myles White出版社/メーカー: Oreilly & Associates Inc発売日: 2012/02/28メディア: ペーパーバック クリック: 63回この商品を含むブログを見る 機械学習の評価方法について学習 機械学習初心者ですが最近業務で本格的に触り始めています。少し前までSmartPhoneのWebAppliを作ることを専門職としていたので機械学習の領域は未知な事が非常に多く、用語の意味ですら十分に理解できていません。今日は機械学習の評価方法を中心に学習(勉強)した内容を記録して行きます。例えばPrecision/Accuracy/Recallの言葉の違いやROC曲線,AUC評価などの技法といったものが話の中心になります。初心者視点で書いていますので専門性がありません。間
はじめに データ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用 使用するデータ http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html 「news20」を使用する 20クラス 学習:15935データ、テスト:3993データ 素性数:学習62061、テスト62060 news20.bz2とnews20.t.bz2は、単語IDとTF値のペアっぽい #学習データの各クラスのドキュメント数 $ cut -f1 -d" " news20 | sort |uniq -c | sort -k2 -n
LIBSVM Data: Classification (Multi-class) This page contains many classification, regression, multi-label and string data sets stored in LIBSVM format. For some sets raw materials (e.g., original texts) are also available. These data sets are from UCI, Statlog, StatLib and other collections. We thank their efforts. For most sets, we linearly scale each attribute to [-1,1] or [0,1]. The testing dat
こんにちは。 Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。 とりあえず、そんなわけで(?)お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。 まず見てみた資料は「Overview of Spark Streaming」(http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf)です。 というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か? 大規模ストリーム処理フレームワーク ・100オーダーのノードにスケールする ・秒単位のレイテンシで処理を実行可能 ・Sparkのバッチ
はじめに Apache Sparkの機械学習ライブラリーmllibを弊社のサービス、分析業務に使えるかを検討するために各種ベンチマークを実施する予定でいます。 その第一弾として、spark mllibの教師あり分類アルゴリズムの精度評価を実施したので、その結果を共有します。 spark mllib 教師あり分類アルゴリズム Spark mllibの教師あり分類アルゴリズムには Naive Bayes (NB) SVM (SVM) Logistic Regresssion (LR) Decision Tree (DT) Random Forest (RF) Gradient Boosted Tree (GBT) があります。 詳細な特徴などは、参考リンクを参考していただくとして、我々は、今回、次の観点からこれらのアルゴリズムの精度評価を実施しました。 線形分類器と非線形分類が可能な分類器との
MLlibのSVMは SVM (L2-regularizer) SVM (L1-regularizer) の2通りがあるよう.ただし,lossはL1-hinge のみのよう. Sample Data Retreival $ git clone https://github.com/apache/incubator-spark.git $ cd incubator-spark/data/* にサンプルデータがある. binary-classificationはlabel={0, 1}のフォーマットのようなのでなので, label={-1,1}になっているlr_data.txtの-1を0に変換する. SVMSample (L2-norm) package edu.kzk.spark_sample.mllib import org.apache.spark.mllib.classificatio
用量反応曲線を描いているのだが、複数の曲線からそれぞれEC50を得たとき、比較したい。 よくある(?)手法として、EC50のSDを求めて、それが曲線間でかぶる範囲があるかないかで差を判定する、という手法があるらしいのだが、これが頭の中で物議を醸していた(のだが放置していた)。 用量反応曲線をやり始めてから、この問題に直面したときに放置しておいたのだが、用量反応曲線について聞かれることがあったのでちょっと調べた。 多くの研究者はGraphPad Prismというソフトウェアを使って描くらしいのだが、いかんせん有料。 すると、Analyzing Dose-Response DataというPDF説明書を見つけたので、これを使ってみる。 実測データを0 ~ 100に変換するまでは省略。 変換データはこちら。 各濃度で3回実験を行なっている。欠損値はNAとしている。 これを地味に入力した。 conc
ニコニコ動画への投稿数を時系列解析する。 どんなときに投稿数が増減するか、またその予測をする。 事後(というか事前にもわかっていたけど)ボカロの誕生日に投稿数が跳ね上がっていた。 解析結果を見た先輩が 「この2年ほどで初音ミクの誕生日(8月31日)に投稿数も変化点スコアも低下傾向にあるから、オワコン化してきてるんじゃないの?」 と指摘され激怒した。ただ、誕生日での観測に限っていうと、投稿数はなんとなくシグモイドカーブに乗っていて、が2年くらいな気がする。 変化点検出には昔動かせなくて悔しかった、ChangeAnomalyDetectionを使う。 ベイズ変化点検出bcpパッケージも使う。 時系列データでは、データがランダムウォークしているか否か、が重要で、Phillips–Perron testで検定できる。 今回のデータは p=0.01 で、帰無仮説:ランダムウォークである は棄却された
初音ミクの投稿数の時系列解析とバースト解析を組み合わせただけ。 前回は19943曲だったが、今回はVOCALONOBISというサイトから2013年5月22付で94334曲のIDを頂いたので、これでやってみる。 wgetの段階で94322曲になった。 直近1年間くらいでオワコン化が進んできているのではないかという指摘があったが、このデータで見ると投稿数はじわじわと増加傾向で、しかもこの直近半年ほどでちょっとだけバーストが起きているようだ。 デビュー直後はみんながこぞって購入、投稿し始めたのは想像に難くないが、この直近半年の動きはなんなんだろう… data1 <- read.delim("20130522count_info.txt") submit_date <- as.Date(data1[,5]) music_count <- table(submit_date) library(Cha
スーツをクリーニングに出したついでに、本屋に寄ったら Linuxシステムプログラミング 作者: Robert Love,ロバートラブ,千住治郎出版社/メーカー: オライリージャパン発売日: 2008/04/16メディア: 大型本購入: 5人 クリック: 181回この商品を含むブログ (31件) を見るが素晴らしすぎて、衝動買いしてしまいました。 ファイルI/O、I/Oスケジューラなど、最近、興味のある分野について詳しく書かれていました。 この本で扱っている内容は主に以下の通りです。 Linux・システムプログラミング・カーネル・Cライブラリ・Cコンパイラの概要 ファイルI/O ファイル・ディレクトリ管理 プロセス管理 メモリ管理 シグナル 時間 RDBMSに密接に関連のあることばかりです。論理的で、本題を理解するために必要な前提知識についても親切に説明されています。著者の Robert L
こんにちは。 前回構築した環境で稼働させるイメージを作りたいと思います。 公式ドキュメントを参考にしています。 イメージの保存先:server2@/mnt/data/images ゲストOS:Ubuntu 11.04 ホスト名:ubuntu 0.イメージ保存先の作成 server2$ mkfs -t ext4 /dev/sdc1 mke2fs 1.41.14 (22-Dec-2010) Filesystem label= OS type: Linux Block size=4096 (log=2) Fragment size=4096 (log=2) Stride=0 blocks, Stripe width=0 blocks 19537920 inodes, 78142160 blocks 3907108 blocks (5.00%) reserved for the super use
概要 AWSのAMIをPackerから作ります。基本的にAnsibleで使用するパッケージをインストールします。 簡単のためNginxだけインストールしたAMIを作ります。 Packerのインストールは「Packer で Virtualbox 用の VagrantBox を作成する」を参考にしてください。 環境 Ubuntu 14.04 Packer 0.7.5 フォルダ構成 ├── builders │ ├── nginx.json │ └── variables.json ├── provisioners │ ├── inventory │ │ └── aws │ ├── nginx.yml │ └── roles │ └── nginx │ └── tasks │ └── main.yml └── scripts └── ansible.sh
トップページ ここは、Programming Place Plus の、アルゴリズムとデータ構造編のトップページです。 各種アルゴリズムとデータ構造に関して、詳細な解説や、C言語を使った具体的な実装例があります(C言語についての情報は、C言語編を参照してください)。 データ構造 整列アルゴリズム 探索アルゴリズム その他のアルゴリズム APPENDIX リンク集 参考書籍
トップページ – 参考書籍 トップページ – C++編 トップページ – 新C++編 ここでは、C++ に関する参考書籍を紹介します。 書名をクリックすると、詳細な紹介ページへ移動します。 出版日の新しいものほど、上に来るように並べています。 「5段階評価」は、★の数が多いほど、良書であるという判定です。この判定は、その本を読むのに適切なレベルにある読者を想定したものです。「レベル」は以下のように想定しています。 入門)C++ を使って、初めてのプログラミングを学ぼうとする入門者 初級)C++ の基本的な文法や機能を学習する人 中級)C++ の基本的な文法や機能を知り、小さなプログラムを書ける人 上級)すでに本格的な C++ のプログラミングをしている人 技術書を割引価格で購入できたり、多くのポイントが還元されたりするお得情報を、「セール情報」のページで取り上げていますので、こちらもご覧く
C++11の参考書をGitHubで公開する。 GitHub: EzoeRyou/cpp-book GitHubからzipでダウンロード GitHub Pagesでの閲覧:C++11の文法と機能 序 本書はC++11のコア言語の文法と機能を、標準規格書に従って解説したものである。正式なC++規格書として発行された後の、ひとつ後のドラフト規格、N3337 を参考にしている。ドラフト規格を参考にした理由は、正式なC++規格書は、個人での入手が煩わしいためである。読者に入手が困難な資料を元に記述された参考書は価値がない。そのため、読者が容易に入手できるドラフト規格のうち、正式なC++規格書とほとんどかわらないN3337を参考にした。 本書の対象読者は、C++を記述するものである。C++実装者ではない。そのため、サンプルコードを増やし、冗長な解説を増やし、C++コンパイラーを実装するための詳細な定義
2015年9月26日紙版発売 2015年9月26日電子版発売 中井悦司 著 B5変形判/200ページ 定価2,948円(本体2,680円+税10%) ISBN 978-4-7741-7654-3 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 Linuxのコンテナ技術の1つであるDockerは,迅速なWebサービスの展開に必要不可欠なものであり,多くのIT企業が注目している重要なものである。本書では,そのしくみを明らかにし,DockerをGitHubと連携したデプロイ方法を基礎から解説する。Dockerfileの書き方や管理ツールであるkubernetesとの連携方法,レッドハッ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く