nabinnoのブックマーク - はてなブックマーク

Confirm booting of Beagleboard-xM - Qiita
Beagleboardとのシリアル通信を行ったので少しまとめ。 1.デバイスドライバのインストール README ここから自分のマシンのOSに対応したデバイスドライバをインストールする。この時"Additional FTDI USB to serial/JTAG information"って書いてあるところからもインストールしたけれどこれは必要だったのかな 2.シリアル通信の準備僕の場合はMacBook Airを使っていたので、RS232CとUSBとの変換ケーブルを使用していた。REX-USB60F これ使ってボードとPCをつなぐ。そうするとデバイスファイルが現れる。
nabinno 2018/08/26
qiita

beagleboard

single-board-computer

linux

texas-instruments
リンク
scikit-learnでCross Validation - Qiita
詳しいことはWikipediaに書いてある。 Cross Validationはモデルの妥当性を検証する方法のひとつ。一般的に開発用のデータは訓練データと検証データに分かれる。しかし、このまま行ってしまうと折角の訓練データが減ってしまうことになる上に、訓練データの選び方によって汎化性能が下がってしまう可能性がある。 Wikipediaに書いてあるもののホールド・アウト検定がこれに当たる。一般にはこれはCross Validationにはあたらない。ここに書いてあるK-分割交差検定がこれに当たる。K-分割交差検定では開発用のデータをK個に分割しK-1個を訓練用に、残りの一つを検証用に使いモデルの正当性を計算する。これにより使える訓練データが増えると同時に、これらを訓練データを変えることにより、汎化性能を上げることができる。 scikit-learnで具体的にどのように行うのか書いてみた
nabinno 2018/05/16
qiita

scikit-learn

python

analytics
リンク
Dominant Resource Fairness on YARN - Qiita
この記事はDistributed computing Advent Calendar8日目の記事です。 Hadoopをはじめとする大規模な計算リソースを効率よく使うにはリソーススケジューラが必要です。分散システムでのリソーススケジューラといえばYARNやMesosといったシステムが有名ですが、今回は分散システムでの効率のよいスケジューリングを定義したDominant Resource Fairnessという考え方とそのYARN上での実装についてまとめてみました。 "Fairness"の難しさ分散システムに限らずリソーススケジューリングにおいて目標とされるもののひとつとして"Fairness"があります。曖昧な言葉ではありますが、効率のよいシステムでは限られたリソースを複数のユーザ、タスク間で共有してそれぞれの要求を満たしつつ、全体のスループットもあげていくことが求められます。このときにど
nabinno 2017/05/14
yarn

package-management

javascript
リンク
Apache Hivemall next release - Qiita
この記事はMachine Learning Advent Calendar19日目の記事です。 HivemallがApache Incubation入りした話と、来年リリース予定の新機能に関して書きたいと思います。祝 Apache Incubator! まず今年はHivemallがApache Incubation projectに選ばれました。機械学習ライブラリHivemallが米国Apacheソフトウェア財団の育成プロジェクトに認定日本発のOSSとしては初めてのことらしいです。HivemallはHadoopやSpark上で動作するUDFのコレクションとして実装されていて、機械学習のアルゴリズムだけでなくfeature engineeringや自然言語処理、更にはパラメータサーバ(mix server)の実装なども含まれています。機能も豊富なHivemallですが、他の機械学習ライ
nabinno 2016/12/21
qiita

apache-hivemall

machine-learning

analytics
リンク
SparkとParameter Server - Qiita
この記事はApache Spark Advent Calendar二日目の記事として書きました。 Apache Sparkにはその分散処理の特徴を活かした機械学習ライブラリ、MLlib, MLが含まれています。元々オンメモリで分散処理を行うSparkにとってiterativeな計算が必要な場面の多い機械学習のアルゴリズムとは親和性が高く期待の大きかった分野のひとつでもあります。モデルの大きさところがDeep learningのような最近話題の手法、アルゴリズムでは非常に大きなモデルを扱う場合があります。ここでの大きさとは次元数、合計としてのデータ容量の大きさを含みます。MLlibのアルゴリズムを見てみるとしばしば以下のようにモデルの重みをbroadcastしていることがわかります。 while (!converged && i <= numIterations) { // 重みをbro
nabinno 2015/12/03
machine-learning
リンク
1