yukimori_726のブックマーク / 2015年11月25日

Pythonでマルチバイト文字を扱う際に気をつける点。

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2015/11/25

python

リンク

エスケープされた日本語文字列をデコードしたい

TwitterのデータのようにJSON形式で取得されたものは、日本語などマルチバイト文字がすべて"\uHHHH"のようなユニコードの16進表現でエンコードされています。これをOS Xの標準環境、できればシェルスクリプトで配りたいのですが、この制約の中で出来る良い方法がないか探しています。当初は、 http://qiita.com/kumazo@github/it ems/39500f259500a424800b を参考にして挑戦したのですが、 /usr/bin/printf でもデコードできませんでした。

yukimori_726 2015/11/25

リンク

圧縮プログラムによる著者推定技術のニンジャスレイヤーへの応用

In this talk, we will give a technical deep dive into the new YARN shared cache feature (i.e. YARN-1492) and explore the benefits we are currently seeing on our production clusters at Twitter. The YARN shared cache aims to optimize the considerable amount of network bandwidth and storage spent on resource localization in YARN. Some of this is mitigated by the NodeManager localization service, but

yukimori_726 2015/11/25

リンク

綺麗な/etc/sysconfig/network-scripts/ifcfg-eth0の書き方 - Qiita

CentOS6の/etc/sysconfig/network-scripts/ifcfg-eth0はいくつか記述する方法があるが、綺麗な書き方。 NetworkManagerは使わない。 DEVICE=eth0 NM_CONTROLLED=no ONBOOT=yes TYPE=Ethernet BOOTPROTO=none IPADDR=192.168.1.100 PREFIX=24 GATEWAY=192.168.1.1 DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no ARPCHECK=no

yukimori_726 2015/11/25

リンク

Classias - 使い方 -

Windows環境の場合は，配布されている実行ファイルを利用するのが最も簡単です．ただし，配布されている実行ファイルを利用するには，システムにVisual C++ 2008 SP1 再頒布可能パッケージ (x86)がインストールされている必要があります． Linux環境の場合は，ソースコードからビルドしてください．ビルド方法は，こちらを参照してください． Classiasは二値分類（binary classification），多クラス分類（multi-class classification），候補選択（candidate classification）の３つのタスクをサポートします．二値分類は，与えられた事例の素性（属性）に基づいて，事例を正例（+1）もしくは負例（-1）に分類するタスクです．事例のラベルには，"+1", "1", もしくは"-1"を用いることができ，ラベルにコロ

yukimori_726 2015/11/25

machinelearning

リンク

LibSVMのcross validationオプションでprecision/recallを出力する - シリコンの谷のゾンビ

SVMの定番ツールのひとつであるlibsvmにはcross validationオプション(-v) があり，ユーザが指定したFoldのcross validationを実行してくれる．実行例 % ./svm-train -v 2 heart_scale * optimization finished, #iter = 96 nu = 0.431885 obj = -45.653900, rho = 0.152916 nSV = 70, nBSV = 49 Total nSV = 70 * optimization finished, #iter = 84 nu = 0.512665 obj = -57.742885, rho = 0.134158 nSV = 78, nBSV = 61 Total nSV = 78 Cross Validation Accuracy = 81.8519%

yukimori_726 2015/11/25

リンク

そろそろ本気で機械学習の評価方法について学習するよ - Y's note

Machine Learning for Hackers 作者: Drew Conway,John Myles White出版社/メーカー: Oreilly & Associates Inc発売日: 2012/02/28メディア: ペーパーバッククリック: 63回この商品を含むブログを見る機械学習の評価方法について学習機械学習初心者ですが最近業務で本格的に触り始めています。少し前までSmartPhoneのWebAppliを作ることを専門職としていたので機械学習の領域は未知な事が非常に多く、用語の意味ですら十分に理解できていません。今日は機械学習の評価方法を中心に学習(勉強)した内容を記録して行きます。例えばPrecision/Accuracy/Recallの言葉の違いやROC曲線,AUC評価などの技法といったものが話の中心になります。初心者視点で書いていますので専門性がありません。間

yukimori_726 2015/11/25

リンク

liblinearで文書分類を試す - Negative/Positive Thinking

はじめにデータ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用使用するデータ http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html 「news20」を使用する 20クラス学習:15935データ、テスト:3993データ素性数:学習62061、テスト62060 news20.bz2とnews20.t.bz2は、単語IDとTF値のペアっぽい #学習データの各クラスのドキュメント数 $ cut -f1 -d" " news20 | sort |uniq -c | sort -k2 -n

yukimori_726 2015/11/25

リンク

LIBSVM Data: Classification (Multi Class)

LIBSVM Data: Classification (Multi-class) This page contains many classification, regression, multi-label and string data sets stored in LIBSVM format. For some sets raw materials (e.g., original texts) are also available. These data sets are from UCI, Statlog, StatLib and other collections. We thank their efforts. For most sets, we linearly scale each attribute to [-1,1] or [0,1]. The testing dat

yukimori_726 2015/11/25

dataset

リンク

Apache Spark Streaming＝大規模準リアルタイムストリーム処理？ - 夢とガラクタの集積場

こんにちは。 Sparkについて調べてみよう企画第２段（？）です。１回目はまずSparkとは何かの概要資料を確認してみました。その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。とりあえず、そんなわけで（？）お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。まず見てみた資料は「Overview of Spark Streaming」（http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf）です。というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か？大規模ストリーム処理フレームワーク・100オーダーのノードにスケールする・秒単位のレイテンシで処理を実行可能・Sparkのバッチ

yukimori_726 2015/11/25

spark

リンク

Spark mllib 教師あり学習アルゴリズム精度測定 - Qiita

はじめに Apache Sparkの機械学習ライブラリーmllibを弊社のサービス、分析業務に使えるかを検討するために各種ベンチマークを実施する予定でいます。その第一弾として、spark mllibの教師あり分類アルゴリズムの精度評価を実施したので、その結果を共有します。 spark mllib 教師あり分類アルゴリズム Spark mllibの教師あり分類アルゴリズムには Naive Bayes (NB) SVM (SVM) Logistic Regresssion (LR) Decision Tree (DT) Random Forest (RF) Gradient Boosted Tree (GBT) があります。詳細な特徴などは、参考リンクを参考していただくとして、我々は、今回、次の観点からこれらのアルゴリズムの精度評価を実施しました。線形分類器と非線形分類が可能な分類器との

yukimori_726 2015/11/25

リンク

Spark MLlib SVMを使ってみた - KZKY memo

MLlibのSVMは SVM (L2-regularizer) SVM (L1-regularizer) の２通りがあるよう．ただし，lossはL1-hinge のみのよう． Sample Data Retreival $ git clone https://github.com/apache/incubator-spark.git $ cd incubator-spark/data/* にサンプルデータがある． binary-classificationはlabel={0, 1}のフォーマットのようなのでなので， label={-1,1}になっているlr_data.txtの-1を0に変換する． SVMSample (L2-norm) package edu.kzk.spark_sample.mllib import org.apache.spark.mllib.classificatio

yukimori_726 2015/11/25

spark
svm

リンク

理工ジャーナル（電子版）２３‐２☆／２０．水田

yukimori_726 2015/11/25

burst

リンク

用量反応曲線のEC50の標準偏差を出す - 驚異のアニヲタ社会復帰の予備

用量反応曲線を描いているのだが、複数の曲線からそれぞれEC50を得たとき、比較したい。よくある(?)手法として、EC50のSDを求めて、それが曲線間でかぶる範囲があるかないかで差を判定する、という手法があるらしいのだが、これが頭の中で物議を醸していた（のだが放置していた）。用量反応曲線をやり始めてから、この問題に直面したときに放置しておいたのだが、用量反応曲線について聞かれることがあったのでちょっと調べた。多くの研究者はGraphPad Prismというソフトウェアを使って描くらしいのだが、いかんせん有料。すると、Analyzing Dose-Response DataというPDF説明書を見つけたので、これを使ってみる。実測データを0 ~ 100に変換するまでは省略。変換データはこちら。各濃度で3回実験を行なっている。欠損値はNAとしている。これを地味に入力した。 conc

yukimori_726 2015/11/25

burst

リンク

ボカロ楽曲のニコニコ動画投稿数を時系列解析する - 驚異のアニヲタ社会復帰の予備

ニコニコ動画への投稿数を時系列解析する。どんなときに投稿数が増減するか、またその予測をする。事後(というか事前にもわかっていたけど)ボカロの誕生日に投稿数が跳ね上がっていた。解析結果を見た先輩が「この2年ほどで初音ミクの誕生日(8月31日)に投稿数も変化点スコアも低下傾向にあるから、オワコン化してきてるんじゃないの?」と指摘され激怒した。ただ、誕生日での観測に限っていうと、投稿数はなんとなくシグモイドカーブに乗っていて、が2年くらいな気がする。変化点検出には昔動かせなくて悔しかった、ChangeAnomalyDetectionを使う。ベイズ変化点検出bcpパッケージも使う。時系列データでは、データがランダムウォークしているか否か、が重要で、Phillips–Perron testで検定できる。今回のデータは p=0.01 で、帰無仮説：ランダムウォークであるは棄却された

yukimori_726 2015/11/25

burst

リンク

初音ミクの投稿数をバースト解析 - 驚異のアニヲタ社会復帰の予備

初音ミクの投稿数の時系列解析とバースト解析を組み合わせただけ。前回は19943曲だったが、今回はVOCALONOBISというサイトから2013年5月22付で94334曲のIDを頂いたので、これでやってみる。 wgetの段階で94322曲になった。直近1年間くらいでオワコン化が進んできているのではないかという指摘があったが、このデータで見ると投稿数はじわじわと増加傾向で、しかもこの直近半年ほどでちょっとだけバーストが起きているようだ。デビュー直後はみんながこぞって購入、投稿し始めたのは想像に難くないが、この直近半年の動きはなんなんだろう… data1 <- read.delim("20130522count_info.txt") submit_date <- as.Date(data1[,5]) music_count <- table(submit_date) library(Cha

yukimori_726 2015/11/25

burst

リンク

知識工学部/機械学習

知識工学部/機械学習知識工学部は、Common Lisp で書かれたプラットフォーム非依存なエンタープライズ機械学習パッケージ CLML を独自に開発しました。 CLML 上に実装された、超高速全文検索エンジンや、並列化 SVM (Support Vector Machine) が、 CiNii の論文及び著者名寄せ処理バックエンドとして使われています。並列プログラミング、分散プログラミング環境に加え、Intel の MKL (Math Kernel Library) を用いた、高速な行列演算を誇ります。

yukimori_726 2015/11/25

machinelearning

リンク

LINUXシステムプログラミング - ablog

スーツをクリーニングに出したついでに、本屋に寄ったら Linuxシステムプログラミング作者: Robert Love,ロバートラブ,千住治郎出版社/メーカー: オライリージャパン発売日: 2008/04/16メディア: 大型本購入: 5人クリック: 181回この商品を含むブログ (31件) を見るが素晴らしすぎて、衝動買いしてしまいました。ファイルI/O、I/Oスケジューラなど、最近、興味のある分野について詳しく書かれていました。この本で扱っている内容は主に以下の通りです。 Linux・システムプログラミング・カーネル・Cライブラリ・Cコンパイラの概要ファイルI/O ファイル・ディレクトリ管理プロセス管理メモリ管理シグナル時間 RDBMSに密接に関連のあることばかりです。論理的で、本題を理解するために必要な前提知識についても親切に説明されています。著者の Robert L

yukimori_726 2015/11/25

linux
book

リンク

GitHub - google/leveldb: LevelDB is a fast key-value storage library written at Google that provides an ordered mapping from string keys to string values.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2015/11/25

リンク

Google

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2015/11/25

リンク

Convert QCow2 images to AMI/AKI/ARI (OpenStack compatible)

yukimori_726 2015/11/25

リンク

イメージを自作する(ubuntu) - orenoblog

こんにちは。前回構築した環境で稼働させるイメージを作りたいと思います。公式ドキュメントを参考にしています。イメージの保存先:server2@/mnt/data/images ゲストOS：Ubuntu 11.04 ホスト名：ubuntu 0.イメージ保存先の作成 server2$ mkfs -t ext4 /dev/sdc1 mke2fs 1.41.14 (22-Dec-2010) Filesystem label= OS type: Linux Block size=4096 (log=2) Fragment size=4096 (log=2) Stride=0 blocks, Stripe width=0 blocks 19537920 inodes, 78142160 blocks 3907108 blocks (5.00%) reserved for the super use

yukimori_726 2015/11/25

ami
aws

リンク

Packer で AWS の AMI を作成する - Carpe Diem

概要 AWSのAMIをPackerから作ります。基本的にAnsibleで使用するパッケージをインストールします。簡単のためNginxだけインストールしたAMIを作ります。 Packerのインストールは「Packer で Virtualbox 用の VagrantBox を作成する」を参考にしてください。環境 Ubuntu 14.04 Packer 0.7.5 フォルダ構成 ├── builders │ ├── nginx.json │ └── variables.json ├── provisioners │ ├── inventory │ │ └── aws │ ├── nginx.yml │ └── roles │ └── nginx │ └── tasks │ └── main.yml └── scripts └── ansible.sh

yukimori_726 2015/11/25

aws
ami

リンク

トップページ | Programming Place Plus　アルゴリズムとデータ構造編

トップページここは、Programming Place Plus の、アルゴリズムとデータ構造編のトップページです。各種アルゴリズムとデータ構造に関して、詳細な解説や、Ｃ言語を使った具体的な実装例があります（Ｃ言語についての情報は、Ｃ言語編を参照してください）。データ構造整列アルゴリズム探索アルゴリズムその他のアルゴリズム APPENDIX リンク集参考書籍

yukimori_726 2015/11/25

リンク

C++　参考書籍 | Programming Place Plus

トップページ – 参考書籍トップページ – C++編トップページ – 新C++編ここでは、C++ に関する参考書籍を紹介します。書名をクリックすると、詳細な紹介ページへ移動します。出版日の新しいものほど、上に来るように並べています。「５段階評価」は、★の数が多いほど、良書であるという判定です。この判定は、その本を読むのに適切なレベルにある読者を想定したものです。「レベル」は以下のように想定しています。入門）C++ を使って、初めてのプログラミングを学ぼうとする入門者初級）C++ の基本的な文法や機能を学習する人中級）C++ の基本的な文法や機能を知り、小さなプログラムを書ける人上級）すでに本格的な C++ のプログラミングをしている人技術書を割引価格で購入できたり、多くのポイントが還元されたりするお得情報を、「セール情報」のページで取り上げていますので、こちらもご覧く

yukimori_726 2015/11/25

c++
book

リンク

C++11参考書の公開：C++11の文法と機能

C++11の参考書をGitHubで公開する。 GitHub: EzoeRyou/cpp-book GitHubからzipでダウンロード GitHub Pagesでの閲覧：C++11の文法と機能序本書はC++11のコア言語の文法と機能を、標準規格書に従って解説したものである。正式なC++規格書として発行された後の、ひとつ後のドラフト規格、N3337 を参考にしている。ドラフト規格を参考にした理由は、正式なC++規格書は、個人での入手が煩わしいためである。読者に入手が困難な資料を元に記述された参考書は価値がない。そのため、読者が容易に入手できるドラフト規格のうち、正式なC++規格書とほとんどかわらないN3337を参考にした。本書の対象読者は、C++を記述するものである。C++実装者ではない。そのため、サンプルコードを増やし、冗長な解説を増やし、C++コンパイラーを実装するための詳細な定義

yukimori_726 2015/11/25

c++
book

リンク

untitled

yukimori_726 2015/11/25

リンク

Docker実践入門――Linuxコンテナ技術の基礎から応用まで

2015年9月26日紙版発売 2015年9月26日電子版発売中井悦司　著 B5変形判／200ページ定価2,948円（本体2,680円＋税10%） ISBN 978-4-7741-7654-3 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表などこの本の概要 Linuxのコンテナ技術の1つであるDockerは，迅速なWebサービスの展開に必要不可欠なものであり，多くのIT企業が注目している重要なものである。本書では，そのしくみを明らかにし，DockerをGitHubと連携したデプロイ方法を基礎から解説する。Dockerfileの書き方や管理ツールであるkubernetesとの連携方法，レッドハッ

yukimori_726 2015/11/25

docker
book

リンク

はてなブックマーク

タグ

2015年11月25日のブックマーク (28件)

Pythonでマルチバイト文字を扱う際に気をつける点。

エスケープされた日本語文字列をデコードしたい

圧縮プログラムによる著者推定技術のニンジャスレイヤーへの応用

綺麗な/etc/sysconfig/network-scripts/ifcfg-eth0の書き方 - Qiita

Classias - 使い方 -

LibSVMのcross validationオプションでprecision/recallを出力する - シリコンの谷のゾンビ

そろそろ本気で機械学習の評価方法について学習するよ - Y's note

liblinearで文書分類を試す - Negative/Positive Thinking

LIBSVM Data: Classification (Multi Class)

Apache Spark Streaming＝大規模準リアルタイムストリーム処理？ - 夢とガラクタの集積場

Spark mllib 教師あり学習アルゴリズム精度測定 - Qiita

Spark MLlib SVMを使ってみた - KZKY memo

理工ジャーナル（電子版）２３‐２☆／２０．水田

用量反応曲線のEC50の標準偏差を出す - 驚異のアニヲタ社会復帰の予備

ボカロ楽曲のニコニコ動画投稿数を時系列解析する - 驚異のアニヲタ社会復帰の予備

初音ミクの投稿数をバースト解析 - 驚異のアニヲタ社会復帰の予備

知識工学部/機械学習

LINUXシステムプログラミング - ablog

GitHub - google/leveldb: LevelDB is a fast key-value storage library written at Google that provides an ordered mapping from string keys to string values.

Google

Convert QCow2 images to AMI/AKI/ARI (OpenStack compatible)

イメージを自作する(ubuntu) - orenoblog

Packer で AWS の AMI を作成する - Carpe Diem

トップページ | Programming Place Plus　アルゴリズムとデータ構造編

C++　参考書籍 | Programming Place Plus

C++11参考書の公開：C++11の文法と機能

untitled

Docker実践入門――Linuxコンテナ技術の基礎から応用まで

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス