[B! データ] papiroのブックマーク

papiro id:papiro

データに関するpapiroのブックマーク (17)

面倒な「ダミーデータ作成」をChatGPTに任せる〜Code Interpreterの限界までリアリティを追求した作業の記録【イニシャルB】
papiro 2023/08/14
データ

テスト

ChatGPT
リンク
早く、安く、うまくシステムを刷新！驚異的なパフォーマンスを誇るユニケージ開発手法【デブサミ2019夏】
ユニケージ開発手法は、Unix系OSにおいてコマンドとシェルスクリプトでシステムを開発する手法である。Unix系OSの基本機能のみを使用して、高速にデータ処理を実行できる。ユニバーサル・シェル・プログラミング研究所はこの手法の商標権を持ち、かつ独自コマンドの開発を続けている企業だ。同社 SI統括部長の井上祐一氏が、ユニケージ開発技法の持つ利点をデモンストレーションを交えながら解説した。有限会社ユニバーサル・シェル・プログラミング研究所 SI統括部長井上祐一氏実装が用意。かつパフォーマンスに優れるユニケージ開発手法ユニケージ開発手法は、データをテキストファイルで持ち、単機能のコマンドをパイプラインやリダイレクトなどと組み合わせてデータ処理を行うことに特徴がある。 Unix系OSが持つ既存コマンドでは処理ができなかったり、コンピューターの計算コストが高くなったりしてしまう場合には、新規
papiro 2019/12/24
開発

シェル

unix

プログラミング

データ

パフォーマンス

シェルスクリプト
リンク
『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全 - 渋谷駅前で働くデータサイエンティストのブログ
こちらの本をご恵贈いただきました。ビッグデータ分析・活用のためのSQL レシピ作者: 加嵜長門,田宮直人出版社/メーカー: マイナビ出版発売日: 2017/03/27メディア: Kindle版この商品を含むブログを見る一般的なSQLの本というのはDB管理の一環としてのインフラエンジニア向けの技術書であることが多く、意外にもデータ分析を主目的としたSQLの使い方やクエリの工夫の仕方について書かれた本というのはあまり多くないんですよね。故に、多くのデータ分析者は難解なテーマを実現するクエリを書きたくても参考になる資料が乏しく、途方に暮れるわけです。僕もHive / Redshift / BigQueryのクエリを書きながら「こんな分析がしたいんだけど、それを実現できるクエリってないよなぁ。。。」と何度天を仰いだことか。そんなところに突然降って湧いてきたのがこちらの新刊書。もう目次を見ただ
papiro 2017/04/13
個人的にはユニケージでやってみたいのだが・・

SQL

分析

開発

データ
リンク
【基本】平均値・中央値・最頻値はどう使い分ける？ | なかけんの数学ノート
主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに！」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。各代表値の得意・不得意代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻
papiro 2017/01/22
簡単そうで簡単では無い

データ

統計学

統計
リンク
MNIST 手書き数字データを画像ファイルに変換する - y_uti のブログ
MNIST 手書き数字データは、0 から 9 までの手書きの数字 70,000 点を収録したデータセットです。機械学習やパターン認識の手法を確認するために利用できます。以下のウェブサイトからデータをダウンロードできます。 MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges データは、訓練データ 60,000 点 (train) とテストデータ 10,000 点 (t10k) に分けられています。それぞれ、手書きの数字を表すピクセルデータ (images) と、それが 0 から 9 のどの数字なのかを示すラベルデータ (labels) からなります。いずれも、バイナリ形式で提供されています。今回は、これらのデータをバイナリ形式からテキスト形式に変換して、簡単に、データの内容を確認したりス
papiro 2016/09/28
バイナリデータを扱うシェル芸人発見・・・

データ

画像

シェルスクリプト

ShellScript

shell
リンク
測定値の取り扱いと実験データ解析
本稿の目的は, 実験において誤差を含んだデータを取り扱う方法について簡単に紹介することである。まず有効数字と誤差という考え方について説明したあとで, 実験データ解析に必要となる確率論の初歩について簡単に紹介し, さいごに最小2乗法と呼ばれるデータ解析の手法について簡潔に解説する。
papiro 2016/09/13
数値データの取り扱いするなら理解しとかないと意味不明なことやっちゃうぞい

データ

数学

科学

確率

有効誤差
リンク
統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita
はじめに統計、機械学習が流行しているので、勉強したいと考えている人が多いと思います。が、しかし、実際に手を動かすためには、データがないと難しく勉強は困難です。 PRMLとか読んでも、実務で使えそうなイメージは湧きません。そこで、生データをダウンロードできるリンク集を作ってみました。見つけ次第増やしていきます。過去の気象データ検索 by 気象庁 http://www.data.jma.go.jp/obd/stats/etrn/index.php 気象に関する情報のデータベースです。条件を色々入れると、CSVを生成してくれます。データ容量制限がありますが、いろいろ使えそうです。人体寸法データベース by 産総研 https://www.dh.aist.go.jp/database/91-92/ 身体のいろんな場所の寸法に関するデータベースです。足のサイズとか、顔の大きさとかの
papiro 2016/02/26
手を動かすためにデータが入手出来るようです。

データ

機械学習

生データ

dataset
リンク
実務で使う統計手法は、５つ。すごい、そんなシンプル？
このセミナー、冒頭の渋谷直正さん(日本航空旅客販売統括本部Web販売部 1to1マーケティンググループアシスタントマネジャー)のお話がとても参考になりました。まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。その渋谷さんの「実務で使う分析手法は５つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。まず、みなさんが気にしている５つの手法とは、クロス集計ロジスティック回帰決定木アソシエーション分析非階層的クラスター分析（k-meansなど）の５つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの５つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大の数学
papiro 2015/09/02
あとで読む

データ

統計学

統計

分析
リンク
データフロープログラミング - Wikipedia
データフロープログラミング（英: dataflow programming）は、データフローの原理とアーキテクチャに準拠したプログラミングパラダイムであり、コンピュータプログラムをオペレーション間のデータフローの有向グラフとして模型化する。データフロー言語は、関数型言語の特徴を共有しており、より数値処理に適したものになっている。データフロー言語は、命令型プログラミングモデルなどの他の主要のプログラミング言語とは対照的である。命令型プログラミングではプログラムは一連の命令文で構成され、データの流れは見えない。この違いは瑣末に思われるかもしれないが、パラダイムとしての違いは非常に大きく、データフロー言語はマルチコアシステムやマルチプロセッシングシステムを自由に使える。プログラミングにおける重要な概念として「状態」がある。状態とは基本的には、システムの各種条件（変数）の測定値のスナップショッ
papiro 2015/02/24
シェル芸ってデータフロープログラミングですよね？

データ

unix

shell

ShellScript
リンク
データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
Index データ集計コマンド爆速で検索したいぜ！ lookを使う LC_ALL=Cを設定するデータのランダムサンプリングがしたいぜ！ sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使うランダムサンプリング速度比較合計と平均値を集計したいぜ！列データ取得重複行のカウント合計値出力平均値出力複数ファイルのデータ結合がしたいぜ！共通項目での結合同じ行数での結合まとめデータ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記
papiro 2015/02/04
テキスト処理系のデータ操作コマンド

データ

unix
リンク
技術/UNIX/od, hexdump, xxd : 16進数 or 2進数ダンプ - Glamenv-Septzen.net
id: 1224 所有者: msakamoto-sf 作成日: 2013-07-27 18:46:41 カテゴリ: Linux UNIX [ Prev ] [ Next ] [ 技術 ] 使うたびにググってるので、いい加減、よく使うパターンについてメモ。 16進数(od, hexdump, xxd)と2進数(xxd)ダンプ出力の、よく使うコマンド例のまとめ。 (unix上でのバイナリファイルの編集については技術/vim/メモ6, バイナリデータの編集とか参照。) od -v : 直前と同じ内容を持つ行も表示する。事実上、必須。 -Ax : 基数を16進数に。 -t : GNU od : -tx1z : 1バイトずつ16進数で、対応する文字を行末にまとめて表示。 BSD, Solaris : -tx1c : 1バイトずつ16進数で、対応する文字を次の行に表示。 $ echo "abcde
papiro 2015/01/12
データのダンプコマンドの使い方。od、hexdump、xxd。

unix

データ
リンク
C#でCSVファイルからデータ読み込む（StreamReaderクラスとString.Splitメソッドによる方法） - whoopsidaisies's diary
ファイルへの書き込みは以下 C#でCSVファイルにデータを書き込むソースコードファイルからの読み込みにはStreamReaderクラスを，文字をカンマごとに区切るのにはString.Splitメソッドを使用する． Nugetで検索したら便利そうなライブラリはたくさんあるし，Microsoft.VisualBasic.dllに含まれるTextFieldParserクラスを使う方法とかもあるが，ここではお手軽に使えるStreamReaderとString.Splitを使用．以下は，CSVファイルから読み込んだ値をスペース区切りで画面に出力するプログラム．ダブルクォートがあってもそのまま除去できないし，データにカンマが含まれるものも扱えない．タイトル行とかももちろん認識しない． static void ReadCsv() { try { // csvファイルを開く using (var
papiro 2014/12/08
CSV

C#

データ
リンク
C#.NET Tips
引越しました：CodePress C#プログラミングTips サンプルコードはC#で記述されていますがVB.NETやC++.NETへも転用可能です。記述に誤りや、別の方法やアドバイスなどあれば掲示板等でコメント頂けると参考になります。コードを簡略化するためにエラー処理などはあまり記述されていません ■C#.NET Tips 目次
papiro 2014/12/05
C#の基本一覧かしらね

C#

データ

.NET
リンク
USP研究所所長　當仲氏に聞く「ユニケージ開発手法」で何が出来るのか？～特別インタビュー
大体どこの会社にも「エクセル名人」と言われる方がいて、僕もいろんな会社に行ってびっくりするんですけど、Ａ３の紙に出したら虫眼鏡で見ないといけないような、ものすごいエクセルの表やグラフがたくさんあるんです。これを作るには、ものすごいエネルギーがいる。また、そのエクセルを簡単に作るにはどうしたらいいかっていうことに、しのぎを削っている会社もあるんですね。ただエクセルを使えば使うほど、みんな限界を感じていると思うんです。エクセルやアクセス、ノーツなどのアプリケーションを使いこなしたら、全て何とかなるというわけではないんですね。アプリケーションというのは、ある目的のために専用で使用することを前提としています。例えばエクセルは表計算が出来ますが、実はそれ以外のことはあまり出来ないんです。エクセルに不向きな処理を行うと、果てしなく時間が掛かることもあります。「ユニケージ開発手法」を用いると、エクセル
papiro 2014/10/30
unix

データ

shell

ユニケージ
リンク
統計屋のためのAWK入門 - あんちべ！
はじめに本稿はAWKという言語を用いて、ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。特にデータの抽出に関して恐るべき簡易さを提供します。具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけでその文字列を含む行を抽出できるのです。大変簡単ですね！また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。複雑な処理をする場合はPythonや
papiro 2014/09/16
データ処理にawk再入門

データ

統計

awk
リンク
「大事なのは情報の自由度です」～當仲寛哲氏・ユニバーサル・シェル・プログラミング研究所代表取締役所長
UNIXのシェルスクリプトを使って、大量データを高速で処理する開発手法が流通業などで利用されている。この「ユニケージ開発手法」を提唱するユニバーサル・シェル・プログラミング研究所の當仲寛哲代表取締役所長は、自らプログラムを書く人物だが、もともとはスーパーのダイエー社員でコンピュータとは無縁、コマンドやシェルスクリプトなどはまったく知らなかった。情報システムの世界に入るきっかけは、衣料品の改革プロジェクトに呼ばれたことだった。当時のダイエーでは紳士服の販売が好調だったが、それが悪くなりかけた時期だった。店舗や商品部の聞き取り調査をしていく間に「それぞれの意見がバラバラ」なことに気づいた。人は自分が見たものや経験したものを基準に意見を言う。会社が大きくなればなるほど、分業になり経験範囲が限られるため、意見がバラバラになってしまう。根拠が違うから結論も違う。方向性を合わせていくのは大変だ。
papiro 2014/08/01
データ

開発

考え方

shell

プログラミング
リンク
なぜ高い金をかけて作ったシステムで今までExcelで簡単に出来ていたことが出来なくなるのか - novtan別館
うん、気持はよく分かるよ。例えばフィルターとか超使ってるし、タブをドンドン増やしてハイパーリンクでつないで元データから引っ張ってきて計算して表組みを作成するとかいつもやってるような作業が新システムだと厳しい（＝できないor莫大な時間と金がかかる）らしい・・。帳票は固定になりますね、帳票増やすと増やした分だけ金かかります、みたいな感じ。エクセルでできることができない何百万のシステム・・うんうん。なんでそんな不自由になるんだろうね。シンプルに考えましょう。きちんとシステム化されていないものをシステム化するというのは言いかえると「業務プロセスを必要最小限に絞る」ことだと思って下さい。何のために作るのか理由はいくつかあります。ざっと上げてみると属人化した業務プロセスを標準化する（しかし、ある人にとってはいつもどおりだがある人にとっては今までやってたことが全然できないシステムになること
papiro 2013/12/05
ビジネス

システム

Excel

データ

帳票
リンク
1