CSVs are kinda bad. We know this, but sometimes it’s helpful to remember why they’re kinda bad. Maybe you need to work with CSVs and you’re using Python, because Python is kinda good. And someone else somewhere wrote a CSV: import csv data = [ ['Name', 'Comment'], ['Alice', 'She said, "Hello" and waved.'], ] with open('/tmp/data.csv', 'w', newline='') as file: writer = csv.writer(file, quoting=csv
さて、ビッグデータ全盛の昨今、数ギガバイト程度のデータのやり取りは珍しくもなんともない時代になりました。交換用データファイルのフォーマットもいろいろな形式が使われていますが、ここではPythonで一般的に使われているファイル形式を簡単に検討してみましょう。 CSV¶昔から、単純な表形式のデータにはCSVが使われてきました。Microsoft Excelをはじめとしてさまざまなツールでサポートされており、幅広い環境で利用できます。 データの作成¶例として10万行・100カラムのデータを作成し、CSV形式で保存してみましょう。インデックスとして、datetime型の値を指定してます。 %pip install pandas pyarrow numpy tqdm dask graphviz import sys import numpy as np import pandas as pd pd.
Introduction Pandas is the main Data analysis package of Python. For many reasons, Native Python has very poor performance on data analysis without vectorizing with NumPy and the likes. And historically, Pandas has been created by Wes McKinney to package those optimisations in a nice API to facilitate data analysis in Python. This, however, is not necessary for Rust. Rust has great data performanc
はじめに データの概要 データの取り出し方 ヘルスケアアプリからXMLファイルを書き出す XMLファイルをcsvファイルに変換する 分析例 おわりに はじめに 本記事では、iOS標準アプリ「ヘルスケア」からデータを書き出し、csvに変換する方法をまとめます。 データの概要 ヘルスケアアプリはiOSに標準で搭載され、日常の歩数などが記録されています。自分に身近なデータなので、分析の仮説も立てやすく、データ分析の題材として便利かと思います。 データの取り出し方 手順は以下の通りです。 ヘルスケアアプリからXMLファイルを書き出す XMLファイルをcsvファイルに変換する ヘルスケアアプリからXMLファイルを書き出す まずはヘルスケアアプリからデータを書き出します。この時点でcsv形式になっているPythonなどで扱いやすいのですが、XMLファイルでしか書き出すことはできません。 まずは、カレン
やったこと pythonで2次元配列データを一時保存するときによく使う pickle.dump joblib.dump pyarrowに変換してparquet保存 pd.write_csv のそれぞれについて読み書き速度と保存容量を比較しました。 結論 圧縮率と速度ならpickle protocol=4 一部だけ読んだり書いたりを繰り返すような場合はpyarrowでparquet保存 が良さそう 試行環境 CPU: Xeon E5-2630 x 2 chip VRAM: 128GB Windows8 64bit python 3.6 比較に使ったデータ 機械学習用の特徴量データで試行しました ・pandas.DataFrameの 536行178886列 0.77GB ・pandas.DataFrameの4803行178886列 6.87GB 比較結果 0.77GBのDataFrame 6.
疎通できる構築したルータ一覧を作成する必要があり、 Pythonでルータにpingして、その結果を一覧にしてみました。 はじめに ある日、Prometheusの監視対象ルータ一覧を作成することにしましたが、 管理台帳上ではルータは120台ぐらいあるように見えます。 しかしながら、よくよく確認すると、構築が延期になったり、そもそも欠番になったりして、 実際に構築したルータが、どれかよくわからない状態になっていました。 構築されていないルータを監視対象に入れるのはもったいないので、 疎通できるルータの一覧を作成することにしました。 疎通確認はpingでしますが、 1回目のpingでは応答しないルータもあるため、必ず2回pingを実行して、 ルータ一覧を作成することにします。 今回は雑に宛先リストを作成して、Pingの結果(OK or NG)を、宛先リストに追記します。 後々、YAML形式に変換
I have made a simple Scrapy spider that I use from the command line to export my data into the CSV format, but the order of the data seem random. How can I order the CSV fields in my output? I use the following command line to get CSV data: scrapy crawl somwehere -o items.csv -t csv According to this Scrapy documentation, I should be able to use the fields_to_export attribute of the BaseItemExport
# Flask + Nuxt.js(spa) + axiosでCSVファイルをmultipart/form-dataによりアップロードする Flask + Nuxt.js + axiosでCSVファイルをmultipart/form-dataによりアップロードする。なお、Nuxt.jsのモードはspaにしている。 FlaskとNuxt.jsの連携を確認したいので、バリデーションやエラーのハンドリングはしない。 まずFlaskでファイルのアップロードを確認し、その後Nuxt.jsでファイルをアップロードしていく。 # FlaskでCSVファイルをmultipart/form-dataによるアップロード(POST)を受けつける # Flaskをインストールする pipenvでFlaskが動く環境を作る。
from urlparse import urlparse import urllib def toGSBL(str_url, character_code) scheme, netloc, path, params, query, fragments = urlparse(unicode(str_url, character_code, 'ignore')) netloc = netloc.encode('idna') path = urllib.quote_plus(path.encode('utf-8'), '') if len(path) > 0 else '/' query = urllib.quote_plus(query.encode('utf-8'), '') if len(query) > 0 else '' return scheme + '://' + netloc
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く