Help us understand the problem. What are the problem?
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
Pythonのライブラリの一つ、Pandasはデータサイエンスに欠かせないものです。 Pandasの中でも、read_csvはデータサイエンスの勉強をしている方やデータサイエンティストの方にとって、特に馴染みのある関数かと思います。 read_csvを初めて聞いた人向けに説明すると、この関数はcsv形式のファイルをPandasのDataFrameに読み込むという役割を持っています。*1 基本的な使い方は、以下の通りです。 import pandas as pd df = pd.read_csv("fileName.csv") もし、csvファイルに日本語が含まれている場合はエンコーディングを引数で指定します。 import pandas as pd # cp932 が日本語用のコード df = pd.read_csv("ファイル名.csv", encoding="cp932") ロシア語や
# ヘッダありCSV df = read_csv(filename, header=0) # ヘッダなしCSV df = read_csv(filename, header=None, names=['user_id', 'name']) リファレンスを読む pandasでCSV読み込みをするにあたって、ヘッダ行の扱い方の指示はリファレンスを読んでもいまひとつ理解しづらいものがあります。 header : int, list of int, default ‘infer’ Row number(s) to use as the column names, and the start of the data. Default behavior is to infer the column names: if no names are passed the behavior is identi
目的 pythonで重いcsvファイルを読み込む時に、pandasだと時間がかかる。 そこで早いと噂のdaskを試してみる。 ここでは、daskの中身には詳しく触れず、使い方を説明する。 ちなみに、私が5GBのcsvファイルをdaskで読み込んだ時は、pandasを使用した時よりも10倍くらい早く読み込めた。 daskってなに? daskとはpandasのようなライブラリの一つ。 daskは、pandasのDataFrameの処理を応用しているから、基本的にpandasと同じ動作をする。 早くなる理由は、並列分散を使用しているから。 詳しくはこちらの方の記事をご覧ください(めちゃわかりやすい) 使い方 anacondaをダウンロードした人なら基本的に何もせずに使える。 pandasならば、
日本語を含むcsvファイルを読み込む場合は、encoding='shift_jis'を指定して、pd.read_csv('data.csv', encoding='shift_jis')と書くのは定石です。 しかし、それでもエラーとなってしまう場合があります。 例えば、以下のようなcsvファイルです。 # 例1: 'shift_jis'でエラーとなる clm0 clm1 clm2 clm3 1 Ⅰ APPLE りんご 2 Ⅱ apple リンゴ 3 Ⅲ aPPLe リンゴ 4 Ⅳ Apple 林檎 何が違うのでしょうか?そしてどうすればいいのでしょうか? ここでは、もとのcsvファイルを確認しても、おかしい部分が見当たらず、「何がおかしいの!(怒)」、という場面で対処する方法を説明します。上の2つの例が、大きなヒントとなります。 これを知っておくと、大きな時間短縮になります。 トピック
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く