下記のようなカラムの数が一定でないtsvを読み込みたかった。 105497 101731 90359 107575 105320 76175 96971 95604 109100 72563 105730 109194 96971 95604 read_csvで読み込んでみる。 pd.read_csv( 'foo.tsv', sep='\t', header=False ) #=> CParserError: Error tokenizing data. C error: Expected 3 fields in line 4, saw 8 怒られた。途中で3列だと早とちりして4行目で落ちている。 列の数をnamesで指定してあげれば、通るらしい。仮に最大で10列あるとする。 # これをカラム名にする col_names = [ 'c{0:02d}'.format(i) for i in
はじめに このメモの位置付け この解説は、Pythonのunittest機能の使い方を簡単に記録したメモである。Pythonのユニットテスト機能がどのようなものであるのかを説明すること、簡単な例を提示し今後何らかのテストを行いたいと思った際の雛形を提供することを目的としている。 なお、doctestの使い方については扱わない。 それから、多くのテストを実行する際にはnosetestsとか使うと思うが、それも説明していない。 本か公式のドキュメントを読んだほうが当然ちゃんと役に立つ知識が身につくし、仕事で使うならこれではなくてちゃんとしたものを読んだほうが良いと思う。誰のためにも。 対象とするPythonのバージョン Python 2.7.11 Python Python unittestとは Pythonコードのテストを行う上で有用な機能が実装された一群のモジュールのことである。 Pyth
OpenCVに実装されているAKAZE(Accelerated KAZE)特徴量検出を用いて2つの画像のマッチングを行います。検出された特徴点はBrute-Force Matcher(ある特徴点を別の画像の全ての特徴点との比較し距離を計算する)によりどれだけ似ているかが計算されます。 関連記事 画像のヒストグラムを比較し類似度を求める テンプレートマッチングで類似画像を探す やること 2つの画像を読み出す AKAZE検出器を生成しそれぞれの画像の特徴点を検出する BFMatcherにより特徴点間の距離を計算する 特徴点を描画する 使った関数・メソッド cv2.imread : 画像を読み出す cv2.AKAZE_create : AKAZE検出器の生成 detector.detectAndCompute : 特徴点の検出 cv2.BFMatcher : BFMatcherオブジェクトの生成
PyOCRとは何か? tesseract-ocrをpythonから使えるようにしたもの。 pythonからtesseractを呼び出して画像から文字を認識する。 詳しくはhttps://github.com/openpaperwork/pyocr 前提 tesseractをインストールしてあること pythonをインストールしてあること 私の環境はWindows10 Install pip install pyocr 簡単 使い方 GitHubにあるコードを見ながらtesseractをpythonから使えるかどうかの確認をする。 パスはpythonのコードの中で通すことにした。 import sys import os import pyocr import pyocr.builders TESSERACT_PATH = 'C:\\Users\\username\\AppData\\Loc
簡単な欠損値の確かめ方 欠損値を削除する方法 基本的な使い方 全てが欠損値の行を削除する 削除したい列を指定する 変更を元のデータに反映させる 行あたりに残したいデータ数を指定 削除する方向を指定 欠損値を穴埋めする方法 基本的な使い方 列ごとに埋める値を変える 前後の値を使って穴埋めをする 平均値や最頻値などで穴埋め 個別に穴埋めする値を指定する まとめ 参考 実際のデータで分析を行うとデータが不完全で欠損値が含まれていることがあります。 欠損値の扱い方が変わるだけで分析の結果が変化する場合もあります。 そこで本記事では欠損値の処理をすることができるように 簡単な欠損値の確かめ方 欠損値を削除する方法 欠損値を穴埋めする方法 の3つについて解説していきます。 簡単な欠損値の確かめ方 とりあえず各列に欠損値があるかどうかを知りたい、というときはisnull関数とany関数の組み合わせとno
区切り文字で分割: split() 区切り文字で分割するには文字列(str型)のsplit()メソッドを使う。 組み込み型 - str.split() — Python 3.11.4 ドキュメント デフォルトは空白文字(スペースや改行\n、タブ\tなど)で分割する。連続する空白文字はまとめて処理される。 戻り値はリスト。 s_blank = 'one two three\nfour\tfive' print(s_blank) # one two three # four five print(s_blank.split()) # ['one', 'two', 'three', 'four', 'five'] print(type(s_blank.split())) # <class 'list'>
import re # 正規表現 pattern=r'([+-]?[0-9]+\.?[0-9]*)' # 検索テキスト text = 'Test+12 5.14 5, goo -8.36 36. 36.ATT' print('pattern:',pattern,'text:',text) print('match:',re.match(pattern,text)) print('search:',re.search(pattern,text)) print('findall:',re.findall(pattern,text)) # リストに保存 lists=re.findall(pattern,text)
Pythonでは、文字列str型が数字か英字か英数字かを判定し確認するための文字列メソッドがいくつか用意されている。 isascii()以外のメソッドでは、空文字列や記号(,, ., -など)を含んだ文字列は偽となる。-1.23などを数値として判定する方法を最後に説明する。 正規表現を使うとより柔軟に文字種を判定したり、該当の文字種を抽出したりできる。以下の記事を参照。 関連記事: Pythonの正規表現で漢字・ひらがな・カタカナ・英数字を判定・抽出・カウント 数字の文字列strを数値int, floatに変換する方法や、数字と英字の判定ではなく大文字と小文字を判定する方法については以下の記事を参照。 関連記事: Pythonで数字の文字列strを数値int, floatに変換 関連記事: Pythonで大文字・小文字を操作する文字列メソッド一覧 文字列が十進数字か判定: str.isde
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く