Np-Urのデータ分析教室 オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます
1.簡単な概要 この記事ではPythonのBeautiful Soupを使った食べログ口コミスクレイピング方法について解説していきます! 私自身🍜が大好きで昔は年間100杯以上食べ歩いてきた自称ラーメンガチ勢です。しかしながら、直近の健康診断にひっかかり、医者からドクターストップをかけられてしまいました。。。 行き場をなくしたラーメン熱を発散すべく**機械学習でラーメンレコメンド(隠れた名店をレコメンドで発掘)**に挑戦してみることにしました。 今回は、学習データを集めるためのスクレイピングです。 世の中に食べログスクレイピング記事はいくつかありましたが、 "ラーメン屋でかつ点数が高い名店のみ" を点数順に抽出する方法が見当たらなかったのでやってみました。 私自身スクレイピング初心者ですが、簡単に食べログの口コミが取得できましたので、是非チャレンジしてみてください。 ※食べログ規約にもと
pandasでDataFrameやSeriesの要素・行・列に任意の関数を適用するには、map(), apply(), applymap()メソッドを使う。 後半で述べるように、一般的な処理はDataFrameやSeriesのメソッドとして提供されている。また、NumPyの関数にDataFrameやSeriesを渡して処理することもできる。map()やapply()は遅いので、可能であれば専用のメソッドやNumPyの関数を使うほうがよい。 本記事のサンプルコードのpandasおよびNumPyのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。 import pandas as pd import numpy as np print(pd.__version__) # 2.1.2 print(np.__version__) # 1.26.1
この記事について 今までなんとなくで使用していたpandasですが、なんとなくで実装していたコード(日経平均予想のやつです)が汚くメンテナンスが難しくなってきたので、一度ちゃんとpandasでのデータの扱い方をまとめておこうと思って書いたものです。 pandasの公式ドキュメントに Intro to Data Structures というものがあり、基本的にはそこで説明されていることの一部をピックアップして紹介している記事になります。 http://pandas.pydata.org/pandas-docs/stable/dsintro.html 目次 この記事について 目次 Series: 1次元のデータ Seriesの作り方 Seriesはnumpyのndarrayに似ている SeriesはPythonの辞書に似ている ベクトル的な計算もできます Name属性 DataFrame: 2
概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日本語で整理したものがなさそうなので。 サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32
この記事では、他人が書いたコードを扱うための練習法を一から説明します。目標は、 Spyder Python IDE という今まで触ったこともないプロジェクトのコードに任意の変更を加え、途中で行き詰ることなく、目的達成に必要な情報 のみ 習得することです。ここでは、勘や実験的な手段、そしてプロの現場で養った洞察力を武器に問題に対処する方法を学びます。形式ばったレッスンのように、苦痛を感じることはないでしょう。満足感や挫折、葛藤を味わいながらプロジェクトを進め、最終的には(なんとか動く程度の)パッチを完成させ、大規模で不慣れなコードベースに機能を追加します。 プログラミングを学んでいる人は皆、あらゆる種類のプログラムで大量のコードを書いています。それは、問題集に載っているアルゴリズムを実装するにせよ、ウェブサイトの構築やビデオゲームの作成をするにせよ同じです。ところがプロのソフトウェアエンジニ
API制限 users/showは900件まで/15分 API制限が面倒なTwitterなのですが、回避の方法はコード7区の管理人さんの手法により。いつもありがとうございます。 TwitterAPI でツイートを大量に取得。サーバー側エラーも考慮(pythonで) # coding=utf-8 import sys import tweetkey import os from requests_oauthlib import OAuth1Session import csv import time import json import datetime def init(): # 各種キーをセットいつもの外部ファイルから CONSUMER_KEY = tweetkey.twkey['CONSUMER_KEY'] CONSUMER_SECRET = tweetkey.twkey['CONSU
Pythonの仮想環境構築(2017年版) pyenvとpyenv-virtualenvとvirtualenvとvirtualenvwrapperとpyvenvとvenv Pythonvirtualenvpyenv 追記 2017/01/29 突っ込み記事を書いていただきました。ありがとうございます。 Pythonの仮想環境構築 2017.01版 コメント欄で@shibukawaさんも述べられていますが、virtualenvとvenvはほぼ同じなので、実質はpyenv or virtualenv(venv)の2択だけど、virtualenvが既にデファクトスタンダードとして地位を確立しているとのこと。 記事内ではpyenv推しをしていますが、virtualenvを使うことにします。僕はライトPythonユーザなので周辺環境はできるだけデファクトに乗っかって楽をしたいので。 はじめに Pyt
小ネタです。 Amazon EC2上でPythonを使う際、状況に拠ってはPython3系を用意したいという場合があるかと思いますが、現行新規に作成したEC2(Amazon Linux AMI)の場合は環境がPython3系ではありません。 この環境に手を加えてPython3系の環境を準備する手段は幾つかあるかと思いますが、AWSプレミアムサポートのナレッジベースのページに、virtualenvを使った非常にシンプルな環境準備の方法が展開されていましたのでサクッとご紹介してみたいと思います。 Create an isolated Python 3.4 environment with Boto 3 on EC2 using virtualenv まずはじめにEC2環境を用意します。起動時点でのAmazon Linux AMIを選択し、インスタンスを起動。 サーバにログインし各種更新作業を行
Python3で、urllibとBeautifulSoupを使ってWebページを読み込む方法についてまとめます。 urllibを使ったページの取得 まず、Python3の標準ライブラリであるurllibを使ってページを取得します。Python2から書き方が変わっているので注意が必要です。 import urllib.request url = 'http://www.rekibun.or.jp/grutto/museum2015.html' response = urllib.request.urlopen(url) data = response.read() ここで、response.read()はbytesオブジェクトを返します。以下はその抜粋です。日本語がバイト列として表現されてしまっています。 b'<!DOCTYPE html> (中略) <title>\x8c\xf6\x89v
このページでは、Pandas で作成したデータフレームを操作して、特定の行・列を取得し、目的の形へ加工する手順について紹介します。 なお、特定の行、列を除外する方法については、「Pandas のデータフレームの特定の行・列を削除する」の記事をご参照ください。 特定の列を取得する カラム名 (列名) を指定して、特定の列を抽出できます。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く