タグ

Pythonに関するtxmx5のブックマーク (84)

  • 【超初心者向け】コピペで動かして楽しむPython環境構築&スクレイピング&機械学習&実用化【SUUMOでお得賃貸物件を探そう!】 - Qiita

    で大丈夫です。 これで環境構築は終わりです。 お手軽すぎる...! 適当にデスクトップにフォルダを作成してそこでnotebookを作成しましょう。 スクレイピング編 さて、そもそも「スクレイピング」とはなんでしょうか? wikipediaさんによると ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない。 つまり「インターネットから情報を自動で収集する」、ということですね。(そのまんますぎる) 今回の分析では、何千、場合によっては何万といった賃貸物件のデータを利用するわけですが、1つの物件に対して ・物件名 ・家賃 ・広さ ・間取り ・立地(最寄り駅、最寄り駅までの距離、詳細な住所) etc... これを手動でExcelに何千回、何万回と打ち込んでいく...、考えただけでもいやになりますよね。 そこでプログラミングで一気にデータを集めます。 ここで一つ大事な注意があります

    【超初心者向け】コピペで動かして楽しむPython環境構築&スクレイピング&機械学習&実用化【SUUMOでお得賃貸物件を探そう!】 - Qiita
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜前処理編〜 - データで見る世界

    さて、前回のブログで足立区の賃貸物件を取得しました。 www.analyze-world.com 同様にして、東京都23区の物件も取得してしまいましょう。今回僕が取得したところ、合計で200,060件になりました。csvファイルで70MBほどですので、Excelだと重すぎて処理スピートがかなり遅いです。いい感じにビッグなデータが手に入ったんじゃないでしょうか。 物件情報を取得したはいいものの、このままだと分析をまわせないので、前処理を施します。今回の最終目標はお買い得物件を探すことなので、応答変数は賃料が主な指標になりそうです。賃料に対して、それぞれのカラムがどのように効いてくるかを考慮しながら処理していきます。 今回使うライブラリはpandasとnumpyだけです。それぞれ区別に保存しておいたファイルを結合して一つのファイルを形成します。 #必要なライブラリをインポート import p

    機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜前処理編〜 - データで見る世界
    txmx5
    txmx5 2024/10/21
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜スクレイピング編〜 - データで見る世界

    こんにちは、Shoです。 今年の6月にミシガン大学ロスを卒業し、晴れてMBAホルダーとなりました。12月までは大学に残って機械学習の研究をしているのですが、いよいよ帰国の時が近づいてまいりました。 来年の頭から東京に戻るので、どのへんに住もうかなぁと思案しておるところです。 しかし住居選びというのは考えなければいけない要因が多くて大変ですね。なるべくお買い得な物件を選びたいところですが、どの区がいいのか、広さはどのくらいの部屋にしようか、2LDKと3Kだとどっちがいいの?とか、これは人間の頭で考える案件ではありませんね。コンピューターができることは全部自動化してしまいたい。 ということで、やってみました。 機械学習を使って東京23区のお買い得賃貸物件を探してみた 物件情報サイトは色々ありますが、今回はSuumoさんを選択。著作権に関しては、利用規約に以下のように書いてあります。 「ユーザー

    機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜スクレイピング編〜 - データで見る世界
  • 10分で理解する Beautiful Soup - Qiita

    Beautiful Soup を使ってクローラーを書く HTML の取得は requests を使い、HTML のパース処理を Beautiful Soup でやるのが基的な使い方です。 import requests from bs4 import BeautifulSoup # スクレイピング対象の URL にリクエストを送り HTML を取得する res = requests.get('http://quotes.toscrape.com/') # レスポンスの HTML から BeautifulSoup オブジェクトを作る soup = BeautifulSoup(res.text, 'html.parser') # title タグの文字列を取得する title_text = soup.find('title').get_text() print(title_text) # >

    10分で理解する Beautiful Soup - Qiita
  • [Python] Djangoチュートリアル - 汎用業務Webアプリを最速で作る - Qiita

    この記事を元に最小の学習コストでWebアプリを作成する方法を記事にしてみました。 こちらもよろしくお願いします。 [[Python] プログラム初心者のためのWebアプリ簡単作成法] (https://qiita.com/okoppe8/items/4cc0f87ea933749f5a49 ) ##この記事について PythonのWebアプリケーションフレームワーク「Django」についてのチュートリアル記事です。 Djangoには定義したデータモデルを元に一覧画面や入力画面を動的に出力する「クラスベース汎用ビュー(class-based generic views)」という仕組みがあります。 これを活用すると単純なCRUD操作(登録・参照・更新・削除)を行うWebアプリを短時間で作成することができます。さらにDjangoのユーザー管理機能を加えてHeroku等のプラットフォームにデプロイ

    [Python] Djangoチュートリアル - 汎用業務Webアプリを最速で作る - Qiita
  • Pythonさえ分かればDjangoでWebアプリは作れる - Qiita

    この記事はDjango Advent Calendar 2020 の最終日の記事です。 はじめに はじめまして。 普段からDjangoを使用してWebアプリを開発しています。 今年もこの時期がやって来ましたね。 ちなみに、去年も同じ日に投稿させて頂きました。 Djangoの個人的Tips 今年の Django Advent Calendar 2020 も素晴らしい、そして実用的な記事が多く、 楽しく拝見させて頂きました。 個人的にDjangoの良さは**「簡単な」アプリケーションを「手軽に」作れるところにあると思っています。 そこでこの記事では、簡単な、そして基的なDjangoアプリケーションを作る過程を**コードとともに記載したいと思います。 この記事がDjangoのより一層の普及に少しでも貢献できれば幸いです。 目次 前準備 アプリケーションの作成 Modelの作成 Viewの作成

    Pythonさえ分かればDjangoでWebアプリは作れる - Qiita
  • VBAユーザーのためのPython入門 ~xlwingsでExcelからPythonを呼び出す~ - Qiita

    Excel VBAを目指して、xlwingsを使ってExcelからPythonを呼び出す方法を説明します。 Note: xlwings自体はmacOSにも対応していますが、記事投稿時点ではUDF(ユーザー定義関数)を使えるのはWindowsのみとなっています。 1. はじめに 1.1. 対象読者 Excel VBAでいろいろとEUCツールを作っているけど、 もっと効率的にツールを作りたい プログラミング技術を高めたい VBAのしょぼさにうんざりしている C++や.NETでdllを作るのは面倒or難しそう Pythonで作ったプログラムをユーザーに配布したい といった人を対象にしています。VBAしか使ったことがないと、Pythonの説明でよくあるコマンドラインでの実行や、pyファイルの直接実行に慣れないかもしれません。ですが、Pythonのライブラリーxlwingsを使えば、VBAライク

    VBAユーザーのためのPython入門 ~xlwingsでExcelからPythonを呼び出す~ - Qiita
  • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

    概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

    kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
  • 電磁場(SP)

    教科書の3章ではPoisson方程式(ポアソン方程式)の導出とその応用について学んだ.そして,「どんな複雑な問題でも数値的解法ならば必ず領域内の全ての点における電位が決定できる」ことを教えた.実際,複雑な問題(たとえば電子レンジや携帯電話など)で系の任意の点の電位,電場を求めるためのシミュレーションソフトウェアが市販されており,広く使われている. このようなソフトウェアはもちろん非常に高度な技術を駆使して問題を解いているのだが,Poissonの方程式を数値的に解く基原理は実は驚くほど簡単なのだ.このページでは,「世界一やさしい」を目標に,Poissonの方程式を数値的に解くシミュレーションソフトウェアについて一緒に考えてみようと思う. 基礎方程式は以下の形をしている.分かっているものは電荷の分布で,知りたいものは系の全ての点におけるだ. (1) いま,話を簡単にするために系は二次元とする

  • 執筆体験記「Kaggleで磨く 機械学習の実践力」 - Qiita

    はじめに こんにちは。(株) 日立製作所の Lumada Data Science Lab. の諸橋 政幸です。 プライベートな活動になりますが、「Kaggleで磨く 機械学習の実践力」というタイトルのを執筆し、6月に無事発売しました。書籍の執筆という貴重な体験をしたこともあり、せっかくなので「執筆を通じて知ったこと/経験したこと」などを書きたいと思います。将来的にを書きたいなと考えている方の参考になれば幸いです。 記事では以下のことを書いています。 なぜ執筆することになった/したのか 企画から発売までのプロセス 執筆する際にどんなことで困ったか まずはの紹介です! 興味を持った方は是非読んでみてください!書店にも並んでます!! [タイトル] Kaggleで磨く 機械学習の実践力 -- 実務xコンペが鍛えたプロの手順 https://www.amazon.co.jp/dp/4865

    執筆体験記「Kaggleで磨く 機械学習の実践力」 - Qiita
  • Code Style — The Hitchhiker's Guide to Python

    Code Style¶ If you ask Python programmers what they like most about Python, they will often cite its high readability. Indeed, a high level of readability is at the heart of the design of the Python language, following the recognized fact that code is read much more often than it is written. One reason for the high readability of Python code is its relatively complete set of Code Style guidelines

    Code Style — The Hitchhiker's Guide to Python
    txmx5
    txmx5 2024/02/29
  • 本気でプログラミングを覚えるならこの夏はPyQをやりきってみてはどうだろう? - Lean Baseball

    Pythonista(Python使い)の中で有名かつプロフェッショナルが集まる強者集団(株)ビープラウドさん*1が満を持してリリースされたPythonのオンライン学習サービス「PyQ」を試してみました. pyq.jp 佐藤社長のご厚意で利用アカウントをいただき,実際利用してみました.*2 簡単ではありますが,利用した時のレポートとサービスの感想,「どんな方々にオススメか?」的なレビューを簡単に書きたいと思います. この夏,プログラミングを覚えたい(特にPython)という方は是非ご一読ください! で,PyQどうなのよ? 下手なを読んだり勉強会参加するマンになるぐらいだったら,PyQを一ヶ月集中してやり切ったほうが絶対いい!この夏に(2,980円はお買い得). 学習コンテンツの粒度・写経をベースに覚える思想・操作感が良い(一部改善して欲しいところはあるが) 「実務で通用するレベルに」「9

    本気でプログラミングを覚えるならこの夏はPyQをやりきってみてはどうだろう? - Lean Baseball
  • Pythonで仕事をする人のための書籍まとめ2021 - 学習, 業務効率化, アプリ開発からデータサイエンスまで - Lean Baseball

    2020年も多くの素晴らしい技術書がたくさん出ました. その中でも(昨今のトレンド・流行りも手伝ってか)Pythonの多さ・充実度合いは目立つものがあります. (このエントリーを執筆した12/19時点で)Amazonカテゴリで「Python」と検索すると1,000件以上出てきます*1. これだと目的のにたどり着くだけで疲れそうです. このエントリーでは, 主にPythonを学びたい・現在使っている方 手元の業務を効率化したり, RPAっぽいことをやりたい方 エンジニア・データサイエンティストとして業務や趣味個人開発をされている方 を対象に, 今そして来年2021年に読んでおきたいPython関連書籍(と抑えておきたいサービス) をエンジニアでありデータサイエンティストである私独自の視点で紹介します*2. なおこのエントリーはこのブログで例年執筆している「Pythonまとめ」の2

    Pythonで仕事をする人のための書籍まとめ2021 - 学習, 業務効率化, アプリ開発からデータサイエンスまで - Lean Baseball
  • Pythonで実装するアヒル本「StanとRでベイズ統計モデリング」 - Qiita

    アヒルとは アヒル「StanとRでベイズ統計モデリング」、ベイズ界隈では有名な書籍です。 ベイズ推定を実装したい、と思ったときにまず最初に手に取ると良いでしょう。 しかし、ベイズとは何かという点について解説しているではないため、ベイズの枠組みで事例を積み重ねることで事後分布を更新できるために得られる利点などについて納得ができていない方は、ベイズ自体の基礎的な解説を読んでからチャレンジしたほうが良いと思います。 なぜPythonか 上記のオフィシャルでは、タイトルどおり実装はRなんですね。 Pythonで実装したい方も多いと思います。 私もその一人でしたので、Python実装をつくりました。 Python実装にあたって Stanのインターフェイスについては、PyStanでRとほぼ変わらない使いごこちを実現できます。 一方で、データ整形についてはPandasを使うので、Rとはかなり異な

    Pythonで実装するアヒル本「StanとRでベイズ統計モデリング」 - Qiita
  • SQL と Pandas の対応表 - Qiita

    トピック SQL のクエリと、Pandas のメソッドの対応表を作成する。 SQL 勉強中のため、備忘録代わりに箇条書き(殴り書き)で書いていく。 Udemy のこちらのコースで勉強していました。 DBやテーブル自体の更新・操作に関するものはこちらにまとめている。(SQL のクエリだけを書き散らかしているだけ) 順序 記述順序 select from join系(+on) where group by having order by limit 実行順序(※) from join系(+on) where group by select having order by limit (※)追記 @nora1962jp さんからご指摘をいただきましたので、コメント内容を追記します。 実行順序 from join系(+on) where SQLについてなら実行順序はonとwhereの順序はonが先

    SQL と Pandas の対応表 - Qiita
  • 渋谷駅前で働くデータサイエンティストのブログ

    これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。 はじめに 公式のプロフィールはLinkedInに掲載しております。 このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。 また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも

    渋谷駅前で働くデータサイエンティストのブログ
  • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

    毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

    2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
  • pandasで欠損値NaNを削除(除外)するdropna | note.nkmk.me

    pandas.DataFrame, Seriesの欠損値NaNを削除(除外)するにはdropna()メソッドを使う。 pandas.DataFrame.dropna — pandas 2.0.3 documentation pandas.Series.dropna — pandas 2.0.3 documentation 欠損値NaNの抽出・置換・カウントについては以下の記事を参照。 関連記事: pandasで欠損値NaNを含む行・列を抽出 関連記事: pandasで欠損値NaNを置換(穴埋め)するfillna 関連記事: pandasで欠損値NaNが含まれているか判定、個数をカウント なお、pandasではNaN(Not a Number: 非数)のほか、Noneも欠損値として扱われる。 関連記事: pandasにおける欠損値(nan, None, pd.NA) 記事のサンプルコードの

    pandasで欠損値NaNを削除(除外)するdropna | note.nkmk.me
    txmx5
    txmx5 2024/02/20
  • Pythonで文字列を置換(replace, translate, re.sub, re.subn) | note.nkmk.me

    Pythonで文字列を置換するには、replace()やtranslate()、正規表現reモジュールのre.sub(), re.subn()などを使う。スライスで位置を指定して置換することもできる。 いずれの場合も、置換後の文字列として空文字列''を指定することで、元の文字列を削除する処理としても利用できる。 関連記事: Pythonで文字列の一部を削除(stripなど) 置換するのではなく、文字列の中から条件を満たす部分文字列を抽出したい場合やその位置を確認したい場合は以下の記事を参照。 関連記事: Pythonで文字列を抽出(位置・文字数、正規表現) 関連記事: Pythonで文字列を検索(〜を含むか判定、位置取得) 大文字と小文字を変換する場合は専用のメソッドが用意されている。 関連記事: Pythonで大文字・小文字を操作する文字列メソッド一覧 テキストファイルの中身を置換したい

    Pythonで文字列を置換(replace, translate, re.sub, re.subn) | note.nkmk.me
    txmx5
    txmx5 2024/02/20
  • pandas.DataFrameの行を条件で抽出するquery | note.nkmk.me

    pandas.DataFrameから任意の条件を満たす行を抽出するにはquery()メソッドを使う。比較演算子や文字列メソッドによる条件指定、複数条件の組み合わせなどを簡潔に記述できる。 pandas.DataFrame.query — pandas 2.1.4 documentation Indexing and selecting data - The query() Method — pandas 2.1.4 documentation ブーリアンインデックス(Boolean indexing)による条件指定については以下の記事を参照。 関連記事: pandasで複数条件のAND, OR, NOTから行を抽出(選択) 特定の型の列を抽出したり、行名・列名で行・列を抽出したりすることも可能。 関連記事: pandas.DataFrameから特定の型の列を抽出・除外するselect_dt

    pandas.DataFrameの行を条件で抽出するquery | note.nkmk.me
    txmx5
    txmx5 2024/02/20