タグ

Pythonに関するt28atenaのブックマーク (10)

  • 退屈なことはPythonにやらせる...前に考えるべきこと - Lean Baseball

    機械学習, データサイエンスを志向してPythonを勉強したり,この辺のエントリーでを読み漁ったりすると*1, もしかして, 私の仕事ってプログラミングで楽になるのでは!? と気がつく(もしくはそういう記事・を読んで触発される)瞬間があるかと思います, このとかあのとか. このエントリーではそんな素晴らしい学び*2に対して,一つの回答を示してみたいと思います. TL;DR(ここは読んでほしい) プログラミングで解決できる「退屈なこと」とは「回数が多く, 属人性が少ない」作業のことである. 属人性がある仕事はプログラミングをする前に因数分解しよう or 「仕事ごっこ」だったらやめる努力をしよう. Pythonで「退屈なこと」をやるなら,「退屈なことはPythonにやらせよう」もいいですが,「できる仕事がはかどるPython自動処理 全部入り。」が個人的にはおすすめです. 言いたいこと

    退屈なことはPythonにやらせる...前に考えるべきこと - Lean Baseball
  • 【Python】🍜可愛い店員さんがいるラーメン店を食べログ口コミから自然言語処理で抽出してみた。🍜 - Qiita

    1.簡単な概要 この記事では都内ラーメン屋のべログ口コミを自然言語処理して、「可愛い店員さんがいるラーメン店」を探す方法について解説していきます。 先日、べログの口コミを読んでいる中で、**「美人すぎるラーメン店主」**という世の男性なら思わず「なぬ!」と立ち止まってしまうワードを見つけたので、ガチで調べてみたら面白そうだなと思いやってみました。 まずは、口コミデータの取得から。 2.口コミデータの取得 詳しくはこちら↓↓で説明しています。 第1弾:【Pythonラーメンガチ勢によるガチ勢のためのべログスクレイピング 口コミを1件ずつ取得した後に、データフレームにまとめました。 ※べログ規約にもとづき口コミに関する箇所にはモザイクをいれております。ご了承ください。 3.可愛い店員さんがいるお店の定義 可愛い店員さんをどのようにして探すかが一番のポイントですが、 まずは、文章の中で

    【Python】🍜可愛い店員さんがいるラーメン店を食べログ口コミから自然言語処理で抽出してみた。🍜 - Qiita
  • 実践/現場のPythonスクレイピング - Qiita

    !! ======================== !! ※この記事は2019年の記事です。この記事で紹介している内容は2019年当時の内容である事を理解した上で、実際に設定する際は最新の情報を確認しながら行ってください。 !! ======================== !! SeleniumはE2Eテストの自動化などで大きな力を出してくれます。 今回の記事では、下記の内容をまとめてみます。 色々なユースケース 抜け漏れ対策のwait.until()関数 => 実務ではとても重要 IDやClassが無くても、AltやPlaceholderなどから力技で抽出する技 パスワード系 無限スクロール系 必要なツールをまずは揃える Python3.7 ChromeDriver https://sites.google.com/a/chromium.org/chromedriver/dow

    実践/現場のPythonスクレイピング - Qiita
  • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常

    1. Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ

    B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常
  • 野球を科学する技術-Pythonと統計ライブラリと分析基盤 #pyconjp

    PyConJP 2017登壇資料 https://pycon.jp/2017/ja/schedule/presentation/15/ #Python #野球統計学 #セイバーメトリクス #Airflow #Scrapy

    野球を科学する技術-Pythonと統計ライブラリと分析基盤 #pyconjp
  • PythonでWebスクレイピングする時の知見をまとめておく - Stimulator

    - はじめに - 最近はWebスクレイピングにお熱である。 趣味機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。 最近この手の記事は多くあるものの「~してみた」から抜けた記事が見当たらないので、大規模に処理する場合も含めた大きめの記事として知見をまとめておく。 追記 2018/03/05: 大きな内容なのでここに追記します。 github.com phantomJSについての記載が記事内でありますが、phantomJSのメンテナが止めたニュースが記憶に新しいですが、上記issueにて正式にこれ以上バージョンアップされないとの通達。 記事内でも推奨していますがheadless Chrome等を使う方が良さそうです。 - アジェンダ - 主に以下のような話をします。 - はじめに - - アジェンダ

    PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
  • 野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball

    こんにちは.野球(とグルメ)の人です.*1 ビックデータや統計学が相変わらずアツい話題になっている中,野球好きとデータ好きをうならせるこんなが出版されました. [プロ野球でわかる! ]はじめての統計学 作者: 株式会社DELTA,佐藤文彦,student,岡田友輔出版社/メーカー: 技術評論社発売日: 2017/03/14メディア: 単行(ソフトカバー)この商品を含むブログを見る この,早速読ませてもらってとても良い!感銘を受けた!!という感じなのですが, そもそも世の中に野球統計学(セイバーメトリクス)のが増えてきた (野球好きでも)初心者がいきなり読んだら辛いもあるぞ! ???「ワイも野球データを集めて分析したいンゴ」 …などなど,クエスチョンやテーマができたので, 今まで学んだ・実践した野球統計学の学び方・・データを整理するのにいい機会だ! …ということで, レベル別の

    野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball
  • 文章をベクトル化して類似文章の検索 - Qiita

    Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzip

    文章をベクトル化して類似文章の検索 - Qiita
  • Island Life - GC切って性能向上

    About 南の島のプログラマ。 たまに役者。 Practical Schemeの主。 WiLiKi:Shiro 最近のエントリ 米国の大学進学無限cxr高校受験Defense振り返ってみると2019年は色々学んで楽...覚えるより忘れる方が難しい(こともある)眼鏡のつると3DプリンタIris Klein Acting ClassSAG-AFTRA conservatory: Voice Acting創作活動って自分を晒け出さねばならないと...More... 最近のコメント shiro on 歳を取ると時間が速く過ぎるのは、新しいことに挑戦しないから? (2023/03/14)1357 on 歳を取ると時間が速く過ぎるのは、新しいことに挑戦しないから? (2023/03/01)ベアトリーチェ on ハイポハイポハイポのシューリンガン (2022/04/02)ベアトリーチェ on ハイポハ

    Island Life - GC切って性能向上
  • 私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD

    文:Daniel Sim 分析:Lee Shangqian、Daniel Sim、Clarence Ng ここ数ヶ月、シンガポールのMRT環状線では列車が何度も止まるものの、その原因が分からないため、通勤客の大きな混乱や心配の種となっていました。 私も多くの同僚と同じように環状線を使ってワンノースのオフィスに通っています。そのため、11月5日に列車が止まる原因を調査する依頼がチームに来た時は、ためらうことなく業務に携わることを志願しました。 鉄道運営会社SMRTと陸上交通庁(LTA)による事前調査から、いくつかの電車の信号を消失させる信号の干渉があり、それがインシデントを引き起こすことが既に分かっていました。信号が消失すると列車の安全機能である緊急ブレーキが作動するため、不規則に電車が止まる原因となります。 しかし8月に初めて発生した今回のインシデントは、不規則に起こっているように見えるた

    私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD
  • 1