並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 37 件 / 37件

新着順 人気順

beautifulsoup select classの検索結果1 - 37 件 / 37件

  • OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z

    凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

      OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z
    • 日本のウェブデザインの特異な事例

      sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

        日本のウェブデザインの特異な事例
      • ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記

        この記事は、以下のハローワークインターネットサービスから求人情報を自動で取得する試みを記録したものです: www.hellowork.mhlw.go.jp まずは、ソースコードと実行結果をお見せし、後ほどこの記事を書いた経緯などを話します。 ソースコード:HelloWork_Scraping_ST.py from selenium import webdriver from selenium.webdriver.support.ui import Select import time from bs4 import BeautifulSoup import re # ハローワークインターネットサービスのURL url = "https://www.hellowork.mhlw.go.jp/" # 以下からご自分で使用しているChromeのバージョンに合ったChromeDriverをダウンロ

          ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記
        • 技術blogのリンクを投げたらChatGPTが要約して、いい感じに整形してチャンネル投稿してくれるbotを社内Slackに生やしたら捗った話

          こんにちは、株式会社シグマアイのエンジニアの@k_muroです。 今回の記事は最近導入した「技術blogを良い感じに共有してくれるSlack bot」のご紹介を。 はじめに 技術の進化は止まらない。(真面目な話、AI系の進捗がマジですごいて全然追えない) 毎日のように新しい技術、フレームワーク、ライブラリ、ツールが生まれています。そんな中でエンジニアとして働いていると、この情報の波に疲れを感じること、ありませんか? ありますよね?(脅迫) 実際私もその一人で、この小さな疲れが積み重なって大きなストレスとなることに気づきました。 「新しい技術情報、追いつけるかな?」 「あのブログ記事、後で読もうと思ってたのに、どこいったっけ?」 「チーム全員が同じ情報を持ってるか心配だな。」 そんな日常の疑問や不安から逃れるための一歩として、私はあるSlack botを開発しました。このbotは、送られた技

            技術blogのリンクを投げたらChatGPTが要約して、いい感じに整形してチャンネル投稿してくれるbotを社内Slackに生やしたら捗った話
          • Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ

            はじめに Webスクレイピングの基本事項 Webスクレイピング(Scraping)とは Webスクレイピングの活用シーン Webスクレイピングの基本的な仕組み Webスクレイピングの注意事項 取得先への攻撃とみなされたり、規約違反や、著作権法違反に問われることもある 取得先の変更に影響を受ける 取得先がAPIを公開しているならそちらを活用する方が良い Webスクレイピングの実践方法 Webスクレイピングを実践するには 1. ベンダーのサービスやツールを利用する 2. 自分でプログラムを作成する なぜPythonなのか? Pythonでのスクレイピング実践方法 事前準備 BeautifulSoup4のインストール 模擬Webサイトの構築 Webサーバーを立ち上げる 初級編:特定の要素から単一の要素を抜き出す 中級編:あるページから繰り返しを伴う複数の要素を抜き出す 上級編:複数のページから複

              Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ
            • 機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ

              こんにちは。データサイエンティストの堀部です。 この記事は Enigmo Advent Calendar 2020 の9日目の記事です。 何か社外のデータを使っていい感じのことができないかなと思っていたところ、3日目の竹本さんの記事がおもしろく、パクリ二次創作しました。 短期間で実装したので汚いコードで見苦しいかもしれないですがご了承ください。ちなみに、私は競馬は簡単なルールを知っているくらいでズブの素人です。 目次 使用したライブラリ データ取得 前処理 学習 予測・評価 VSオッズ低い順 VS競馬必勝本 感想 参考資料 使用したライブラリ import urllib.parse import urllib.request as req from time import sleep import category_encoders as ce import lightgbm as lgb

                機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ
              • the peculiar case of japanese web design - sabrinas.space

                the peculiar case of japanese web design a project that should not have taken 8 weeks how is japanese web design different? in this 2013 Randomwire blog post, the author (David) highlighted an intriguing discrepancy in Japanese design. While the nation is known abroad for minimalist lifestyles, their websites are oddly maximalist. The pages feature a variety of bright colours (breaking the 3 colou

                • 10分で理解する Beautiful Soup - Qiita

                  Beautiful Soup を使ってクローラーを書く HTML の取得は requests を使い、HTML のパース処理を Beautiful Soup でやるのが基本的な使い方です。 import requests from bs4 import BeautifulSoup # スクレイピング対象の URL にリクエストを送り HTML を取得する res = requests.get('http://quotes.toscrape.com/') # レスポンスの HTML から BeautifulSoup オブジェクトを作る soup = BeautifulSoup(res.text, 'html.parser') # title タグの文字列を取得する title_text = soup.find('title').get_text() print(title_text) # >

                    10分で理解する Beautiful Soup - Qiita
                  • データ収集から機械学習まで全て行って競馬の予測をしてみた

                    概要 ※ Qiitaから移行して、一部追記しました(さらに追記の項を参照) 元タイトル:データ収集からディープラーニングまで全て行って競馬の予測をしてみた 某T大学で情報系を専攻している学生です。Qiitaの記事を色々見ていたら、こんな記事を発見。 ディープラーニングさえあれば、競馬で回収率100%を超えられる この記事の回収率100%達成に関しては、購入シミュレーションした馬券の数が少ないので、他の期間でも成立するのかはわかりません。ソースコードも有料なのでどうやっているのかの詳細もわかりません。しかし、自分で競馬予測をしてみても面白そうだと思ったので、勉強するつもりで実際にやってみました。 データ収集・分析・予測のすべてを行うことになるのでかなり勉強になります。 なぜ競馬なのか? もしかしたらお金になるかもしれないという欲もありましたが、競馬は控除率が高いらしいのであまり期待はできませ

                      データ収集から機械学習まで全て行って競馬の予測をしてみた
                    • 旅行予約サイトの「今あなた以外に○○人が見ています」はウソなのか - Qiita

                      旅行予約サイトの「今あなた以外に○○人が見ています」はウソだったことが判明 - GIGAZINEという記事が注目されています。 本記事の内容を要約すると、下記のような内容です。 Harpaz氏がOneTravelで飛行機の搭乗券を予約しようとした時、「38人がこの搭乗券をチェックしています」と表示された。 Harpaz氏がJSのソースコードをチェックすると、28から44までの数字がランダムに生成・表示されているだけだった。 こういうやつの話ですね。 では、日頃わたしたちが使う、他のサイトはどのようなロジックになっているのでしょうか。 流石に日本にも進出しているような大手サイトは、OneTravelのようにJSソースからロジックを確認できそうにありませんので、統計的に確認しようと思います。 本記事では、ぱっとみで同様のUIが見つかった、 Expedia Agoda に言及します。 なかなか興

                        旅行予約サイトの「今あなた以外に○○人が見ています」はウソなのか - Qiita
                      • 図解!Python Scrapyの使い方を徹底解説!(サンプルコード付きチュートリアル) - ビジPy

                        Python3におけるScrapyの使い方について初心者向けに解説した記事です。 最初にScrapyとはどのようなものかを説明し、その後に、Scrapyのインストール方法と基本的な使い方を、サンプルコード付きのチュートリアル形式で、具体的な例を用いて解説していきます。 Scrapyについて、もし動画教材で体系的に学ばれたい方は、以下の割引クーポンをご利用いただければと思います。クリックすると自動的に適用されます。期間限定になりますのでお早めに。 >> 「PythonでWebスクレイピング・クローリングを極めよう!(Scrapy、Selenium編)」(Udemyへのリンク) Scrapyとは、できること Scrapy(読み方:スクレイピー)とは、Pythonのスクレイピング・クローリング専用のフレームワークです。主にWebページからのデータ取得に用いられます。 今までのWebスクレイピング

                          図解!Python Scrapyの使い方を徹底解説!(サンプルコード付きチュートリアル) - ビジPy
                        • Pythonでスクレイピングした結果をテキストマイニングしてLINEに送信する - Qiita

                          アプリ説明 占いたい時期を西暦で入力して、上半期か下半期を選択。占いたい星座を入力すると、占いサイトより該当の星座占いをスクレイピングして、結果をテキストマイニングして画像を生成させます。 生成した画像はLINE Notifyを使用して自分のアカウントに送信されるようにしました。 生成される画像のイメージ 使用したライブラリ WordCloud ワードクラウドの生成 https://pypi.org/project/wordcloud/ Janome 形態素解析エンジン https://pypi.org/project/Janome/ https://github.com/mocobeta/janome BeautifulSoup スクレイピングツール https://pypi.org/project/BeautifulSoup/ https://www.crummy.com/softwa

                            Pythonでスクレイピングした結果をテキストマイニングしてLINEに送信する - Qiita
                          • ハローワークから求人情報をスクレイピングする

                            Python + Selenium + Beautiful Soupでハロワをスクレイピング Python3でSelenium(ChromeDriver)とBeautiful Soupを使って、ハローワークの求人情報を取得する方法についてです。今回は東京都千代田区の求人情報を取得しようと思います。 ハローワーク 実装方法 まず最初にライブラリを読み込みます。 from selenium import webdriver from selenium.webdriver.support.ui import Select import time from bs4 import BeautifulSoup Chrome Driverを起動し、ハローワークのトップページにアクセスさせます。 url = "https://www.hellowork.mhlw.go.jp/" driver = webd

                              ハローワークから求人情報をスクレイピングする
                            • 【Python】TwitterのWebスクレイピング - Qiita

                              はじめに TwitterをPythonでWebスクレイピングするとしたらこんな感じ、というコードです。 ※Twitter社に事前の承諾なしでスクレイピングを行うことは明示的に禁じられているのでご注意を…! 詳細はこちら↓ ⇒Webスクレイピングにおける注意事項 スクロールして読み込むタイプのページに対するスクレイピングの参考資料としてご覧頂ければ幸いです。 今回のコード作成にあたり参考にさせて頂いた情報はページ下部にあります。 環境 Python3 使用ライブラリ HTTPリクエスト:Requests スクレイピング:BeautifulSoup4 ソース # coding: UTF-8 import requests from bs4 import BeautifulSoup import csv import time from datetime import datetime # #

                                【Python】TwitterのWebスクレイピング - Qiita
                              • chatGPT-4に「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」で作ってと頼んだら・・・コード1行も書かずに出来た😅|hantani

                                chatGPT-4に「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」で作ってと頼んだら・・・コード1行も書かずに出来た😅 ある所で、「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」は案件定義で3日かかりますよと書いてありました。 chatGPT-4使ったらどうなるんだろうと思ってやってみました。 結論をいうと「余裕で案件定義もプログラムもコードを一行も書かずに出来ました」 以下、「Q.」が質問(プロンプト)です。「A.」がchatGPT-4からの回答です。 プロンプタ(魔術師)とchatGPTとのリアルなやり取りです。長いですよ😅 Q.あなたはプログラマです。ウェブスクレイピング→情報をPDF保存の自動化ツール開発はどのような案件がひつようでしょうか? A.ウェブスクレイピングと情報をPDF保存の自動化ツールを開発するには、以下の要件が必要です。 プロジェクトの

                                  chatGPT-4に「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」で作ってと頼んだら・・・コード1行も書かずに出来た😅|hantani
                                • 【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】

                                  日本語の全文検索ぜんぶんけんさく (full-text search, FTS) を、高速に実行する Python コード例です。 Python の標準モジュール sqlite3 を使用しました。 sqlite3 から、SQLiteエスキューライト の全文検索 (FTSエフティーエス) を使ってみました。 試したのは、FTS4エフティーエスフォー と FTS5エフティーエスファイブ の2種類です。 ところで、SQLite の読み方は色々ありました。YouTube では、エスキューライト、エスキューエライト、スィクライト、スィクエライト、などの発音を聞きました。 全文検索の使い方(FTS の使い方)ですが、テキストを N-Gram にして、FTS4 か FTS5 の仮想テーブルに INSERT するだけでした。 (2022年2月5日 追記)MeCab の使い方も書きました。 MeCab で

                                    【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】
                                  • 【初めてのスクレイピング】スマブラのVIPいきやすいキャラ作ってみた【BeautifulSoup】【ついでにデータ解析】 - Qiita

                                    import requests from bs4 import BeautifulSoup r = requests.get('https://kumamate.net/data/?mode=rate&fighter=1') data_1 = BeautifulSoup(r.text, 'html.parser') <!DOCTYPE html> <html lang="ja"> <head> <!-- Global site tag (gtag.js) - Google Analytics --> <script async="" src="https://www.googletagmanager.com/gtag/js?id=UA-161179132-1"></script> <script> window.dataLayer = window.dataLayer || []; fun

                                      【初めてのスクレイピング】スマブラのVIPいきやすいキャラ作ってみた【BeautifulSoup】【ついでにデータ解析】 - Qiita
                                    • webスクレイピングで右翼・左翼メディアの見出しを自動一括入手【python】 | 独プロ

                                      本記事を読めば、Pythonでwebのデータを自動で取得し、正しい情報を見極めることができるようになります。 pythonを勉強するとき、どうせなら楽しく実用的に学びたいとは思いませんか。 本記事は自信をもってその楽しさを提供することができます。 webスクレイピングとは ウェブ上には膨大な情報が存在していて、その情報量は今現在も加速度的な勢いで増え続けています。 そんなweb上から、プログラミングによって自動で情報を取得する方法が「webスクレイピング」という技術なのです。 例えば次のような簡単なプログラムを書くだけで、あの人気メディアの「東洋経済オンライン」のランキング記事の見出しを取得することができます。 from bs4 import BeautifulSoup import requests url = 'https://toyokeizai.net/' r = requests

                                        webスクレイピングで右翼・左翼メディアの見出しを自動一括入手【python】 | 独プロ
                                      • arxivの情報を使って特定分野の共著者ネットワークを書く - Qiita

                                        前書き arxivから情報を収集して便利な情報がとれないかなと遊んでいる内容です。 今回やったことの手順は以下です。 一定期間内に投稿された論文タイトル、アブスト、著者等を収集 特定キーワードを含む論文を抽出 抽出した論文と著者名の有向グラフを作成 適当な閾値で投稿数が多い著者のみを抽出 論文の数を辺の重みとする共著者グラフに変換 連結かどうかで部分グラフに分割 適当なキーワードに関する研究分野内の大きな研究グループなどといったクラスタが見えないかなという奴です。 最終的に以下のグラフみたいな(論文数で条件付けられた)共著者ネットワークを抽出します。 arxivのquant-phの2015-2020年までの論文で、"quantum comput"をタイトル/アブストに含む論文を対象とし、該当論文が15件以上ある著者のみを取り出したときの共著者ネットワークです。(辺の濃さが共著論文数・各クラ

                                          arxivの情報を使って特定分野の共著者ネットワークを書く - Qiita
                                        • API を叩かずに Google から画像収集をする - Qiita

                                          はじめに とりあえず使いたい方はこちらからどうぞ. https://github.com/skcvim/image-collector/blob/master/image_collector.py 機械学習をするために大量の画像データセットを収集することが往々にしてあります. 画像収集をするためには Google,Yahoo! などの検索エンジンの API を叩く手法がまず考えられますが,API 仕様の変更や枚数制限に苦しむことがよくあると思います. 実際,Google も Yahoo! も画像検索の API は廃止されていますし,Google Custom Search でも無料で使う場合はリクエスト制限が1日100まで,1リクエストあたり10枚までとそこそこ厳しいようです. そこで今回は,Google 画像検索でスクレイピングすることを目的としました. Google 画像検索でスクレイ

                                            API を叩かずに Google から画像収集をする - Qiita
                                          • 曲のコードをword2vecでベクトル化し、t-SNEで可視化してみた - Qiita

                                            概要 曲はコードと呼ばれる和音によって成り立っています。それらは並び順が非常に大切で、それによって曲の情緒が変わります。複数個のコードの塊をコード進行と読んでいて、例えば【IーVーVImーIIImーIVーIーIVーV】というカノン進行と呼ばれる代表的なものがあります。並び順が大事という点で、曲は文章、コードは単語、と置き換えて考えると、word2vecでベクトル化し、t-SNEで2次元に圧縮して図示すればコード同士の相関が見えるんではないか、という仮定を検証しました。 堅苦しく書きましたが、コード(プログラミング)でコード(和音)を解析するってイカしてね?くらいのノリを共感して頂ければ嬉しいです。 (これは完全に憶測なんですが、リーダブルコードというプログラミングを行う際のコードの書き方をまとめている名著がありまして、そのカバーが音符になっているのはそういうことなのでは、と思っています。。

                                              曲のコードをword2vecでベクトル化し、t-SNEで可視化してみた - Qiita
                                            • 楽天APIとLINE Messaging APIによるレシピ検索ボット ~Elasticsearchを添えて~ - Qiita

                                              この記事はリンク情報システム(Facebook)が主催するイベント「Tech Connect! Summer」のリレー記事です。 「Tech Connect! Summer」は engineer.hanzomon のグループメンバによってリレーされます。 本記事は4日目、8/3(土)分です。 先日弊社の社内アイデアソンで「チャットボットを考えよう」みたいなテーマやったんですが、その時自分で出した(そしてボツにした)レシピ検索ボットを作ってみました。 こんな感じでキーワードを入力したり 材料入れてみたりすると それっぽいレシピを5件くらい横並べで表示してくれます。 なんでボツにした案をやるかって?簡単そうだからだよ! あとElasticsearch、というか全文検索をさわってみたかった。 構成 今回はMessaging API(所謂LINE BOT) + AWS Lambda + AWS E

                                                楽天APIとLINE Messaging APIによるレシピ検索ボット ~Elasticsearchを添えて~ - Qiita
                                              • Pythonスクレイピング:JavaScriptによる動的ページ、静的ページ、キャプチャ取得のそれぞれの手法をサンプルコード付きで解説

                                                Pythonスクレイピング:JavaScriptによる動的ページ、静的ページ、キャプチャ取得のそれぞれの手法をサンプルコード付きで解説 2020年4月16日 プログラミング takatan69 PythonはWebスクレイピングするのに大変便利な言語です。ライブラリーが充実しているため、簡単にWeb上のデータを取得することができるのです。今回はPythonで可能な2種類のスクレイピングの手法についてまとめてみました。 目次 Webスクレイピングを実施するために知っておくべきこと静的なhtmlからデータを取得する(BeautifulSoup4)動的にJavaScriptで出力されるhtmlのデータを取得する(Selenium & ChromeDriver )Webサイトのキャプチャを取得するには?まとめ 1. スクレイピングを実施するために知っておくべきこと まずスクレイピングをする前に知っ

                                                  Pythonスクレイピング:JavaScriptによる動的ページ、静的ページ、キャプチャ取得のそれぞれの手法をサンプルコード付きで解説
                                                • 【Selenium】ログインしてデータをcsvに書き出す【BeautifulSoup】

                                                  こんにちは! 今回はSeleniumとBeautifulSoupを使って、 ログインが必要なページのデータを抜き出してcsvに出力するプログラムを作りながら、それぞれの使い方を解説していきます。 MacでPython3の実行環境が整っている前提で書きます。 背景 先日、会社の事務作業の都合で、自分の勤怠情報をいい感じに整形したcsvファイルにしたいな〜 という場面がありました。 勤怠管理システムからデータを出力して、整形するスクリプトを作ればいいかなと思ったのですが、 弊社で利用しているシステムではデータ出力形式がpdfか、(作り込まれた)Excelファイルしかできないみたいで? 出力した後の加工が難しそうでした。 シンプルなcsvで出力してくれればいいのにー。 無いなら、作ればばいい、ですね。 やりたいこと ざっくり以下のような機能を実装すればいい感じです。 ログインページにアクセス ロ

                                                    【Selenium】ログインしてデータをcsvに書き出す【BeautifulSoup】
                                                  • 【Python】新型コロナウイルスの都道県別情報を自動で厚生労働省のPDFから読み取ってスプレッドシートやエクセルに書き込む - Qiita

                                                    【Python】新型コロナウイルスの都道県別情報を自動で厚生労働省のPDFから読み取ってスプレッドシートやエクセルに書き込むPythonspreadsheetGoogleSpreadSheet新型コロナウィルスCOVID-19 はじめに 厚生労働省のホームページ上には毎日更新される新型コロナウイルスの情報が記載されています。 新型コロナウイルス感染症に関する報道発表資料(発生状況、国内の患者発生、海外の状況、その他) そこから都道府県別の詳細なデータを(PDFの書式が同一な5/10以降のデータのみではありますが)収集しGoogleSpreadSheetやExcelに記録するプログラムを作成したので紹介したいと思います。 表計算ソフトに記録するので、後から簡単に感染者数や重症化率等の推移をグラフ化などして俯瞰することが出来ます。 準備 Excelで使用する場合はそのままで使えますが、Pyth

                                                      【Python】新型コロナウイルスの都道県別情報を自動で厚生労働省のPDFから読み取ってスプレッドシートやエクセルに書き込む - Qiita
                                                    • How to Crawl the Web with Scrapy

                                                      Web scraping is the process of downloading data from a public website. For example, you could scrape ESPN for stats of baseball players and build a model to predict a team’s odds of winning based on their players stats and win rates. Below are a few use-cases for web scraping. Monitoring the prices of your competitors for price matching (competitive pricing). Collecting statistics from various web

                                                      • ツイッタートレンド解析のためのプログラム(個人的メモ) - Qiita

                                                        こんにちは。自分は現在駒澤大学GMS学部の2年生でタイトルにあるようにツイッターのトレンドについて研究しています。この記事では研究やコードや参考になりそうなものを紹介します。 元々、ツイッタートレンドに興味があり、1年生の頃から、PythonとTwitterAPIとMeCabを使っていましたが、形態素解析して単語ごとに集計するという原始的なものでした。他に言語と位置情報や出現する漢字などで遊んでいました() ↓ そしてN-gramの要領で例えば2-12単語節ごとに記録し、全てを集計する簡易的なトレンド解析ができました。補足として、単語節にはツイッターのトレンドにあるように助詞がどこにこないとか助動詞がどうとか、だいぶ手作業で規則を作りました。これが2年生最初の頃です ↓ その後、何を研究するかとなった時に、一日の中で変動する定常トレンドを定義してモデル化というアイデアもありましたが、それを

                                                          ツイッタートレンド解析のためのプログラム(個人的メモ) - Qiita
                                                        • IRDB からスクレイピングして PANDAS で機関リポジトリ登録コンテンツの分析をする - Qiita

                                                          目次 概要 スクレイピング データ加工 資源タイプ DataFrameの作製 デンドログラム 階層型クラスタリング 合計の概要 ヒストグラム 度数分布表 構成比率で階層的クラスタリングした結果ごとに帯グラフを描く ペアプロット図(散布図行列) 科研費採択数と掛け合わせてみる 概要 日本の機関リポジトリの傾向を見てみるため、 IRDB(https://irdb.nii.ac.jp/) から、JPCOAR加盟機関のデータをスクレイピングして、PANDASで若干の分析を行う。 JPCOAR 加盟機関は、https://jpcoar.repo.nii.ac.jp/page/40 から抽出し、「図書館」などの文字列を削除し、機関名を抽出 スクレイピング 機関名をハードコーディングしたくなかったので、機関名を羅列したテキストファイルを読み込んで配列に代入することにした。 import pickle i

                                                            IRDB からスクレイピングして PANDAS で機関リポジトリ登録コンテンツの分析をする - Qiita
                                                          • 【初めてのデータサイエンス①】東京都内のラーメン店の傾向 - Qiita

                                                            こんにちは。大学3年でマーケティングを専攻している K.I と申します。 僕がインターンをしている、かっこ株式会社のデータサイエンス事業部では、試用期間に、クローラーを作ってデータを収集、加工、可視化し、わかったことについて簡単に考察を述べるという課題が出ます。 僕の場合は、都内のラーメン店について ラーメン店が、どの駅にどれだけ集積していて、およそ幾らが一杯あたりの予算目安なのかを明らかにするという課題が出されました。 そこで、アウトプットとして、ラーメン店集積数トップ5の駅とそれぞれの駅の一杯あたり平均予算等、ラーメン店の傾向について発表しようと考えました。 今回、僕の課題で対象にしたサイトは、ラーメンデータベースさんです。 課題開始時のスキル Pythonは触れたことがなく、HTML/CSSの知識があるくらいでした。 全体の手順 ① 一覧ページを開く ② 詳細ページのHTMLを取得

                                                              【初めてのデータサイエンス①】東京都内のラーメン店の傾向 - Qiita
                                                            • 全自動!まとめ動画の制作システム-ver 1.0 - Qiita

                                                              使う技術、ライブラリ スクレイピング Wikipediaの情報収集にはBeautifulSoup、google画像検索の画像収集にはSeleniumを使用。Scrapyを使っても良かったが、わざわざ使うまでもないのと、Seleniumのミドルウェアの使い方がよくわからなかったので却下。 文章要約 pysummarizationを使用。chatgptを使いたかったが、APIがまだ本物じゃないのと、僕が使った範囲ではそんなに精度も高くなかったので却下。上手い質問の仕方が見つかり次第乗り換えたいけどなぁ。 画像編集 OpenCVを使用。ついでにretinafaceを用いて、お試しで人物を中心に画像を切り抜く仕組みを採用。そのせいでかなり重くなったが、まとめ動画としてのクオリティーがあがった。簡単ですごいのね君。たまに混ざる別人を避ける仕組みも作れそうだったが、別人が混じる確率がそんなに高いわけで

                                                                全自動!まとめ動画の制作システム-ver 1.0 - Qiita
                                                              • スクレイピングとクローリングの違いとは?Pythonコードで解説 - Workship MAGAZINE(ワークシップマガジン)

                                                                プログラムでWeb上から情報を取得する際によく登場する技術用語として、「スクレイピング」と「クローリング」があります。 両者はさまざまな本や解説サイトで登場している用語ですが、これらの用語の意味の違いを正しく理解していますか? 今回はスクレイピングとクローリングの違いを、実際のコードの比較を交えて解説します。 スクレイビグは、情報を「抽出」すること スクレイピング(scraping)とは、「こする」「削りとる」「剥離物」を意味する英単語です。 そこから転じて、「何らかのデータ構造から余分な情報を削りとり抽出すること」を、IT分野では「データスクレイピング」と呼ぶようになりました。 データスクレイピングは特に、プログラム間でやりとりされる人間が読むのに適さないデータから、人間が読めるレベルまで余分な情報を除去し、必要な情報のみ抽出する際によく用いられる言葉です。 なおこのデータスクレイピング

                                                                  スクレイピングとクローリングの違いとは?Pythonコードで解説 - Workship MAGAZINE(ワークシップマガジン)
                                                                • PythonでTwitterのプロフィールを自動更新 - Lorent’s diary

                                                                  AtCoderとCodeforcesのユーザー名を入力するだけでTwitterのプロフィールを更新できるスクリプトの作り方についての記事です。 例えばこんなことが簡単にできるようになります。 テストでtouristのプロフィールにしてみます— Lorent (@lorent_kyopro) 2020年6月10日 うん、ちゃんと動いてる pic.twitter.com/OSDUxgBBJU— Lorent (@lorent_kyopro) 2020年6月10日 1. 現在のRatingを取得 2. AtCoderのRatingグラフの画像を取得 3. 画像を加工 4. Twitter APIでプロフィールを更新 ソースコード全体 1. 現在のRatingを取得 import re import requests from bs4 import BeautifulSoup ac_usernam

                                                                    PythonでTwitterのプロフィールを自動更新 - Lorent’s diary
                                                                  • 【Python】ニュース記事の更新日をHTMLから取得する - Qiita

                                                                    ここ数日、各ニュースサイトから日付を取得することにハマってます。 書いてたコードを多少実用的なクラスにしたので公開します。 もちろんサイトによってはボットでのクロールを禁止していますので、使用にあたっては注意してください。 以下のサイトから取れるようにしています。 朝日新聞 日経新聞 産経新聞 読売新聞 毎日新聞 Yahoo!ニュース CNN Bloomberg BBC Reuter Wall Street Journal Forbes Japan Newsweek CNN.co.jp ABC News 外務省 AFP BB NHK News 日刊工業新聞 EUROPA NEWSWIRE 国連広報センター OPCW News HAARETZ THE DAILY STAR INDEPENDENT ジェトロ 夕刊フジ 取得はrequestsライブラリ、パース等はBS4で行い、その後正規表現とd

                                                                      【Python】ニュース記事の更新日をHTMLから取得する - Qiita
                                                                    • [成長日記:2日目]Yahoo!ニュースの最新記事見出しとurlをスクレイピングしてtxtファイルに出力 - Qiita

                                                                      htmlという変数を用意してそこに代入しておくのが慣例みたい。 requests.get()の第一引数にurlを指定するとResponseオブジェクトが取得できる。 Responseオブジェクトはさまざまな属性を持っているが、content属性でWebページのソースコードと同じような内容を取得できる。 (参照:https://note.nkmk.me/python-requests-usage/ ) 今回はrequestsで取得したcontent属性のResponseオブジェクトをPythonの標準ライブラリであるhtml.parserでパースしてBeautifulSoupで抽出する。 こちらはsoupという変数に代入しておくのが慣例みたい。 ところでパースとは? HTMLのタグや属性などを解析して機械が読めるデータにしておくこと なんぞや??という方向け(主にぼくのため)のまとめ 今まで

                                                                        [成長日記:2日目]Yahoo!ニュースの最新記事見出しとurlをスクレイピングしてtxtファイルに出力 - Qiita
                                                                      • CSS組版を目指して --原稿からPDF作成まで-- - Qiita

                                                                        技術書典8で「お絵描きソフトをつくる本」という本を発行することにしました。そこで、流行りのCSS組版をやってみたのでログを残しておこうと思います。 CSS組版って 組版は製本をするための工程の1つで、原稿を作成した後に、文章、図などをレイアウトしていく作業です。InDesignなどのDTPソフトウェアを使ってソフトウェア上でレイアウトをしてくことがほとんどです。また、TeXなどのソフトウェアも組版ソフトウェアの1つです。 最近では、原稿をHTMLで作成し、そのレイアウトをCSSで指定する、CSS組版と言われる手法も出てきました。vivliostyleなどのOSSを使うと、簡単にCSS組版を利用することが出来ます。 CSS組版どうやるの? まずは、やってみた人達のドキュメントを真似するのが手っ取り早いです。 https://vivliostyle.org/ja/samples/ https:

                                                                          CSS組版を目指して --原稿からPDF作成まで-- - Qiita
                                                                        • [GEEデータカタログ]Google Earth Engineで使用できるデータカタログまとめ - Qiita

                                                                          以上がGoogle Earth Engineで提供されている衛星となります。 これらの衛星データから作成されたプロダクト(例えば衛星データのバンド間演算をした結果であるものなど)や上記3つの衛星データ以外のものも提供されているみたいです。 スクレイピングコード Google Earth Engine Data Catalogに掲載されているものを全部コピペするのはつらすぎるのでスクレイピングしました。下記です。 # Beautiful Soupのインポート import requests import pandas as pd from bs4 import BeautifulSoup from google.colab import files from googletrans import Translator response = requests.get("https://deve

                                                                            [GEEデータカタログ]Google Earth Engineで使用できるデータカタログまとめ - Qiita
                                                                          • 生命保険会社の苦情件数を可視化 - Qiita

                                                                            はじめに [Python]生命保険会社の苦情件数を棒グラフで表現 を参考に作成しました つづき 苦情の内訳の詳細のPDFをpdfplumberでcsvに変換して可視化 生命保険会社の苦情の内訳の詳細を可視化 スクレイピング import requests from bs4 import BeautifulSoup url = "https://www.seiho.or.jp/member/complaint/" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } r = requests.get(url, headers=headers) r.raise_for_status() soup = BeautifulSoup(r.content,

                                                                              生命保険会社の苦情件数を可視化 - Qiita
                                                                            1