はじめに 4月26日に「Re:ゼロから始めるweb開発 (GAS使用) Part0」を投稿しましたが,現状すぐに作りたいものがなかったので,GASの練習も兼ねて,簡単なスクレイピング処理を書いてみました. 普段はpythonのプログラム書いて,cronで定期実行することでスクレイピングしていて不自由は感じていなかったのですが,パソコンの電源をずっとつけておかないといけないため,自宅のパソコンずっとつけっぱなしなのは嫌なので,GAS使ってやってみようかなと思いました. GASについて GASについてや,メリットに関しては,「Re:ゼロから始めるweb開発 (GAS使用) Part0」ですでに書いたので,そちらを見てもらえたと思います. GASによるwebスクレイピングのアウトライン データの保存先となるGoogleSpreadSheetを作成 スクリプトファイルを作成し,いろいろ書いて保存
逆ケンタウルス化問題:人間はAIを監視し続けられるのか(無理)投稿者: heatwave_p2p 投稿日: 2024/4/192024/4/19 Pluralistic AIの面白い話をしよう。あるセキュリティ研究者が、大企業のAI生成のソースコードが存在しないライブラリを繰り返し参照していること(AIの”幻覚(ハルシネーション)”)に気づき、その名前をつけた悪意のある(無害な)ライブラリを作ってアップロードした。すると何千人もの開発者がそのコードをコンパイルする際に自動的にそのライブラリをダウンロードして組み込んでしまった。 https://www.theregister.com/2024/03/28/ai_bots_hallucinate_software_packages/ こうした”幻覚”は大規模言語モデルの拭い難い特徴だ。なぜなら、AIモデルは理解しているフリをしているだけで、実
アメリカの新聞大手、ニューヨーク・タイムズが2023年8月3日に利用規約を変更し、AI開発のために無断で記事や写真などを利用する事を原則として禁止することを決定しました。AIによる学習と著作権の侵害の議論が白熱する中で、ニューヨーク・タイムズはチャットAI「ChatGPT」の開発を行うOpenAIに対する法的措置を検討していることが報じられています。 Terms of Service – Help https://help.nytimes.com/hc/en-us/articles/115014893428-Terms-of-Service New York Times considers legal action against OpenAI as copyright tensions swirl : NPR https://www.npr.org/2023/08/16/11942025
AI Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material The model is a massive part of the AI-ecosystem, used by Stable Diffusion and other major generative AI products. The removal follows discoveries made by Stanford researchers, who found thousands instances of suspected child sexual abuse material in the dataset. This piece is published with support from Th
ビジネス特化型SNSのLinkedInと、企業支援スタートアップのhiQ Labsが、インターネット上に公開されているデータを自動で抽出する「スクレイピング」の是非を巡って争っていた裁判で、最高裁判所からの差し戻しを受けた第9巡回区控訴裁判所は再び、hiQ Labsによるスクレイピングは違法ではないという判決を下しました。 UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT No. 17-16783 D.C. No.3:17-cv-03301-EMC https://cdn.ca9.uscourts.gov/datastore/opinions/2022/04/18/17-16783.pdf Scraping public data from the web is legal: US Ninth Circuit • The Regist
1) TORBOT This tool is an OSINT resource designed specifically for the dark web. Crafted using Python, its primary aim is to systematically gather comprehensive information using data mining algorithms. Its capabilities extend to meticulous data retrieval and the generation of a tree graph, enabling in-depth exploration. Operating as an Onion Crawler (.onion), it extracts page titles, site address
Git scraping: track changes over time by scraping to a Git repository 9th October 2020 Git scraping is the name I’ve given a scraping technique that I’ve been experimenting with for a few years now. It’s really effective, and more people should use it. Update 5th March 2021: I presented a version of this post as a five minute lightning talk at NICAR 2021, which includes a live coding demo of build
画像生成AIを開発・運営するMidjourneyが、競合するAIのStable Diffusionを開発するStability AIの従業員が所有するアカウントを無期限で自社サービスから追放したと報じられています。Midjourneyは、Stability AIの従業員がBOTを使ってプロンプトと画像のペアを大量に取得するデータスクレイピングを行っていた疑いがあるからだと説明しています。 Midjourney bans all Stability AI employees over alleged data scraping - The Verge https://www.theverge.com/2024/3/11/24097495/midjourney-bans-stability-ai-employees-data-theft-outage Image-scraping Midjou
In this blog post, we will walk you through the reliability model of services running in our more than 200 edge cities worldwide. Then, we will go over how deploying a new dynamic task scheduling system, HashiCorp Nomad, helped us improve the availability of services in each of those data centers, covering how we deployed Nomad and the challenges we overcame along the way. Finally, we will show yo
目的 以前こちらの記事にてスクレイピングはすぐにバレることを知った 本当にそうなのか試してみたくなったので、実際に試してみた 確認手順 適当にWebページをつくる スクレイピングをして挙動を確認する 環境構築 なんでもいいんですが、試しにReactで環境構築します npx create-react-app check-scraping cd check-scraping code . npm run start import React, { useEffect } from 'react'; function App() { useEffect(() => { if (window.navigator.webdriver) { alert("Webdriverを検出しました"); } }, []); return ( <div className="App"> <h1>WebDriver
The state of HTTP clients, or why you should use httpx 15 Oct 2023 TL;DR most http clients you’ve been using since the ruby heyday are either broken, unmaintained, or stale, and you should be using httpx nowadays. Every year, a few articles come out with a title similar to “the best ruby http clients of the year of our lord 20xx”. Most of the community dismisses them as clickbait, either because o
To understand how radically gaming is about to be transformed by generative AI, look no further than this recent Twitter post by @emmanuel_2m. In this post he explores using Stable Diffusion + Dreambooth, popular 2D generative AI models, to generate images of potions for a hypothetical game. What’s transformative about this work is not just that it saves time and money while also delivering qualit
My thoughts on hacking, ai, faith, and more. © 2024 rez0. I’ve been theorizing and researching prompt injection attacks. They’ve mostly been theoretical, though. In this post, I’m going to break down and explain the best self-contained proof of concept for how indirect prompt injection can lead to plugin-hijacking with severe consequences. Definitions Before diving in, let’s clarify some terms: LL
Excelで簡単にスクレイピングする方法になります。 PowerQueryを使ってなるべくボタン操作でスクレイピングしていきます。 今回は気象庁のサイトから、2018年の新潟市の気象データを取得してみます。 Excel2016で確認していますが、Excel2010以上であればPowerQueryのアドインをインストールすれば同様のことができます。 2020年3月時点でWindows限定です。 ※MacのユーザはOffice Insider ファーストに参加して入ればPower Queryを使用できますが、Webの接続はまだ実装されていないようです。 参考 [ad01] PowerQueryでテーブルデータを取得Excelを起動し[データ]-[Webから]を選択します。 URL欄に先ほど確認したURLを張り付けてOKを押します。 初回はアクセスの設定がでますがそのまま接続します。 するとある
Back Blog / Business Reputation Repair / IA_Archiver: How to Block Archive.Org and Erase Web History IA_Archiver: How to Block Archive.Org and Erase Web History By Brianne Schaer Last updated: June 28, 2024 7 minute read As an essential tool of the Wayback Machine at web archive.org, ia_archiver not only facilitates the journey through digital history but also raises important questions about the
Scrape With Just A Few Clicks AnyPicker is a powerful yet easy to use web scraper for the chrome browser Add To Chrome For Free
対話型AIのChatGPTを開発するOpenAIは2023年8月に、大規模言語モデルの学習に必要なデータセットをインターネット上から収集するためのウェブクローラー「GPTBot」に関する詳細を公開しました。GPTBotに関するオンラインドキュメントには、GPTBotによるコンテンツの収集を防ぐための方法も記載されており、一部のウェブサイトは早速GPTBotのブロックに乗り出していることが報じられています。 Now you can block OpenAI’s web crawler - The Verge https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai OpenAI launches web crawling GPTBot, sparking blocking effort by website
今年は色々と自分の仕事やキャリアを考えることが多く、それらがわりとダイナミックに変わった年でもあったので振り返って見ようと思います。 はじめにゆるり(Twitter)といいます。今年までITベンチャー企業でデータサイエンス関係のお仕事をしていました。その前は営業をやっていて、いわゆる未経験からのDS転身ということになります。もっというとITエンジニア自体未経験でしたので、当時のレベル感としては#駆け出しエンジニアと繋がりたいみたいなイメージで思って頂ければと思います。 誰のための記事か自分が何を思い何をしてきたかの振り返りなので自己満ではありますが、自分と同じように未経験から何かしらのITエンジニア職、特にDS職を目指す方に向けています。 ただし、後述しますが自分はデータサイエンティストとしてほぼ何の対外的実績は残しておらず、最終的に挫折してジョブチェンジした形となりますので、あまり参考に
アプリ説明 占いたい時期を西暦で入力して、上半期か下半期を選択。占いたい星座を入力すると、占いサイトより該当の星座占いをスクレイピングして、結果をテキストマイニングして画像を生成させます。 生成した画像はLINE Notifyを使用して自分のアカウントに送信されるようにしました。 生成される画像のイメージ 使用したライブラリ WordCloud ワードクラウドの生成 https://pypi.org/project/wordcloud/ Janome 形態素解析エンジン https://pypi.org/project/Janome/ https://github.com/mocobeta/janome BeautifulSoup スクレイピングツール https://pypi.org/project/BeautifulSoup/ https://www.crummy.com/softwa
After the release of the OpenTelemetry Specification v1.0, we are now putting more energy towards the metrics specification. Here’s our update on progress made so far and things that are lined up for completion through the next few months. Project ScopeGiven there are many well-established metrics solutions that exist today, it is important to understand the goals of OpenTelemetry’s metrics effort
Pythonでいろいろスクレイピングしてきましたが、Google Apps Scriptでのスクレイピングがかなりよいです。 今回はGoogle Apps Script(GAS)でスクレイピングをオススメする理由を、Pythonを利用する場合と比較して解説します。 GASを利用したスクレイピングのメリット Pythonなどのサーバーサイドの言語を書くのに比べて、Google Apps Scriptを利用したほうが便利な場合があります。Google Apps Scriptを利用したスクレイピングをするメリットについて、ご紹介します。 メリットは、以下の通りです。 環境構築一切不要 定期実行が超絶簡単 学習コストが超絶低い 取得結果をだれにでもスクレイピング結果をリアルタイムに共有しやすい 伝家の宝刀IMPORTXML関数で、コードを書かずにスクレイピング 環境構築一切不要 普通にPython
And we're all doing it wrong (including me) I have a confession. Despite having been hired multiple times in part due to my experience with monitoring platforms, I have come to hate monitoring. Monitoring and observability tools commit the cardinal sin of tricking people into thinking this is an easy problem. It is very simple to monitor a small application or service. Almost none of those approac
Teamsのチームは用途が終わったら削除する前提で設定されていますが、削除前に会話のエクスポートが出来ません。なのでこんな感じで困ります。 情報システム部「もうそのチーム使い終わったでしょ!成果物のファイルを整理して、チーム削除して」 チームオーナー「削除してもいいけど、会話は後で参照したいから残しといて」 情報システム部「ぐぬぬ」 よっていつまで経ってもゴミチームが残ったままです。 Teamsのチャネルメッセージをエクスポートする方法 1. セキュリティ/コンプライアンスからエクスポート セキュリティ/コンプライアンスを使えば、Teamsのチャネルメッセージをエクスポートできます。しかしながら チャネル毎にエクスポートできない 親投稿や返信の関係性をうまくエクスポートできない という問題があります。あくまで監査用であり、ユーザーが見やすい形でエクスポートはできないようです。 2. Gra
my-scraping-app ディレクトリ内に serverless framework 関連のファイルが生成されます。 その後 venv の設定や、serverless framework で AWS にデプロイするための credentials の設定をします(本記事では省略)。 以下 credentials 設定の参考ページです。 スクレイピング & slack通知スクリプトの実装 スクレピングは様々な方法があると思うのですが、今回は該当商品の商品ページに出ている「現在品切れ中」というボタンの有無を確認することで、入荷状況を判断することとします。 依存モジュールを追加して、handler.py にスクレピングコードと Slack 通知コードを書いていきます。 import requests import re import os from bs4 import BeautifulS
Really pause and think about how much time and effort web teams around the world have spent building and managing infrastructure. For many years, launching a site or web application has been as much about deploying complex server environments as it’s been about building actual application code. The cloud made provision- ing all these resources faster but no less complicated. The JAMstack was born
キノコード テクノロジーアンドデザインカンパニー合同会社のCEO。 日本最大級のプログラミング教育のYouTubeチャンネル「キノコード」や、プログラミング学習サービス「キノクエスト」を運営。 著書「あなたの仕事が一瞬で片付くPythonによる自動化仕事術」や、雑誌「日経ソフトウエア」や「シェルスクリプトマガジン」への寄稿など実績多数。 Python学習サービス「キノクエスト」のご紹介 キノコードでは、Pythonを習得するためのPython学習サービス「キノクエスト」を運営しています。 キノクエストには、学習カリキュラムがあり、学習順番に悩むことなく学習を進められます。 月額1,990円と本1冊分の値段です。 キノクエストの特徴は下記の通りです。 Python学習をしている仲間が集まるコミュニティがある 1000問以上の問題を解いてプログラミングを習得 環境構築不要ですぐに始められる 動
Over the past decade, the Internet has experienced a tectonic shift. It used to be composed of static websites: with text, images, and the occasional embedded movie. But the Internet has grown enormously. We now rely on API-driven applications to help with almost every aspect of life. Rather than just download files, we are able to engage with apps by exchanging rich data. We track workouts and se
自己紹介 サラリーマンしてます。 主に工場(生産現場)で使用する検査装置のアプリケーション開発してます。 ヒトの作業を自動化して簡略化するアプリケーションを日々開発中。 2022年5月に転職。現役バリバリの技術者です。 現在は超大手企業の新規事業分野で装置の研究・開発をしています。 飛行機にNikonの技術が使われている?どういうこと? この記事を書くきっかけになったのが、 この情報でした。 ニコン、ANA特別塗装機に“サメ肌“模したフィルムを提供。燃費改善に ↑外部のサイトに詳しい内容が載っています。 簡単に要約すると、飛行機の一部にリブレット加工と言われる サメ肌に模した形状のフィルムを張り付けることで、 燃費改善を実現しよう。というものです。 サメ肌って、あのサメの肌ですよね。 サメ肌の拡大図(https://ngpd.nikon.com/riblet-processing/over
ツイートのきつい閲覧数制限に大混乱 きっかけは、7月2日に投稿されたイーロン・マスク氏の「極度のデータスクレイピングとシステム操作に対処するため、一時的な制限をする」というツイートだった。認証済みアカウントは1日あたり6000件まで、未認証アカウントが600件まで、作成されたばかりの未認証アカウントが300件まで、ツイートを閲覧可能とするというものだ。 To address extreme levels of data scraping & system manipulation, we’ve applied the following temporary limits: - Verified accounts are limited to reading 6000 posts/day - Unverified accounts to 600 posts/day - New unverif
ハコザキです。 今回はTwintと呼ばれるPythonのスクレイピングツールを使って 自分のツイートを解析してみたいと思います! Twintとは TwintはPythonで書かれた高度なTwitterスクレイピングツールで、 TwitterのAPIを使わずにTwitterのプロフィールからツイートをスクレイピングすることができます。 Twitterの機能にも詳細検索がありますが、Twitterのアプリ上でしか見ることができないため、 スクレイピングした結果を利用したい場合はTwintのようなツールを使うか、Twitter APIを使うかになります。 TwintはTwitterの検索機能を利用して下記のことができます 特定のユーザーのツイートをスクレイピング特定のトピックやハッシュタグ、トレンドに関連したツイートをスクレイピングメールや電話番号などの機密情報をツイートから抽出 Twitter
はじめに 機械学習の勉強始めて色々と知識のインプットも出来てきたのでいっちょkaggleでもやるか!挑戦したのですが挫折しました。 ぶっちゃけどういう風に手をつけていいか全く分からん!!状態になり学習のモチベーションも下がってしまいました。 このままじゃダメだと思いなんか面白いことないかなーと探してたところ下記記事を発見! 【超初心者向け】コピペで動かして楽しむPython環境構築&スクレイピング&機械学習&実用化【SUUMOでお得賃貸物件を探そう!】 最近賃貸物件探していたので丁度良いと思い試してみました。 記事を参考に実装。 自分なりに色々と改良したのでご紹介します。 どんな人向け? 私みたいな自称機械学習初級者向けです。 色々インプットしたけどその後どうしていいか分からんと言う方が対象です。 機械学習の基本的な用語とか、手法については解説してませんので悪しからず。 自分の環境 win
Production ready eBPF, or how we fixed the BSD socket API2022-02-17 As we develop new products, we often push our operating system - Linux - beyond what is commonly possible. A common theme has been relying on eBPF to build technology that would otherwise have required modifying the kernel. For example, we’ve built DDoS mitigation and a load balancer and use it to monitor our fleet of servers. Thi
戦略ファーム時代に読んだ700冊程度の本をまとめています*随時更新 戦略ファーム時代に読んだ700冊程度の本をまとめています I. 戦略 企業参謀 https://amzn.to/44iKVxM 当初、いまいち戦略というものが掴めきれず迷子になっていた時に「大前研一はこれだけ読め」と教わった本。大量に出ている他の大前本を読まなくて済むのが見過ごせない大きな価値 戦略サファリ 第2版 https://amzn.to/3csZg0t 経営戦略の本を読み漁るも、実プロジェクトの方が全くもって学びになるという普通の感想をもち、俯瞰での戦略論を求めるようになる。いやあ懐かしい 企業戦略論【上】基本編 競争優位の構築と持続 Jay Barney https://amzn.to/3dJjVxB 任天堂の戦略の妙に気が付きはじめ、ベースか似通ったものはないだろうかと思うようになった時にJay Barney
データ分析やAI技術に進歩するにつれて「データ収集」にも関心が集まるようになりました。そこで、自社に十分なデータの蓄積がない場合にも簡単に使える「スクレイピング」(Webスクレイピング)と呼ばれるデータ収集法が注目されるようになっています。しかし、スクレイピングは一歩間違えると迷惑行為や違法行為にもなり得る手法であり、正しく理解した上で扱わなければいけません。本記事ではそんなスクレイピングについて誰にでもわかるように解説していきます。 スクレイピングとは?クローリングとの違いは? スクレイピング(Scraping)は「こする」「かき集める」といった意味を持つ「Scrape」に由来する用語で、物を解体する「Scrap」と似ていますが別の単語です。「Scrape」は広範囲をゴシゴシこすりながら物をきれいにしたり、散らばった物を集めたりするニュアンスが近いでしょう。そこからコンピュータ用語に転じ
概要この記事は 2019/12/7 に開催された Japan.R の発表原稿である.github.com speakerdeck.com 小難しいテクニックを使ったことをアピールせず, なるべく単純な方法だけで, データから何が言えるのか, 何を示せるのかを作業の流れに沿ってチュートリアル風に説明する, というのがコンセプトである. スクレイピングによるデータの取得, 加工, そして要約統計量の計算やグラフの見せ方, といった事柄はほとんどのデータ分析で必要な基礎技術だと思うので, 実践的な例になると踏んでいた. 当初は 5分間のLTの予定だったので要約統計量 (記述統計量) の見方とかだけを話すつもりだったが, 20分枠に変更したことに合わせてボリュームを増そうとしたらバランスが狂った感じになった. (小難しいことをしないとか言いながら色気を出してディープラーニングに手を出そうとしている
以下の文章は、コリイ・ドクトロウの「A profoundly stupid case about video game cheating could transform adblocking into a copyright infringement」という記事を翻訳したものである。 Pluralistic 資本主義(利潤から富が生まれる)から封建主義(地代レントから富が生まれる)への社会の転換が、奇妙な結果をもたらしている。それは、実際の財産(物理的に所有するモノ)に対する権利が、企業の比喩的な「知的財産」の主張によって覆されるケースが増えているのだ。 なかなか理解しにくいかもしれない。まずは利潤と地代について簡単に説明しよう。資本家は設備投資をし労働者に賃金を支払って製品やサービスを生産するその過程で得られる余剰が利潤 だ。つまり、生産的なことを行うために労働者を雇って得られるお金のこ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く