  • SCPで英語を読もう:第一回 SCP-173 - うおとかの本棚

    Добрый вечер! うおうおです。 みなさん、英語何年勉強しました?日本人の多くは英文法かなり知ってるんですよね。多分そこらのネイティヴより。 にもかかわらず英語の運用能力に不安を持つ人が多いのは単純に英語を用いる機会が少ないから。沢山英語に触れて慣れ親しみましょう!  ってどの本にも書かれてますよね。 じゃあ何読むの? 一番効率の良いやり方は、既に母語で読んでいて内容を把握している文章を英語で読んでみること。 ぼくもハリーポッターを原語で読んでみたり、日本アニメの英語吹き替え版を観たりしてました。既に内容を知っているという事は、読む上での足がかりが用意されているという事です。 眼の前に広がったテキスト全てに同じ集中力を払って読み進めていくのは、たとえ母語であっても労力が必要な作業です。文章の中には確実に掴まなければならない情報と、それらを繋ぐ、新しい情報としての価値が薄い部分が混

    • ECS FargateでGoコンテナを起動してローリングアップデートする - My Note

      はじめに アーキテクチャ GitHub ECRに登録するGoコンテナを作成する docker imageを作成 ECRにdocker imageをpushする ECS Fargateのタスクを作成する ECS Fargateのサービスを作成する ALBを作成する サービスをつくる CodePipelineを作成する Source ( GitHub ) CodeBuild CodeDeploy ローリングアップデートの実行と動作確認 ローリングアップデート 動作確認 まとめ はじめに 今回は ECS FargateでGoコンテナを起動してローリングアップデートする をテーマに書いていきます。 以前の記事でGAEにGo echoで実装したAPIをデプロイしました。 yhidetoshi.hatenablog.com 今回はこのAPIをECSのFargate上にデプロイしてコンテナをローリングア

      • Using GPT-4o for web scraping

        tl;dr; show me the demo and source code! I’m pretty excited about the new structured outputs feature in OpenAI’s API so I took it for a spin and developed an AI-assisted web scraper. This post summarizes my learnings. Asking GPT-4o to scrape data The first experiment was to straight ask GPT-4o to extract the data from an HTML string, so I used the new structured outputs feature with the following

        • Scrapy 1.7 文書 — Scrapy 1.7.3 ドキュメント

          Scrapy 1.7 文書¶ Scrapyは高速で高レベルのWebクロール(web crawling)およびWebスクレイピング(web scraping)フレームワークであり、Webサイトをクロールし、ページから構造化データを抽出するために使用されます。 データ・マイニングから監視、自動テストまで、幅広い目的に使用できます。 お助け¶ 問題がありますか? でしたらこれらが助けになるでしょう。 まず、 FAQ を見て下さい。一般的な質問に対する回答があります。 特定の情報をお探しですか? それでしたら 索引 や モジュール索引 をご覧ください。 StackOverflowで scrapy タグを付けて質問するか検索します(StackOverflow using the scrapy tag)。 Scrapy subreddit で質問するか検索してください。 scrapy-users ma

          • GitHub - taishi-i/awesome-ChatGPT-repositories: A curated list of resources dedicated to open source GitHub repositories related to ChatGPT

            awesome-chatgpt-api - Curated list of apps and tools that not only use the new ChatGPT API, but also allow users to configure their own API keys, enabling free and on-demand usage of their own quota. awesome-chatgpt-prompts - This repo includes ChatGPT prompt curation to use ChatGPT better. awesome-chatgpt - Curated list of awesome tools, demos, docs for ChatGPT and GPT-3 awesome-totally-open-chat

            • 6億人以上のDiscordユーザーをスパイしていた「Spy Pet」が閉鎖される、Discordは法的措置を検討

              Discordから40億件以上のメッセージと、約6億2000万人のユーザーのデータを抜き取って販売していた「Spy.pet」が閉鎖されました。Discordは、Spy.petに関連したアカウントを停止させるとともに、法的措置を検討していると発表しています。 Discord Shuts Down ‘Spy Pet’ Bots That Scraped, Sold User Messages https://www.404media.co/discord-shuts-down-spy-pet-bots-that-scraped-sold-user-messages/ Discord drops the hammer on data-scraping 'Spy.pet' website, says it is 'considering appropriate legal action' | PC

              • 急がば回ってみる 自作ツール作成のすすめ~ nodeを使ったHTMLデータ収集ツール ~

                誰も怒らないなら、ダイレクトお鍋(鍋から直接料理を食べてしまう)をしてしまう コーダー兼ズボラの小宮山です。 今回は自作ツールの紹介とその記録です。 玄人感はないので、あしからずご了承ください。 ご指摘のポイントたくさんあるかとは思いますが、楽しく作ったんだと感じてもらえれば嬉しいです。 ※すぐにツールを使いたい方は、こちらのアンカーリンクから読んでください。 ある日ふいにきたミッション きっかけの2択 ある日の忙しい1日ことです。 「40ページくらいサイト内の情報をページごとにエクセルデータにまとめたい」 というミッションを部内のディレクターから託されました。 ズボラな僕は、この作業がコンパクトに終わる最善の方法を考えはじめます。 そこで、最初に、Webでいろいろと検索し、すでに有益な情報をあげてくださっているみなさんのお力を借りることに。 情報をまとめてエクセルで出すツールはないだろう

                • 社内ポータル徘徊にさようなら!Webスクレイピングで更新自動通知 - ASKUL Engineering BLOG

                  こんにちは。みやまえゆたかです。 ​ 導入 ​ 当社の社内ポータルサイトはSharePointで作られています。 ​ 各種申請書類やマニュアル、規定などへのリンクが集まっていて、 ​ その中でも、新着情報が流れてくる「掲示板」のページは「更新がないか?」1日に1~2回は見に行くようにしています。 ​ ただ、業務や会議がたてこんでいると「掲示板」を見ることを忘れ、重要な情報を見過ごしてしまうことがありました。 ​ ​ 「なんで新着をスマホに通知してくれないんだ!!!」 ​ 更新が有るか無いかも分からないサイトを定期的に見る作業に疲れた私は、 ​ 「ポータルサイトをWebスクレイピングして、更新があったらSlackに通知する」機能を作りました。 ​ 処理は以下のようになっています。 ポータルサイトの「掲示板」を定期的にWebスクレイピングする 更新がないかチェックする 更新があったら、記事のタ

                  • ThirdEye: LinkedIn’s Business-wide Monitoring Platform

                    ThirdEye: LinkedIn’s Business-wide Monitoring Platform 26th Sept 2019 Akshay Rai Senior Software Engineer Strata Data Conference, NY Agenda 1 What is ThirdEye? 2 ThirdEye @ LinkedIn 3 Anomaly Detection & Analysis 4 Overview of Entity Monitoring Root-Cause Analysis Anomaly Detection Business Impact Time Incident Detection Analysis Recovery ← MTTD (Mean time to detect) ← MTTR (Mean time to restore)

                    • Outshift | Istio telemetry V2 (Mixerless) deep dive

                      Get emerging insights on innovative technology straight to your inbox. One of the Istio service mesh's most popular and robust features is its advanced observability. Because all service-to-service communication is routed through Envoy proxies, and Istio's control plane is able to gather logs and metrics from these proxies, the service mesh can provide us with deep insights about the state of the

                      • [Bardに聞く]VS CodeではじめてのWEBスクレイピング - Qiita

                        Qiita初投稿です^^ WEBスクレイピングをやろうとして 折角なのでGoogle Bardに聞いてみました。 https://bard.google.com/ Bardへの質問と回答 「Visual Studio CodeでPythonを使用してWebスクレイピングを行う手順を教えてください」 import requests from bs4 import BeautifulSoup url = 'https://www.google.com/' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') title = soup.find('title').text print(title) Bardが書いてくれたpythonコードを貼り付け、ファイル保存(拡張子.py) トラブ

                        • A Collaborative List Of 800+ Resources For Developers

                          A Collaborative List Of 800+ Resources For DevelopersTOOOLS.design - A growing archive of 1,500+ design resources, frequently updated for the community.Linkero - The simplicity of a link in bio, the power of a page builder. Create your page and grow your online presence. Ready in minutes.Seline - Seline is a simple & private website and product analytics. Cookieless, lightweight, independent.Odown

                          • Declare your AIndependence: block AI bots, scrapers and crawlers with a single click

                            We see website operators completely block access to these AI crawlers using robots.txt. However, these blocks are reliant on the bot operator respecting robots.txt and adhering to RFC9309 (ensuring variations on user against all match the product token) to honestly identify who they are when they visit an Internet property, but user agents are trivial for bot operators to change. How we find AI bo

                            • US court fully legalized website scraping and technically prohibited it - Parsers

                              US court fully legalized website scraping and technically prohibited itPublished by admin on 28.01.202028.01.2020 On September 9, the U.S. 9th circuit court of Appeals ruled (Appeal from the United States District Court for the Northern District of California) that web scraping public sites does not violate the CFAA (Computer Fraud and Abuse Act). This is a really important decision. The court not

                              • Federal Register :: Request Access

                                Due to aggressive automated scraping of FederalRegister.gov and eCFR.gov, programmatic access to these sites is limited to access to our extensive developer APIs. If you are human user receiving this message, we can add your IP address to a set of IPs that can access FederalRegister.gov & eCFR.gov; complete the CAPTCHA (bot test) below and click "Request Access". This process will be necessary for

                                • NVIDIA Makes 3D Deep Learning Research Easy with Kaolin PyTorch Library | NVIDIA Technical Blog

                                  NVIDIA Makes 3D Deep Learning Research Easy with Kaolin PyTorch Library Research efforts in 3D computer vision and AI have been rising side-by-side like two skyscrapers. But the trip between these formidable towers has involved clambering up and down dozens of stairwells. To bridge that divide, NVIDIA recently released Kaolin, which in a few steps moves 3D models into the realm of neural networks.

                                  • Stack Overflow Will Charge AI Giants for Training Data

                                    Developing the AI systems behind tools such as ChatGPT and the image generator Dall-E costs hundreds of millions of dollars—and it’s about to get more expensive. OpenAI, Google, and other companies building large-scale AI projects have traditionally paid nothing for much of their training data, scraping it from the web. But Stack Overflow, a popular internet forum for computer programming help, pl

                                    • 【Webスクレイピング超入門】2時間で基礎を完全マスター!PythonによるWebスクレイピング入門 連結版

                                      ■ ビジネス戦闘力が圧倒的に向上するプログラミングスクール 『code4biz』🧑‍💻 ↓説明会はこちら↓ http://code4biz.jp/ ※ 締切日:3月23日(水)23:59 ※ 第2期開催は当分ありません 👨‍💻⬇︎無料LINE登録で近日限定コンテツ公開⬇︎👨‍💻 ✅プログラミング学習効率を飛躍的に高める3つの考え方 ✅必ず知っておくべきエラー解決法9選 ✅プログラミングによる業務効率化の重要な考え方と成功事例3選! etc... https://line.me/R/ti/p/@114eqgxg PythonによるWebスクレイピング入門で公開した5つの動画、計2時間の連結verです!たったの2時間でブラウザ操作の自動化、データ(テキスト、数値、画像)の自動収集が行えるようになります!Webスクレイピングに挑戦してみたかった人にとっては最適な講座となっています

                                      • Railroad Diagram Generator

                                        Welcome to Railroad Diagram Generator! This is a tool for creating syntax diagrams, also known as railroad diagrams, from context-free grammars specified in EBNF. Syntax diagrams have been used for decades now, so the concept is well-known, and some tools for diagram generation are in existence. The features of this one are usage of the W3C's EBNF notation, web-scraping of grammars from W3C specif

                                        • Nixintel Open Source Intelligence & Investigations Make Your Own Internet Archive With ArchiveBox

                                          One of the biggest challenges of internet investigation is preserving data once you’ve found it. We have access to more information than ever before, but so much of it can be easily lost if we don’t take steps to archive it. If you’ve ever bookmarked an important resource only to come back later and see that it’s no longer available, you’ll know how frustrating it can be. I wrote about this proble

                                          • How to download fundamentals data with Python - Open Source Automation

                                            How to download fundamentals data with Python How can we download fundamentals data with Python? In this post we will explore how to download fundamentals data with Python. We’ll be extracting fundamentals data from Yahoo Finance using the yahoo_fin package. For more on yahoo_fin, including installation instructions, check out its full documentation here or my YouTube video tutorials here. Getting

                                              • AI“アート”の不気味さ――AIが“仕事を奪う”のではない | p2ptk[.]org

                                                以下の文章は、コリイ・ドクトロウの「AI “art” and uncanniness」という記事を翻訳したものである。 Pluralistic AIアート(または「芸術」)に関して、クリエイティブ・ワーカーの労働権、表現の自由、著作権法の重要な例外と制限、そして美学を尊重する微妙なポジションを見つけるのは難しい。 総合的には、私はAIアートには反対だが、その立場には重要な注意点がある。まず第一に、作品をスクレイピングしてモデルを訓練することが著作権侵害だと言うのは、法律上、明らかな間違いである。これは道徳的な立場からではなく(これについては後述)、むしろ技術的な立場からである。 モデルの訓練手順を分解すると、これを著作権侵害と呼ぶのが技術的に間違いである理由はすぐに明らかになる。まず、一時的に作品のコピーを作成する行為は、たとえ数十億の作品であろうと、明らかにフェアユースだ。検索エンジンや

                                                • GitHub - tanakh/easy-scraper: Easy scraping library

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  • Introducing Cloudflare Radar

                                                    Unlike the tides, Internet use ebbs and flows with the motion of the sun not the moon. Across the world usage quietens during the night and picks up as morning comes. Internet use also follows patterns that humans create, dipping down when people stopped to applaud healthcare workers fighting COVID-19, or pausing to watch their country’s president address them, or slowing for religious reasons. An

                                                    • Nitter Instance Health

                                                      About Please do NOT use these instances for scraping, host nitter yourself. Last Updated 2024.08.29 12:04 UTC. Customize the visible columns down below. Instance Country Healthy Health History Average Time All Time % RSS Nitter Version Connectivity Points

                                                      • GitHub - go-rod/rod: A Chrome DevTools Protocol driver for web automation and scraping.

                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        • No More Movies

                                                          In my junior year of high school, I started getting into movies. My English teacher, who was a serious film buff, warned me half-jokingly: in film, you start with the best and make your way down to the worst. With literature, you grow as a reader and work your way up to the greatest works, many of which are quite difficult. But movies are much more accessible and don’t require nearly as much time,

                                                          • Slower News

                                                            Geopolitics: A new cold war and another space race has begun: China mocked officially and is overtaking US in scientific research. | De-dollarization. + Eurosclerosis: Europeans are becoming poorer. | Is the Ukraine crisis the West’s fault? Maybe or maybe not. Demographic wars: Are just starting. | Hints: Sending asylum-seekers far away. | Aging Japan wants automation not immigration. | Democracy

                                                            • Creating a Puppeteer microservice to deploy to Google Cloud Functions - LogRocket Blog

                                                              Puppeteer is a high-level abstraction of headless Chrome with an extensive API. This makes it very convenient to automate interactions with a web page. This article will walk you through an example use case where we are going to search for a keyword on GitHub and fetch the title of the first result. This is a basic example purely for the sake of demonstration, and it can even be done without Puppe

                                                              • Abrasive Tools Market Size, Share, Growth | Report, 2032

                                                                • 自宅の Jetson で動いている WebRTC Native Client Momo を外出先でいい感じに監視する方法

                                                                  やりたいこと 自宅の Jetson Xavier NX 上で動かしている WebRTC Native Client Momo を外出先からでも監視したい 自宅のネットワークを外部に開放したくない Momo を動かしているマシンの CPU/Memory/Disk/Network と chrome://webrtc-internals で見ることができる WebRTC Stats を監視したい 監視サーバーやダッシュボードツールは既に知見がある Prometheus と Grafana (の Managed 版である Grafana Cloud) を使いたい やったこと Momo を改造して、RTCConnection.GetStats() の結果を HTTP API 経由でとれるようにした Momo Release 2020.9 の時点では、RTCConnection.GetStats()

                                                                  • Twitterで削除したはずのツイートとリツイートが勝手に復元されてしまうバグが発覚、自分の過去の削除ツイートが本当に消えているかどうか要確認

                                                                    Twitterで削除したはずのツイートやリツイートがなぜか復元されてしまっていると、海外メディアのThe Vergeが報じています。 A Twitter bug is restoring deleted tweets and retweets — including my own - The Verge https://www.theverge.com/2023/5/22/23732497/twitter-bug-restoring-deleted-tweets-retweets Deleted tweets are reappearing for some Twitter users | ZDNET https://www.zdnet.com/article/deleted-twitter-messages-are-reappearing-for-some-users/ The Verg

                                                                    • Understanding the Polyfill Attack (Polykill)

                                                                      Supply chain threats are growing. Most concerningly, it seems more and more like we’re dealing with nation level threats taking over small unmaintained open source projects. Once again, I’ve got to start by talking about Tidelift being the only company focusing on the real problem here - helping companies treat maintainers like the contractors/vendors they are. If maintainers had any financial ben

                                                                      • Create an Azure OpenAI, LangChain, ChromaDB, and Chainlit chat app in AKS using Terraform

                                                                        In this sample, I demonstrate how to quickly build chat applications using Python and leveraging powerful technologies such as OpenAI ChatGPT models, Embedding models, LangChain framework, ChromaDB vector database, and Chainlit, an open-source Python package that is specifically designed to create user interfaces (UIs) for AI applications. These applications are hosted in an Azure Kubernetes Servi

                                                                        • Private State Tokens  |  Privacy Sandbox  |  Google for Developers

                                                                          Send feedback Private State Tokens Stay organized with collections Save and categorize content based on your preferences. Implementation status Chrome Platform Status. In origin trial Chrome 84 to 101: now closed. Demo. Chrome DevTools integration. What are Private State Tokens? Private State Tokens enable trust in a user's authenticity to be conveyed from one context to another, to help sites com

                                                                          • データの抽出(スクレイピング) | Power Automate サポート ASAHI Accounting Robot 研究所

                                                                            ログインすると広告表示が消えます 業務を行う中で、システムからCSVやPDFをダウンロードする、という業務は非常に多いと思います。 ですが、こういった機能がシステムにない場合は、どうでしょうか。 画面の内容をコピーして貼り付けるということを行っている、という方が多いと思います。 ここで重要になってくるのが「スクレイピング」という言葉です。 スクレイピングとは、非常に簡単に言うと「情報の抽出」です。 次の動画は、建設業で自治体の入札情報(道路工事など)しているものです。(宜しければチャンネル登録もお願いします!) 注意点サービスの中には、ロボットによる自動収集を禁止しているものがあります。 代表的な一つがAmazonです。 Amazon.co.jp ヘルプ: Amazon.co.jp 利用規約より抜粋 利用許可およびサイトへのアクセス この利用許可には、アマゾンサービスまたはそのコンテンツの

                                                                            • UiPathで避けて通れないDataTableをおさらい - Qiita

                                                                              UiPathで定型作業を自動化する際、どうやっても使う事になるのがDataTable。 .NETで業務アプリケーションを作るプログラマーにとっては定番なのですが、 RPAの世界ではそうじゃない人の方が大多数と思います。 UiPath Academyの「レッスン9 - Excelとデータテーブル」でも学べるのですが、 早い段階から知っておいた方が良い知識なので、UiPathで必要な範囲に絞っておさらいしてみます。 DataTable(データテーブル)とは何か Excelシートと同じ、行と列の表形式データを入れる"入れ物"です。 Excelシートと違うのは、行番号は1でなく0から始まる事と、 列もA, B, C, ...ではなく列名(↓の例だと"ロボID"等)、もしくは行と同様に0, 1, 2, ...です。 UiPathでは大抵の場合、↓のような使い方になります。 ・Read Rangeアク

                                                                              • スクレイピングとクローリングの違いとは?Pythonコードで解説 - Workship MAGAZINE(ワークシップマガジン)

                                                                                プログラムでWeb上から情報を取得する際によく登場する技術用語として、「スクレイピング」と「クローリング」があります。 両者はさまざまな本や解説サイトで登場している用語ですが、これらの用語の意味の違いを正しく理解していますか? 今回はスクレイピングとクローリングの違いを、実際のコードの比較を交えて解説します。 スクレイビグは、情報を「抽出」すること スクレイピング(scraping)とは、「こする」「削りとる」「剥離物」を意味する英単語です。 そこから転じて、「何らかのデータ構造から余分な情報を削りとり抽出すること」を、IT分野では「データスクレイピング」と呼ぶようになりました。 データスクレイピングは特に、プログラム間でやりとりされる人間が読むのに適さないデータから、人間が読めるレベルまで余分な情報を除去し、必要な情報のみ抽出する際によく用いられる言葉です。 なおこのデータスクレイピング

                                                                                • Reduce Istio Sidecar metric cardinality

                                                                                  Reduce Istio Sidecar metric cardinality How to configure the Istio stats EnvoyFilter to reduce the cardinality of metrics in istio-proxy to greatly reduce the load on Prometheus Following on from my previous post which was primarily focused on how to handle high cardinality metrics once they reach prometheus, this post is focused on reducing that cardinality at source - at istio-proxy itself. When