  • LambdaでスクレイピングするならDockerイメージを使おう【Python】|トラハック

    AWS Lambdaでのスクレイピング用Pythonスクリプト実行環境構築手順(Dockerを使います)AWS Lambdaでのテスト実行方法任意ワードのGoogle検索結果上位10のURLを取得するスクレイピングコード(Python) 現在私は、SEOライティングのリサーチ自動化プログラムを開発中です。言語はPythonで、SeleniumとHeadless Chromeを使ってスクレイピングします。 サーバー管理が面倒なのでAWS Lambdaを使ってサーバーレス環境から実行させます。このプログラムを作った経験と知見を記事にまとめました。 「開発プロセスの中で私がハマった点」「web検索結果上位の記事にはまとまりきっていないと感じた情報」を、初心者でも分かりやすいよう解説します。 この記事ではAWS Lambdaの実行環境をDockerで用意するので、そもそもDockerを使ったことが

    • Blu-ray playback with libaacs & libbdplus - Doom9's Forum

      After a long hiatus, discoveries in the past few years on this forum have made Blu-ray playback possible again on free (libre) software such as VLC without proprietary solutions such as DVDFab, MakeMKV or AnyDVD. Presented here is a new libaacs & libbdplus build for Windows with some improvements made by several different people. Included are Win32/Win64 builds and the actual source patches. It wo

      • Kawasaki confronts its gentrification

        After successfully luring factories of big-name companies, Kawasaki morphed into a booming manufacturing hub, and ultimately a linchpin of the Keihin industrial region. REUTERS TOMOHIRO OSAKI Staff writer Surrounded by bustling downtown streets, shopping malls and high-rises, Kawasaki Station and its vicinity are, on the surface, paragons of urban development. Just a short distance away, however,

        • Python Projects with Source Code | Aman Kharwal

          Python is one of the best programming languages. Due to its readability and beginner-friendly nature, it has been accepted by industries around the world. So to master Python for any field you have to work on projects. In this article, I will introduce you to 100+ amazing Python projects with source code solved and explained for free. Python Projects with Source Code Python Projects For Beginners:

          • !!! ATTENTION !!!


            • GitHub - fr0gger/Awesome-GPT-Agents: A curated list of GPT agents for cybersecurity

              MagicUnprotect: This GPT allows to interact with the Unprotect DB to retrieve knowledge about malware evasion techniques. GP(en)T(ester): A cybersec assistant for pentesting guidance. Threat Intel Bot: A specialized GPT for the latest APT threat intelligence. Vulnerability Bot: A specialized GPT on vulnerability, secure code, ransomware attacks SourceCodeAnalysis: Upload any project's source code

              • A Brief History of Netflix Personalization

                Photo: freestocks via UnsplashIntroductionThis essay details Netflix’s progress from its launch in 1998 to the recent launch of its “I feel lucky” button — a merchandising tactic where Netflix members rely totally on Netflix’s personalization algorithms. It’s a messy journey, with an evolving personalization strategy propelled by Netflix’s ability to execute high-cadence experiments using its home

                • StarSnow: HTTP Client for Snowflake SQL

                  Generic Snowflake functions to interact with web APIs directly from SQL statements. Photo by Alessandro Viaro on UnsplashSnowflake is an extremely SQL-friendly database: you can ingest, transform, and access your structured and semi-structured data directly from your SQL code. However, as a cloud-only data platform, it has some fundamental restrictions: all insecure operations like accessing local

                  • Rambles around computer science

                    Diverting trains of thought, wasting precious time Tue, 27 Aug 2024 How to really wrap a C compiler and preprocessor, really* * really Suppose we want to interfere with how a vaguely Unix-style C compiler does its job, and that we want to try compiling existing software with this modified compiler. Assuming the build system will let us do something like: CC=/path/to/my/wrapper make or CC=/path/to/

                    • 2019-05-14 経産省と本気でアジャイル開発をやってみた!制度ナビPJで見えたGovTechのリアルと未来 #GovTechJP|諏訪真一

                      2019/05/14 に開催された 経産省と本気でアジャイル開発をやってみた!制度ナビPJで見えたGovTechのリアルと未来 のイベントレポートです。 ●イベント概要 「行政のサイトって、使いにくい!」「何回も同じことを入力しないといけない」 とにかく評判の悪い行政のデジタルサービス。 一方で、法律や人材、文化など行政ならではの事情もあります。 批判や苦情を言っているだけではいつまでも使いやすいサービスは生まれてきません。 現場でリアルを知り、一緒に考え、手を動かすことで分かることや見えてくる未来があります。 「ともに考え、ともにつくる」がモットーのCode for Japanは、アジャイル開発での実績が豊富なギルドワークスとともに、中小企業庁「制度ナビ」のアプリ開発に挑戦しました。 どのようにプロジェクトを進めたのかどのようなアプリができたのか? プロジェクトで見えてきた行政のアプリ開

                      • The Data That Powers A.I. Is Disappearing Fast

                        For years, the people building powerful artificial intelligence systems have used enormous troves of text, images and videos pulled from the internet to train their models. Now, that data is drying up. Over the past year, many of the most important web sources used for training A.I. models have restricted the use of their data, according to a study published this week by the Data Provenance Initia

                        • Perplexity will put ads in its AI search engine and share revenue with publishers

                          When people type a question into Perplexity, the two-year-old search engine scours the internet and uses information from multiple sources, including online publishers, to synthesize an answer using AI. Soon, Perplexity will start sharing revenue with some publishers as part of an advertising platform it plans to launch around the end of September, the company announced on Tuesday. The initiative,

                          • AI Act: a step closer to the first rules on Artificial Intelligence | News | European Parliament

                            On Thursday, the Internal Market Committee and the Civil Liberties Committee adopted a draft negotiating mandate on the first ever rules for Artificial Intelligence with 84 votes in favour, 7 against and 12 abstentions. In their amendments to the Commission’s proposal, MEPs aim to ensure that AI systems are overseen by people, are safe, transparent, traceable, non-discriminatory, and environmental

                            • Python でクローリング、スクレイピングする前に確認しておきたいこと

                              スクレイピングは自動でウェブページ上の必要な情報を抜き出せるので大変便利なのですが、いくつか気をつけることがあります。 そもそもクローリング、スクレイピングとは下記のような違いがあります。 クローリング (crawling): ページからページに移動すること スクレイピング (scraping) : ページの情報を抜き出すこと それでは、何を確認すべきか見ていきましょ。 結論 シンプルに結論を言うと、 私的利用で 情報解析が目的で robotx.txt の内容に従い ウェブサイトにログインなどせず 人間的なスピードで クローリング & スクレイピングする分にはなんら問題ない。 になります。 例えば、Google で特定のキーワードで検索し、結果のトップ 10 のサイトから、人間的スピードで H2 タグや URL を抜き取り、自分自身が情報解析することは問題ありません。そして、この動作を自動