[B! crawler] manboubirdのブックマーク

manboubird id:manboubird

crawlerに関するmanboubirdのブックマーク (161)

GitHub - unclecode/crawl4ai: 🔥🕷️ Crawl4AI: Open-source LLM Friendly Web Crawler & Scrapper
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manboubird 2024/09/21
crawler

artificialIntelligence

llm

generativeAi
リンク
第12回 LLM 勉強会
2024年8月27日（火）に国立情報学研究所にて第12回 LLM 勉強会を開催しました。プログラム LLM-jp 状況報告（黒橋）実環境インタラクションWG (尾形）[資料] コーパス構築WG（河原）[資料] 評価・チューニングWG（宮尾）[資料] 安全性WG（関根）[資料] マルチモーダルWG（岡崎）[資料] モデル構築WG（鈴木）[資料] Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?（Qianying Liu/NII）[資料] Web上の記事クローリングと著作権侵害（柿沼太一/STORIA法律事務所) [資料] 参加者現地19名・オンライン120名程度
manboubird 2024/08/31
llm

generativeAi

rag

copyright

crawler

law
リンク
今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
皆さんこんにちは。CTOの松本です。LLM使ってますか？ChatGPT毎日触ってますか？ LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての
manboubird 2024/03/12
chatGpt

zapier

generativeAi

llm

layerx

crawler
リンク
Twitterの親会社であるXが「Twitterでデータスクレイピングを行い損害を与えた」として4人を提訴、1億3000万円超の損害賠償を求める|au Webポータル
manboubird 2023/11/03
law

sue

twitter

scraping

crawler
リンク
PlayWright Browser Toolkit で Webスクレイピングを試してみた | keywalker
はじめに PlayWright Browser Toolkitを紹介します。今回は、PlayWright Browser Toolkitを使って、簡単なWebスクレイピングを行いました。目次概要動作確認：pythonからPlayWrightを操作する PlayWright Browser Toolkit 簡単なWebスクレイピングまとめ参考情報 1.概要 PlayWrightとは PlayWright(リンク)は、Microsoft社が開発している、Webテストと自動化のためのフレームワークです。 PlayWrightを使うことで、Chrome、Firefox、WebKitをコマンドラインから操作することが可能になります。 PlayWright Browser Toolkit PlayWright Browser Toolkit(リンク)は、LangCahin(リンク)のAge
manboubird 2023/10/28
playwright

scraping

crawler

openAi

chatGpt

agent

langchain
リンク
AIにニュースの収集を任せている方法（GPT-4からSlack投稿） - toyoshiの日記
キーワードベースで情報収集をしているという下記の記事を読みました。私も似たようなことをしているのですがキーワードは使わない方法でニュースの収集をしていて、そのほうがLLMを活用できていると思うのでその方法を紹介します。 forest.watch.impress.co.jp キーワードではなく自分の目的や関心を伝える以前私が手動でやっていたのはRSSリーダーにサイトを登録して、記事のタイトルと概要を読んで気になる記事を開いて読むということでした。こういうときに人間はキーワード検索をしていません。何をしているかというと自分の目的や関心があって、それに関連する記事をピックアップするということです。それと同じようなことをさせようというのが今回紹介する方法です。ポイントは今回の場合は私の所属する会社について情報をプロンプトで与え、それに関連するニュースが何かをLLMに考えさせることです。今回の
manboubird 2023/10/14
chatGpt

crawler
リンク
GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manboubird 2023/08/28
scraping

crawler

benchmark

informationExtraction
リンク
GitHub - adbar/trafilatura: Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manboubird 2023/08/28
crawler

scraping

python

trafilatura
リンク
Puppeteer | Puppeteer
Puppeteer is a JavaScript library which provides a high-level API to control Chrome or Firefox over the DevTools Protocol or WebDriver BiDi. Puppeteer runs in the headless (no visible UI) by default Get started | API | FAQ | Contributing | Troubleshooting Installation npm i puppeteer # Downloads compatible Chrome during installation. npm i puppeteer-core # Alternatively, install as a library, wi
manboubird 2023/08/25
puppeteer

nodeJs

javascript

crawler

testing

ssr
リンク
shot-scraper
manboubird 2023/07/16
scraping

datasette

crawler

playwrite
リンク
GitHub - serpapi/google-search-results-python: Google Search Results via SERP API pip Python Package
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manboubird 2023/06/19
searchEngine

serpapi

google

python

scraping

crawler
リンク
ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
今回やりたかったこと目標：ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。作ったもの概要保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。処理は大きく2つに分かれています。ウォーキングイベントサイトから歩数をスクレイピング＆スプシへアップロードスプシの GAS で投稿文字列作成＆ slack へ自動投稿今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。運良く（？）今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必
manboubird 2023/05/13
crawler

chatGpt
リンク
スクレイピングは違法？3つの法律問題と対応策を弁護士が5分で解説 | TOPCOURT LAW FIRM
はじめにスクレイピングで色々なデータを集めたいけど、「スクレイピングは違法だ」ということも耳にしたことがあり、実際のところはどうなんだろ？と考えている事業者もいらっしゃるのではないでしょうか？確証を得ないまま、スクレイピングを使った事業を行うのは、正直不安ですよね。もっとも、ビジネスの世界ではリスト作成やら何やらで、スクレイピングを多用している企業も多いはずです。そこで今回は、そもそもスクレイピングが何なのかという点を確認したうえで、スクレイピングに関する法律上の問題点について、ITに詳しい弁護士が解説します。１　スクレイピングとは（１）スクレイピングとはなにか「WEBスクレイピング（英: Web scraping）」とは、ウェブサイトからHTMLの情報を抽出するコンピュータソフトウェア技術のことをいいます。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれます。スクレイ
manboubird 2022/05/16
law

crawler

copyright
リンク
【スクレイピングと法律】スクレイピングって法律的に何がOKで何がOUTなのかを弁護士が解説。【２０２２年１２月加筆】 | IT企業の法律に詳しいIT専門弁護士｜中野秀俊
グローウィル国際法律事務所代表弁護士。東京弁護士会所属。IT企業専門の弁護士、社労士事務所、企業への資金調達・M&A•IPO支援をするコンサル会社・システム開発会社も経営スクレイピングによってデータベースを作りたい！はいいのか？スクレイピングとは、ウェブサイトから、ウェブページのＨＴＭＬデータを取得して、取得したデータの中から、特定のトピックに関わるデータを抽出、整形しなおすことをいいます。スクレイピングは、ウェブ上にあるデータを取得する際に、クローラを用いて、自動的に取得することによって、短時間で膨大な情報を収集することができることに特徴があります。このような技術を用いて、政府公開情報や他企業の情報、ニュース記事などの中から、自社に必要な情報を抜き出して、分析し、自社のデータベースを作成することが行われています。一般的に、スクレイピングによって、データベースを作成する手段をま
manboubird 2022/05/16
copyright

law

crawler
リンク
【IT弁護士監修】スクレイピングは違法？法律に基づいて徹底解説 – PigData | ビッグデータ収集・分析・活用ソリューション
今回は、数々の企業におけるIT関連の案件を扱っていらっしゃる戸田総合法律事務所の中澤弁護士をお招きして、企業が行うWebスクレイピングに潜む法律的観点でのリスクについて解説していただきます。皆様はじめまして、弊所は埼玉、東京、福岡の三拠点を設け、全国のお客様に対してインターネットやITに関する法律問題に関するアドバイス、紛争解決を提供しております。事務所の代表である私自身は特にインターネット関係の法律問題を専門としています。どうぞ、よろしくお願いします。
manboubird 2022/05/16
crawler

copyright

law
リンク
岡崎市の図書館システムをめぐる事件について_日本図書館協会図書館の自由委員会
manboubird 2022/05/15
crawler

library

law

sue
リンク
Librahack ：容疑者から見た岡崎図書館事件
出来事の詳細 3/13 新着図書データベースを作るためクローリング＆スクレイピングプログラムを作成したちょうどその頃、市場調査を行うためにECサイトのスクレイピングプログラムを作っていた。そのついでに、前々から構想していたLibra新着図書Webサービスを作ろうと思った。市場調査プログラムの一部をカスタマイズして、新着図書データベース作成プログラムを作った。この時、市場調査プログラムと新着図書データベース作成プログラムは同じプログラム内にあり、パラメータでアクションを指定して振り分けていた。 Webサービスを作ろうと思った動機は「なぜプログラムを作ったか」の通り。 Webサービスの概要は「どんなプログラムを作ろうとしていたか」の通り。普段読む本を入手する流れ：1. Amazonの各カテゴリの売れ筋をチェックしてレビューを確認し読むかどうか決める（または、書評ブログや新聞などのメディアで
manboubird 2022/05/15
crawler

law

sue

library
リンク
高木浩光＠自宅の日記 - 岡崎図書館事件から3年〜もう一つの誤認逮捕事件, 吹田市立図書館でサイバー攻撃騒ぎ、岡崎の教訓は活きていたか？岡崎図書館..
■ 岡崎図書館事件から3年〜もう一つの誤認逮捕事件一昨々日、去年の遠隔操作事件への対応で、全署でサイバー教育へ…警視庁、誤認逮捕防止で, 読売新聞, 2013年3月13日全警察署員に「サイバー講習」警視庁、捜査能力向上狙う, 日本経済新聞, 2013年3月13日という記事が出たところだが、今、日本のサイバー犯罪史上象徴的なもう一つの誤認逮捕事件、「岡崎図書館事件」から、3年が経とうとしている。図書館が最初に「ホームページにつながらない」との苦情電話を受け、担当者が三菱電機ISに対応策を尋ねたのが、3年前の今日、3月16日であった。遠隔操作事件では犯人の取り違えであったのに対し、岡崎図書館事件は、犯罪でない行為を犯罪とみなしたと言うべき誤認逮捕であった。両者に共通するのは、捜査員や検察官の情報技術についての常識感の欠如であり、実際、振り返ってみると、どちらの事件でも、逮捕が報
manboubird 2022/05/15
crawler

case

law

library

sue
リンク
https://techcrunch.com/2022/04/18/web-scraping-legal-court/
manboubird 2022/04/22
law

crawler
リンク
平成30年改正著作権法がビジネスに与える「衝撃」｜知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
■　はじめに 2019年1月1日に施行された平成30年改正著作権法は，「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定の整備」「教育の情報化に対応した権利制限規定の整備」「障害者の情報アクセス機会の充実に係る権利制限規定の整備」「アーカイブの利活用促進に関する権利制限規定の整備等」の４点をその内容としています。このうちビジネスに与える影響が非常に大きいのは「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定の整備」と思われます。これは「規制が厳しくなり、今まで可能だった行為が不可能になった」という意味の影響ではなく「許容される範囲が広くなり、今まで不可能だった、あるいはグレーだったビジネスが可能になった」という意味です。今回の記事では、著作権法改正により可能になったサービスについて解説してきたいと思います。なお、この著作権改正がAI開発に及ぼす影響については
manboubird 2022/03/22
searchEngine

copyright

japan

law

crawler
リンク
1 2 3 4 5 6 7 8 9 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx