robots.txtでは正規表現は使えない――改めて技術を正しく理解したいと心から思うミスがX(Twitter)のサイトに見付かった。今回のピックアップでは、この件に加えて、複数サイトを管理している人向けの便利なrobots.txt管理術をお届けする。 もちろん、ほかにもSEO情報をしっかりまとめている。ローカルSEOのテクニックと基本情報、デスクトップ用Googlebot終了、著者情報とSEO、生成AIなどなど、今回もあなたのSEO力アップに役立つ情報をお届けする。 X(Twitter)のrobots.txtがおかしい(このミスはちょっと恥ずかしいかも)複数サイト管理者に朗報: robots.txtはリダイレクトでまとめて管理できるローカルSEOで上位表示するためのTIPS×8ローカルSEOスターターガイド(基本版)2024年6月のグーグル検索オフィスアワー: コピーコンテンツが正規UR
Googleがrobots.txtを無視する robots.txtというファイルをブログに設置すると、特定のURLをGoogleがクロールしないように制御できます。 ttps://u-ff.com/korona-kannikensakitto-part1/?replytocom=64 ttps://u-ff.com/korona-kannikensakitto-part3/?replytocom=81 ttps://u-ff.com/crawl-budget/?replytocom=162 ttps://u-ff.com/crawl-budget/?replytocom=166 上記のようなURLへクロールしてほしくなかったので、robots.txtに Disallow: /*?replytocom=* という設定を追加しました。 詳しい設定手順は下記をご参照ください。
Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。 Perplexity AI Is Lying about Their User Agent • Robb Knight https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/ GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、ク
最強級のSEOと最上級のコンテンツすら台無しにする、robots.txtの予想と違う挙動を、あなたは知っているだろうか? 知らなければうっかりハマってしまい、「コンテンツがインデックスされない!」となってしまうかも。 「実際の挙動の根拠は?」「どうすればこの落とし穴を避けられるの?」を含めて、詳しく解説する。 ほかにも、モバイル検索でのサイト名表示や、SERPでのCTR向上事例、Google検索にとってのAIの意味などなど、今回はちょっと濃いめのSEOトピックをお届けする。 グーグルのモバイル検索でサイト名が表示されるようになったスニペット改善でCTR向上・検索トラフィック約2倍に⬆UP!2022年10月のスパムアップデートをグーグルが実施10月のグーグルオフィスアワー: サイトマップのlastmod、MFIに移行しない、サイト名が表示されないなど人間が書いたコンテンツをグーグルがスパム判
9月1日、海外のテックメディアIEEE Spectrumで「AIがウェブクローリングをめぐる戦いを巻き起こす(AI Has Created a Battle Over Web Crawling)」と題した記事が公開された。この記事では、ジェネレーティブAIの進化とそれに伴うウェブクローリングに関する論争について、AI研究者グループ「Data Provenance Initiative」のリードリサーチャーであるシェイン・ロングプレ(Shayne Longpre)氏へのインタビューを通じて詳しく解説されている。 ジェネレーティブAIとデータ収集の問題 ジェネレーティブAIは、膨大なデータセットを使用して訓練されることで、驚異的なパフォーマンスを発揮するが、そのデータセットの大部分は、私たちが日常的にインターネット上に公開している情報で構成されている。これには、ブログ投稿、ビデオコンテンツ、S
WebページがAIにより学習されないように、拒否できるようにしようという議論があります。 具体的には、ai.txtやrobots.txtなどを使って拒否する提案が出ています。 ai.txt (spawing) https://spawning.ai/ai-txt で 定義されている。 ai.txtの形で配置する 例: User-Agent: * Disallow: *.txt Disallow: *.pdf Disallow: *.doc Disallow: *.docx Disallow: *.odt (略) robots.txt のAI向け拡張 (Microsoft) Microsoftの方らが『Robots Exclusion Protocol Extension to manage AI content use』という提案をIETFに提出している という目的ベースで許可・拒否が出来
生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv
Google Search Consoleで、 インデックス > カバレッジ > 除外 を確認すると、以下のようなURLが多数インデックスから除外されていました。 ttps://u-ff.com/korona-kannikensakitto-part1/?replytocom=64 ttps://u-ff.com/korona-kannikensakitto-part3/?replytocom=81 ttps://u-ff.com/crawl-budget/?replytocom=162 ttps://u-ff.com/crawl-budget/?replytocom=166 調べてみると、「replytocom」というURLパラメーターはコメントの返信先を制御するためのものでした。 以下の3つのURLはページの見た目としてはまったく同じものです。 ttps://u-ff.com/craw
知っておいて損はない(でもちょっとマニアック)SEOの知識にクイズで挑戦! あなたは仕様を理解してrobots.txtを書き、Googlebotをちゃんとコントロールできるか!? ほかにも、JavaScriptレンダリング最新情報、SEOでの重要度が高まっている構造化データ、SEOの「ペナルティ」、グーグルのAMPの扱いなどなど、今週もSEOやサイト運営に役立つ、次のような情報をまとめてお届けする。 GooglebotのJavaScriptレンダリングに関する2つの最新豆知識リッチリザルト テストが正式版になり構造化データテストツールは引退へ動画の構造化データに関するアップデートグーグルに送ったスパムレポートはどのように使われるのか?SEOの「ペナルティ」は古い考え方!?グーグルが新型コロナ対策に新型ツールで尽力グーグルがAMPを捨てる日は来るのか?7月のオフィスアワー開催――ネイティブL
AI Watch an army of Spot and Pepper robots cheerlead a baseball game in an empty stadium NPB games are known for engaging antics that extend well beyond the play on the field. But what’s to be done in the era of COVID-19, when baseball is played in front of an empty stadium? For many — including Korea’s KBO League and the upcoming shortened MLB season — cardboard cutouts are an attempt to bring so
[レベル: 初級] robots meta タグに関する技術ドキュメントを Google は更新しました。 次の 2 点の追加です。 各 robots meta タグがないときの Google のデフォルトの処理 max-snippet robots meta タグの具体例 この記事を書いている時点で、日本語ページはまだ更新していないので、先取りで紹介します。 各 robots meta タグがないときの Google のデフォルトの処理 noindex や nofollow など十数種類の robots meta タグを Google 検索はサポートします。 しかし、すべての robots meta タグを 1 つのページに記述しているサイトはないでしょう。 それぞれの robots meta タグがない場合の既定の処理がドキュメントに追加されました。 次のようになります。 noinde
「ChatGPTにもBardにも、生成AIの学習にウチのコンテンツを使わせない!」そんなあなたに朗報。GPTBotに加えて、グーグルのAIによる学習を防ぐ方法が公開された。 ChatGPTとBard(とVertex AI)による学習をまとめて禁止するrobots.txtの指定も紹介する。 ピックアップ意外にも、今回も良ネタが多数。 9月のヘルプフル コンテンツ アップデートの特徴「広告UX」と「実経験」、10月のコア アップデートとスパムアップデートなど、グーグル情報が3件。 さらに検索結果でのサイト名表示、Googleビジネスプロフィールの新機能などなど、グーグル最新事情から、SEO以外にも役立つ情報まで、今週もあなたに役立つネタを吸収していただきたい。 グーグルのAIに自社サイトのコンテンツを学習させたくない! Bardをブロックするrobots.txt指定2023年9月のヘルプフル
AWS Robotics Blog AWS empowers SEQSENSE to build Autonomous Security Robots Introduction According to national institute of population and social security research, the working population in Japan is expected to decrease by 30% in the next 30 years. A rapidly aging population in Japan causes a shortage of labor in the security space. SEQSENSE, a robotics startup company in Japan, aims to solve thi
前書き 目次 レビュー まとめ おまけ 前書き 以前【ロボット法】についてのレビューを投稿しました。 www.sugarless-time.com 今回もそっち関係の書籍レビューになります。 【ロボット法】は2017年に初版発行、こちらの初版(翻訳版)は2019年発行ですが、翻訳前の初版は2009年に発行されており、今から15年も前のものになります。 目次 すべての章についてレビューしたいくらいなのですが、そんな大作を書くのも大変なので、本書の目次を掲載します。目次を追うだけでどのような本かは想像できると思いますので参考にしてください。 序章 第1章 なぜ機械道徳なのか? 路面電車の運転手とロボットのエンジニア 倫理的な殺人機械? 差し迫った危険 第2章 道徳の工学 それはエンジニアの義務なのか? ムーアによる倫理的エージェントの分類 第3章 人類はコンピュータに道徳的な意思決定をしてほし
[レベル: 初級] 次の robots meta タグはどちらも Google 検索では意味を持ちません。 <meta name="robots" content="index" /> <meta name="robots" content="follow" /> Google は標準で、ページをインデックスするしリンクをたどるからです。 follow robots meta タグは Google 検索に何も影響しない follow robots meta タグを記述することにはどんなメリットがあるのか? こういった趣旨の質問が英語版オフィスアワーで出ました。 Google の John Mueller(ジョン・ミューラー)氏の回答を簡潔にまとめると次のようになります。 robots meta タグ の follow は Google 検索ではデフォルトの値になっているから検索には何ら影響
While the West tends to see robots and artificial intelligence as a threat, Japan has a more philosophical view that has led to the country's complex relationship with machines. At a certain 400-year-old Buddhist temple, visitors can stroll through peaceful stone gardens, sit for a quiet cup of tea, and receive Buddhist teachings from an unusual priest: an android named Mindar. It has a serene fac
ジェイムス・ブレイクとブライアン・イーノによる対話『Talking Robots Into Heaven』が公開! James Blake (ジェイムス・ブレイク) と Brian Eno (ブライアン・イーノ) の対話した映像『Talking Robots Into Heaven』が公開!ジェームズ・ブレイクとブライアン・イーノは、音楽制作に関する洞察と音楽の進化についての興味深い議論を展開しています。 イーノは、音楽制作プロセスとしてのループに疑念を抱き、予測可能なコード進行に対する考えを共有します。また、音楽のジャンルや性別に関する固定観念に挑戦し、男性の音楽の幅広さと感情表現の多様性について議論も行います。彼らはアートの力と、音楽が共通の経験を提供する方法についても話し合います。 イーノはループ音楽に疑念を抱き、予測可能なコード進行から逃れようと努力している。音楽制作において、他の
MOUNTAIN VIEW, Calif. — Google’s first office was a cluttered Silicon Valley garage crammed with desks resting on sawhorses. In 2003, five years after its founding, the company moved into a sprawling campus called the Googleplex. The airy, open offices and whimsical common spaces set a standard for what an innovative workplace was supposed to look like. Over the years, the amenities piled up. The
米Googleを傘下に持つAlphabetは11月19日(現地時間)、“ムーンショット”プロジェクト事業Xのロボットプロジェクトを新企業「Everyday Robots」としてスピンアウトしたと発表した。LinkedInの概要欄には「より良い毎日のためのヘルパーロボット」とある。 2016年にロボット部門の責任者に就任し、現在は「CRO」(最高ロボット責任者)という肩書のハンス・ピーター・ブロンドモ氏は公式ブログで「われわれはGoogleのチームと協力して新タイプのロボットを構築している。人間の日常生活をサポートするために、自分で学ぶロボットだ。われわれのビジョンは、コンピュータがデジタル世界に変革をもたらしたように、リアルでフィジカルな世界に変革をもたらすロボットだ」と語った。 同社のロボットのプロトタイプは既にGoogleの本社キャンパス内を動き回っており、カフェのテーブルを拭いたり、
生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。 Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones) https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-
[レベル: 上級] クロールの統計情報レポートについて解説するヘルプ記事を Google は更新しました。 Googlebot がサイトをクロールする際に robots.txt ファイルをリクエストして使用する仕組みの説明がより詳細になりました。 最後のレスポンスが不成功か、24 時間以上経過している場合の挙動 Google がサイトをクロールする際に robots.txt ファイルをリクエストして使用する仕組みを解説するセクションの更新前です。 更新後は次のようになりました。 文字量が増えていることに気付くはずです。 特に注目したいのは、robots.txt をリクエストしたときの最後のレスポンスが不成功か、24 時間以上経過している場合の Googlebot の挙動です。 3. 最後のレスポンスが不成功であるか、24 時間以上経過している場合、Google は robots.txt f
Dear friends, In the last couple of days, Google announced a doubling of Gemini Pro 1.5's input context window from 1 million to 2 million tokens, and OpenAI released GPT-4o, which generates tokens 2x faster and 50% cheaper than GPT-4 Turbo and natively accepts and generates multimodal tokens. I view these developments as the latest in an 18-month trend. Given the improvements we've seen, best pra
どこへでも一緒にお出かけできる、小さなお友達。� あなたの操作でバツグンの運動神経を披露すれば、一躍人気者に。� 子供も大人もみんなで楽しめる、高性能なロボットです。 お子様と、仲間と、一人でもくもくと。 ロボットを自分で組み立てられる楽しさ ドライバー1本で、簡単に組み立てられるので お子様とも気軽に楽しみながらロボットの構造を知ることができます。 自分で作ったロボットが、自分の手によって動く感動を ぜひ味わってみてください! ダンスやサッカー、ローラースケートなど PLEN.Dを操作してみんなで楽しもう 一人でももちろん楽しめるPLEN.Dですが、 仲間とPLEN.Dを持ち寄れば、 みんなでサッカーやパイルアップゲームを楽しんだり、 ローラースケートで競争したりとさらに楽しみが広がります。 その動画をアップすれば、 あなたのPLEN.Dも人気動画として話題になるかも?
Sangjin Ryu1 & Kiyotaka Obunai2 1Department of Mechanical and Materials Engineering, University of Nebraska-Lincoln, Lincoln, NE, USA. 2Department of Mechanical and Systems Engineering, Doshisha University, Kyoto, Japan. Emails: sryu2 (at) unl (dot) edu; kiobunai (at) mail (dot) doshisha (dot) ac (dot) jp Download PDF Robots have been a very popular theme of Japanese animation, or anime, since the
[レベル: 上級] 管理するサイトのコンテンツを ChatGPT に利用されるのを防ぐために、ChatGPT が運用するクローラの GPTBot を robots.txt でブロックできます。 ChatGPT のウェブクローラは GPTBot ChatGPT の開発/提供元である OpenAI は、ウェブクローラに関係する技術ドキュメントを最近新たに公開しました。 OpenAI が使用するクローラのユーザーエージェント (UA: User Agenet) は GPTBot です。 完全な UA 文字列は次のとおりです。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) GPTBot の用途は次のとおりです。 Web pages craw
パブリッシャーのMY.GAMESは11月10日、『War Robots: Frontiers』を発表した。対応プラットフォームはPC(Steam/Windows)およびPS4/PS5/Xbox One/Xbox Series X|S。2023年に正式リリース予定で、基本プレイ無料にて提供される見込みだ。 PC版ではPioneer Pack購入者向けに、現地時間11月24日から早期アクセス配信が開始予定。 『War Robots: Frontiers』は三人称視点のマルチプレイ対戦シューターだ。プレイヤーはWar Robotと呼ばれる戦闘ロボットを操縦し、6対6のチーム戦を繰り広げる。War Robotはカスタマイズ可能で、武器やパーツのほか、アビリティやパイロットを変更することもできるそうだ。武器は4種類装備可能で、実弾だけでなく電撃を放つ武装の存在も確認できる。またSpecial Cos
GUIDE How To Meet The Challenges of Modern Search Marketing Get your copy and clear away the noise of a crowded search marketing world. Stand out and boost your visibility for your ideal audience. Download Now Webinar AI Overviews Explained: Expert Embedding Techniques For SEO Success With Scott Stouffer from MarketBrew, we’ll show you their AI Overviews Visualizer, a tool that deconstructs AI Ove
note本家のrobots.txtと同一ではない。megalodon(ウェブ魚拓)、ia_archiver(Internet Archive)がDisallowに設定されているのは意図的と思われる。 https://note.com/robots.txt / 日経のrobots.txtと同一だった。 https://comemo.nikkei.com/robots.txt <blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4702568062960124290/comment/stp7" data-user-id="stp7" data-entry-url="https://b.hatena.ne.jp/entry/s/note.dig
[レベル: 初級] robots.txt は、検索エンジンのクロールを拒否する仕組みであって、インデックスを拒否する仕組みではありません。 そうかと言って、インデックス拒否にまったく役立たないということでもありません。 robots.txt でブロックしたページでも検索結果に表示される robots.txt でクロールをブロックしたページでも検索結果に出てくることがあります。 たとえば、Twitter カードのバリデーションを検証するツールのページは robots.txt でブロックされています。 にもかかわらず、検索結果には出てきます。 このツールを公開している cards-dev.twitter.com の robots.txt はサイト全体のクロールをブロックしています。 ただし、クロールしないためページの内容を検索エンジンは読み取ることができません。 meta descriptio
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く