タグ

spamに関するyassのブックマーク (19)

  • 【CyberAgent】技術情報/TechReport - テックレポート/検索クエリからユーザを識る | 株式会社サイバーエージェント

    概要 Amebaの検索で利用される検索クエリ(「検索キーワード」とも呼ばれる)を用いて、これまでに検索クエリ分析基盤のプロトタイピングを実施してきた。稿ではこの経過を報告する。主な目的は、検索クエリの分析を通じ検索品質の向上と検索クエリから垣間見えるユーザ像を追究することである。ここでは、プロトタイプシステムの機能リストと出力を眺望することを通じ、検索クエリ分析の重要性の考察を行う。この結果として、検索クエリの持つ情報の多様さや分析結果の応用の広範さを改めて知ることとなった。稿で、今回のプロトタイピングによって検索クエリを分析することは検索エンジンの質的向上とユーザの意図への気づき促進の効果があることを強調したい。また今後の課題として、ユーザの検索意図を汲み取りそれらを的確にサービスとして反映する手段等について検討したい。 目次 序論 Amebaの主要サービスに組み込まれている検索機能

  • Amazon EC2 でメールを送ってはいけない - どさにっき

    2009年9月11日(金) ■ ボットの DNS 検索 _ v6 の逆引き設定したくねーよなー、みんなどんだけマジメに逆引き書いてんだろ、ということで、実際に v6 足を持ってるホストにアクセスしてきたクライアントを逆引きしてみた。結果。逆引きは半分弱しか設定されてませんでした。国内のサーバなのでとーぜん日のものが多いんだけど、それ以外だと .de や .fr、.edu が多い印象。ちうか、.jp よりも .de の方が多い。.com や .net な国内 ISP を jp に繰り入れると日の方が多くなるという程度。ただ、ドイツやフランスが逆引きを書くのがあたりまえな風潮があるかというとそうではなくて、単に v6 の普及度が高いだけという可能性もあるのでなんともいえない。逆引きができなかったアドレスがどこの国で使われてるのかを調べないと実際どうなのかはわからんが、調べてない。 _ そん

  • 過ぎ去りし、ブログ検索エンジンの時代 at ブログヘラルド

    3月 4日 at 7:00 pm by ジョナサン ベイリー - 3年前にブログを始めたころ、同じトピックを取り上げているブロガー、自分のブログにリンクを張っているブロガー、そして、コメントを投稿するエントリやアドバイスを送ることができそうなエントリを見つけるため、私は好んでTechnorati(テクノラティ)やGoogle Blog Search(グーグル・ブログ検索)を含むブログ検索エンジンを利用していた。 しかし、年月が経過するにつれ、これらのサービスの有用性はほとんど失われてしまった。かつては、素晴らしいアドバイスやコネクションは、テクノラティのウォッチリストやグーグルRSSフィードを介して手に入れていたが、今ではTwitter(ツイッター)、または、もっとターゲットを絞った検索を経由して獲得するようになった。 テクノラティにキーワードを幾つか入力し、有効な結果を得ることが出来

  • 複製文字列検知に基づいたSplogフィルタリング手法 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 情報処理学会論文誌:データベース(TOD)に採録決定です。 2009年03月15日出版予定 のTOD41に掲載されます。 タイトル通り、スパムブログフィルタリングの論文です。 スパムブログ検出でjournal paper級の論文はこれが最初なんじゃないかと思います。 メタレビュアーは奥村先生 でした。 査読者1、2が誰であったのか気になります。 もしかすると、わたくしが知っている人なのかもしれないのですが、 というか、この分野に十分な知識がある人は数えるほどもいないような気がしますが........ (1) 積極的に

    複製文字列検知に基づいたSplogフィルタリング手法 : 研究開発
  • Amazon's Mechanical Turk Used for Fraudulent Activities - ReadWriteWeb

    When you buy through affiliate links in our content, we may earn a commission at no extra cost to you. Learn how our funding model works. By using this website you agree to our terms and conditions and privacy policy. We uphold a strict editorial policy that focuses on factual accuracy, relevance, and impartiality. Our content, created by leading industry experts, is meticulously reviewed by a tea

  • ドメイン名からスパムサイトかどうかを判別するツールを作ってみた | Moz - SEOとインバウンドマーケティングの実践情報

    中国の北京で4月22日、ウェブ上の有害情報研究(Adversarial Information Retrieval on the Web)に関するカンファレンス「AIRWeb 2008」が開催された。このカンファレンスに関するガルシア博士の記事を見た後で、僕は各論文を読み、そのうちいくつかについてハイレベルな要約を書くつもりだった。 しかし、AIRWeb 2008カンファレンスにおいて、ウェブスパムのコンテストが開催されていたのを知るや、僕の関心は別の方向へと向かっていった。ガルシア博士の怒りを買うのを覚悟の上で(以前に僕は彼を怒らせてしまったことがある)、僕は面白半分に、独自のスパム検出アルゴリズムを開発した。そしたら、そのアルゴリズムが驚くほど良好に機能したんだよ! 僕は自分のプロジェクトの方針を変え、ドメイン名がスパム的かどうかをチェックするツールをテーマにした。だけどこのツールにつ

    ドメイン名からスパムサイトかどうかを判別するツールを作ってみた | Moz - SEOとインバウンドマーケティングの実践情報
  • TechCrunch Japanese アーカイブ » まともなブログしか回らない欧州のブログ検索エンジン「Twingly」がベータ公開に

    The European Space Agency selected two companies on Wednesday to advance designs of a cargo spacecraft that could establish the continent’s first sovereign access to space.  The two awardees, major…

    TechCrunch Japanese アーカイブ » まともなブログしか回らない欧州のブログ検索エンジン「Twingly」がベータ公開に
  • 日本語splogサンプリング調査 - TAK

    統計 http://updatenews.ddo.jp/d/ splog filter http://updatenews.ddo.jp/b/ サンプリング率は0.001です 日語splogは予想よりは少ないです。 2007年11月25日 03:00 〜 28日 03:00 の 72時間 から 1519件をサンプリングしました。 splogは90%はあるんじゃないかと予想していましたが、30%ぐらいです。 わたくしの分類は、UMBC eBiquity Research Groupとは違い、定義づけするとすれば.... blogとして編集可能なコンテンツの100%が何らかの情報源からのコピーである。 (この場合の情報源とは、オフライン、オンラインには限らず、またはテンプレートとして(非公開で)用意されている文字列なども含める) 人間が投稿しているわけではない、明らかにツールによって自動的に

    日本語splogサンプリング調査 - TAK
  • 外部流出したGoogle内部文書を解析-その2 » 海外SEO情報ブログ・メルマガ

    昨日投稿した流出したGoogleの内部ドキュメントの解説を続けます。 今日は、マニュアルの「Webspam Guidelines」というウェブスパムのガイドラインに関するセクションついてです。 ウェブスパムとは何か、どんな種類があるか、どうやって見分けるかが説明されています。 ウェブスパムというのは、サーチエンジンのロボットをだましてアクセスを集める不正な行為のことです。 SEOスパム、サーチエンジンスパムと言ったほうが、僕たちには馴染みあがるかもしれませんね。 ウェブスパマーは、不正な手法でアクセスを集めて、主にPPC広告とアフィリエイトによって収益を上げます。 しかし、すべてのPPCサイトやアフィリエイトサイトがウェブスパムと認識されるわけではありません。 付加価値のある情報、たとえば次のような情報を提供していればウェブスパムとはみなされません。 料金比較:購入のためにアフィリリンクを

    外部流出したGoogle内部文書を解析-その2 » 海外SEO情報ブログ・メルマガ
  • splogに関するサーベイ : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 surveyというか、 論文紹介程度です。 3月10日(月)発表前のはずですが、なぜかもう見えます。 神門先生の名が入ってます。名前だけかもしれません。 キーワードの時系列特性を利用したスパムブログの収集・類型化・データセット作成: 佐藤有記、宇津呂武仁(筑大)、福原知宏(東大)、河田容英、村上嘉陽(ナビックス)、中川裕志(東大)、神門典子 (NII) ※ちなみに、データセット作成とタイトルにありますが、 このデータセットを評価用に外部の人間にも使わせてくれればいいのに 使わせてはくれないようです。 splogの定義

  • ブログ分析の敵は記事を自動生成するスパムブログ

    企業向けブログ分析サービスを展開するニフティ。2006年4月からブログ分析サービス「BuzzPulse(バズパルス)」の商用版を開始。2007 年10月10日にはASP型ブログ分析サービス「BuzzSeeQer(バズシーカー)」を開始している。企業によるブログ分析サービス利用は進んでいるのか、また技術的な課題はないのか。両サービスを開発、提供するニフティ研究所所長の友澤大輔氏に話を聞いた。 2006年に開始した「BuzzPulse」は累計で約70社の企業が利用しています。基的には、日航空(JAL)、日放送協会(NHK)、 WOWOWといった大手企業が多いです。年間契約をしている企業が多く、継続的に、定期的に詳しくブログ分析したいというニーズが多いようです。 ただ、ブログ分析サービスはいまだ啓蒙(けいもう)段階だと認識しています。「いったい何に使えるの?」という問い合わせも数多くの企業

    ブログ分析の敵は記事を自動生成するスパムブログ
  • 株式会社ブログウォッチャー

    スマートフォン向け位置情報データサービス。独自開発SDKによりスマートフォンの位置情報データを保有。広告・プッシュ通知・分析などの様々なソリューションを提供。

    株式会社ブログウォッチャー
    yass
    yass 2007/07/11
  • Google Safe Browsing API - Google Code

    Stay organized with collections Save and categorize content based on your preferences. Safe Browsing is a Google service that lets client applications check URLs against Google's constantly updated lists of unsafe web resources. Examples of unsafe web resources are social engineering sites (phishing and deceptive sites) and sites that host malware or unwanted software. Come see what's possible. Wi

    Google Safe Browsing API - Google Code
  • sshguard――OpenSSHを保護するツール | OSDN Magazine

    もし辞書を使って力ずくで攻撃されたら――SSHに対するこの種の攻撃は珍しくないため、そう心配する人は多いだろう。しかし、こうした攻撃からSSHを守ってくれる新しいツールsshguardが登場した。まだベータ段階だが、十分に使えそうだ。 TelnetやFTPなどといった第1世代のネットワーク・プロトコルでは、ログイン手順は平文で処理される。したがって、そのセキュア版としてOpenSSHが登場したのは当然だろう。だが、Telnetの代わりにSSHを使っているからといって十分とはいえず、慎重に用いるべき点は同じだ。SSHに使うパスワードが弱いと、辞書を利用した力ずくの攻撃で、パスワードを平文で送ったのと同じくらいやすやすと解読されてしまうからだ。 そのポート22を力ずくの攻撃から保護しようと考え出されたのがsshguardだ。このツールはSSHへのログイン要求を監視し、攻撃があるとそのIPアドレ

    sshguard――OpenSSHを保護するツール | OSDN Magazine
  • スパム情報を共有してAPIで利用可能な「FC2ソーシャルスパム対策」

    日々送信されるスパムメールや迷惑メール、詐欺サイト、不正スパムサイトなどの情報をリスト化してユーザー同士で共有することによって、迷惑なサイトを撲滅しようというサービス。 また、APIを利用してスパムデータチェック・リスト取得も可能なので、いろいろと応用の幅が広がりそうです。 詳細は以下の通り。 FC2スパム対策 http://seo.fc2.com/spam/ 以下から、迷惑メールサイト、迷惑トラックバックサイト、ねずみ講・マルチ・ネットワークビジネスサイト、詐欺サイト、アダルトサイト、出会い系サイトなどで検索できます。 スパム情報検索 APIの利用については以下の通り。 ■APIの利用に関して スパムデータチェック・リスト取得API ヘルプ これで多少は現状が改善するのでしょうか?あるいは、Akismetのような強力な対スパムプラグインが日語向けに作られるのかな……?

    スパム情報を共有してAPIで利用可能な「FC2ソーシャルスパム対策」
    yass
    yass 2007/02/25
  • TechCrunch | Startup and Technology News

    Welcome to Startups Weekly — Haje‘s weekly recap of everything you can’t miss from the world of startups. Sign up here to get it in your inbox every Friday. Well,…

    TechCrunch | Startup and Technology News
    yass
    yass 2006/12/17
    「プロダクトの口コミによるプロモーションを行い、口コミを行った人が口コミ料を報酬として受け取る方式の マーケティングを行う企業は、その旨を明らかにしなければならない」
  • “話題のキーワード”は真実を語る?

    いざなぎ超え呼ばれる好景気の中、各企業が取り組むWebマーケティング。その中で注目されている1つが、ブログで語られるキーワードをリアルタイムに集計し、活用するという手法だ。 “話題のキーワード”を知っているだろうか。 さまざまな呼び方をすることがあるが、ここで言う“話題のキーワード”とは、現在、ブログで語られている文章をキーワード化して集計、そしてランキング化するというものである。キーワードの上位に入る話題が、より多くのブログで語られていると結びつけられるものだ。今回は、この“話題のキーワード”が実際のマーケティングに役立っているのか? そしてキーワードは市場動向の真実を語っているのかの点について論じてみようと思う。 これまでも、上記のようなランキング判定は、週間や月間などといった単位でネットや雑誌などで発表されていた。しかし、すさまじい勢いで情報が行き交う現代、一般ユーザーならいざ知らず

    “話題のキーワード”は真実を語る?
  • Bulkfeeds: Spam Blacklist - RSS Directory & Search

    This domain name registration has expired. If you are the domain owner, please contact support@epik.com to get the renewal taken care of.

    yass
    yass 2006/08/23
  • Bulkfeeds: SPAM ブラックリストの公開、Submission API と MT プラグイン: blog.bulknews.net

    Bulkfeeds: SPAM ブラックリストの公開、Submission API と MT プラグイン Bulkfeeds では、ボランティアによる SPAM サイト登録 と、自作の SPAM フィルタによるブラックリストの強化を行ってきましたが、API による公開の準備ができたのでお知らせします。 今回の API および機能拡充は以下のリストから構成されます。 1. DNS によるブラックリスト問い合わせ API の公開(ベータ) 2. Movable Type の JunkFilter フレームワークと連携した自動登録 3. REST による ブラックリストへの URL 登録 API の公開 DNS によるブラックリスト問い合わせ Report SPAM ページから登録していただいたデータや、こちらの SPAM フィルタにひっかかったデータを DNSBL 形式でインポートし、定期的に

  • 1