Powered by ScienceWe bring state of the art algorithms and scientific breakthroughs to our products, develop novel research ideas that can lead to new business opportunities, and contribute to the state of art in our core scientific disciplines.
1.はじめに Webデータにおけるパターン発見をデータマイニング技術を用いて行なうこと をWebマイニングと呼ぶ。Webマイニングは、自然言語処理や機械学習、データ マイニングなどの人工知能の分野にとどまらず、情報検索やデータベースなど 幅広い分野と関連する複合的な研究分野である。 注目するWebデータの種類によって、Webマイニングは以下の3つに分類される。 1) Webページのコンテンツに注目し、自然言語処理やデータベースのアプローチを用いて、 テキストマイニングによる情報抽出や半構造データにおける検索のモデル化などを 目指すWeb内容マイニング 2) Webページ間を結ぶハイパーリンクによって構成されるグラフ構造に注目し、 関連ページの発見や重要ページのランキング、グラフ構造のモデル化などを 目指すWeb構造マイニング 3) Webページの閲覧によって生じる(サーバー側やクライアント
_ [研究] リンクスパムの分布図 PageRankのようなリンクに基づく検索結果ランキング手法を騙そうとする行為をリンクスパムと呼びます。大量にドメインを確保したり、業者同士で結託したりして、密なリンク構造を構成するのが簡単な方法です。日本語ウェブアーカイブから、そのほんの一部を抽出してグラフ構造を可視化すると以下のようになります(丸はサイトの集合で、線はサイト集合間のリンク)。真中のグレーの丸は、ウェブグラフの中心にあたります。これは全サイトの3分の1くらいが含まれる巨大な強連結成分で、良いサイトも悪いサイトも山ほど含まれています(中の数字は、含まれるサイト数)。その周りに浮遊している黒い丸が、スパムサイトからなる強連結成分です。1つ1つに数百から数千の相互に強く結びついたスパムサイトが含まれています。スパムの強連結成分同士がまた密な構造を作っていてなかなか興味深い図になっています。昨
若年層のテレビ離れが進んでいる。野村総合研究所(NRI)の調査で「テレビがなくなっても構わない」と答えた人の割合は20~29歳で24%、15~19歳は33%と3分の1に達した。 テレビで放送されているコンテンツをリアルタイムで見るというスタイルが、HDDレコーダーや動画共有サイトの普及で大きく変わってきている。テレビの視聴率も低減傾向。DVDやCD、書籍などのコンテンツパッケージ市場も振るわず、コンテンツ産業は岐路に立っている。 「コンテンツ市場はどうすれば成長できるか」――NRIは2月5日、2015年に向けたメディアやコンテンツの変革シナリオを「こうあってほしいという理想も含めて」(同社情報・通信コンサルティング部の中村博之上級コンサルタント)提示した。そこで示した「未来のテレビの理想像」は、「ニコニコ動画」「YouTube」などネットサービスにある機能がいくつも取り込まれている。 「テ
Mambo - the dynamic portal engine and content management systemUbiCrawler is a scalable, fault-tolerant and fully distributed web crawler developed in collaboration with the Istituto di Informatica e Telematica. The first report on the design of UbiCrawler won the Best Poster Award at the Tenth World Wide Web Conference. Once a part of the web has been crawled, the resulting graph is very large—yo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く