ゴールデンウィークが終わって*1 ネット世界に戻ってきたところ、Gunosy 騒動 とやらで賑わっていました。クロール問題(どうやって効率的に対象となる URL をクロールするか)は私自身も苦労している部分なので、何か書いてみます。 情報の推薦(レコメンデーション)や分類(カテゴライズ、ランキング、等々)を行う Web サービスを作成・運営する場合、大雑把に分けると以下の 2 つのフェーズが存在します。 Web 上から対象となる情報(主に URL)を収集する 収集した情報を何らかのアルゴリズムに従って分類・推薦する 今回のお話の結論を先に書いてしまうと、「アルゴリズムやコンセプトの検討段階では 2. のフェーズ(情報の分類・推薦)を非常に重要視するが、実際に Web サービスが出来あがって運用する段階になると、むしろ 1. のフェーズ(情報の収集)に苦心する事が多い」と言うものです。 So