エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
検索エンジンを作る(予定)その2 〜 Nutchについて少し解説 - k4200’s notes and thoughts
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
検索エンジンを作る(予定)その2 〜 Nutchについて少し解説 - k4200’s notes and thoughts
その3はこちら。 概要 前回はNutch + HBaseでクローラーを動かすところまでを書いた。 今回はNutchの動... その3はこちら。 概要 前回はNutch + HBaseでクローラーを動かすところまでを書いた。 今回はNutchの動作の仕組み、起動オプション、設定項目をちょっと解説。 (理解が浅い or 間違っている箇所も多いと思うので、何かあれば指摘して頂けると助かります) Nutchの動作の仕組み このブログ記事を見てもらえば大体分かると思う、などと言っちゃうと身も蓋もないし、英語が苦手な方もいるかもしれないので若干補足。 Nutchはいくつかのフェーズに分かれていて、それぞれNutch起動時のサブコマンド名になっている。 inject generate fetch parse updatedb inject 前回seedについて少し説明したが、injectフェーズではそのseed URLが初期データとしてDB(HBaseやMySQL)に投入され、以降のフェーズの元データとなる。 generate