エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
JavaによるHTML文章の解析手法 - tSeiya's blog
一般的な検索システムの構成は以下のようになっている。 この内、インデクサの中は「HTML文章の解析」→... 一般的な検索システムの構成は以下のようになっている。 この内、インデクサの中は「HTML文章の解析」→「テキストの分析」→「画像の分析」→「検索用データ生成」となっている。 今回は「HTML文章の解析」を行う。 そもそもHTML文章とは? ウェブページを記述するためのマークアップ言語(=HTML)で記述された文章で、基本的な構造は <html> <head> <title>タイトル</title> </head> <body> <a href="URI">あいうえお</a> </body> </html> のように階層構造になっている。 どのようにプログラムを読み込むか 2つのアプローチ DOM(Document Object Model) XMLを読み込む別のAPIであるSAXと異なり、XMLデータをツリー構造として扱う事ができる。ただし、通常の場合対象のXML文書を全て読み込んでからの
2014/01/08 リンク