エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Web サイトの本文抽出を PHP で行う | ソフトウェア開発の株式会社システムフレンド
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Web サイトの本文抽出を PHP で行う | ソフトウェア開発の株式会社システムフレンド
こんにちは高橋です。ひさびさです。ぺちぺで検索エンジンや類似文書の提示エンジンなどを作成していた... こんにちは高橋です。ひさびさです。ぺちぺで検索エンジンや類似文書の提示エンジンなどを作成していたのですが、普通の文書ではなくサイト等の場合、タグやヘッダ情報、サイドバーリンクなどを対象に含めると精度がめちゃくちゃになるので、それを改善するために本文抽出プログラムを週末に実装しました。まだ一応動く程度です(いろいろと怪しいところがあるので、ごめんなさい)。 http://hakaselab.sakura.ne.jp/make/extractcontent/extractcontent.phps 下記のように利用します。 <?php require('./extractcontent.php'); list($body, $title) = extractcontent_analy(file_get_contents('http://www.example.com')); echo $titl