ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

暮らしカテゴリーの変更を依頼記事元:

private.ceek.jp

52 usersがブックマークコメント

コメント

8

記事へのコメント8件

注目コメント
新着コメント

todesking タグの比率

fulltext

2008/04/28 リンク

katotaku 本文抽出

blog

2007/01/30 リンク

nilab ブログの本文抽出にチャレンジ - Ceekz Logs : 日本語の句読点がたくさん含まれる部分を本文とするプログラム

blog_analysis

2007/01/08 リンク

sshi なんか他にもいろいろとやりようはありそうで。

2006/08/21 リンク

fuba Web Wrapperの知見をどうぞ

2006/06/19 リンク

se-mi Ceekz氏によるRSSからの本文抽出

RSS
Blog

2006/06/19 リンク

yuiseki korehaomoshiroi

2006/06/19 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれ... zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。まずは、『タグの数』ではなく、比率をで判定するように改良（？）しました。スコア = タグ除去後（length） / タグ除去前（length）タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。牛乳を飲みつつ考えていると（カルシウムを摂取して身長を伸ばす）、ひらめきましたよ！要は、長い文章を取り出せればいいのだから、句読

ブックマークしたユーザー

withelmo2015/07/09
ayaniimi2132011/12/09
Mariyudu2011/09/28
muddydixon2010/12/20
seikenn2009/10/09
hiroki232009/01/15
niwaka2008/11/06
bte00592008/08/30
Pasta-K2008/08/11
Wolfly2008/08/04
todesking2008/04/28
lawmn2008/01/29
inspi2007/10/31
lifehacks2007/10/30
tfukui2007/09/21
uchiuchiyama2007/09/14
n_shuyo2007/09/12
SriVidyut2007/08/13

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 暮らし

いま人気の記事 - 暮らしをもっと読む

新着記事 - 暮らし

新着記事 - 暮らしをもっと読む

設定を変更しましたx