satojkovicのブックマーク / 2006年10月16日

http://digiper.com/interview/archives/2006/07/post_6.shtml

satojkovic 2006/10/16

コミュニティ

リンク

ITベンチャー創業者のインタビュー集『Founders at Work』がすごそうだ - YAMDAS現更新履歴

ポール・グレアムの「学生のためのベンチャー指南---A Student's Guide to Startups」で知った、Y Combinator の共同創業者ジェシカ・リビングストンによるインタビュー集『Founders at Work』を取り上げようと思いながら忘れていた。 Founders at Work: Stories of Startups' Early Days 作者: Jessica Livingston出版社/メーカー: Apress発売日: 2007/01/22メディア: ハードカバークリック: 9回この商品を含むブログ (12件) を見るサイトもできているのでラインナップを見てみたが……こりゃすごいなぁ！それこそ VisiCalc やロータスの昔から Web 2.0 時代（笑）まで網羅している。これは邦訳する価値あるんじゃないかね。公開されているスティーヴ・ウ

satojkovic 2006/10/16

book

リンク

古川享さん（元MS会長）と飲む

先日、古川享さんと飲みました。あのね、この人ほど、人生を思う存分楽しんでいるおじさんブロガーは、いないと思うんですよ。その喜びのオーラは、周囲にいる人をも明るく照らします。ちょっと思うところがあったので、長文で失礼しますが、以下、書き記しておきます。 ----------------------------------- とりあえず、簡単に古川さんの説明をします。古川さんは、黎明期のアスキーを支え、マイクロソフト日本法人を立ち上げた、大物です。顔はこんな感じ。撮影：みたいもん可愛いのです。もっとちゃんとしたプロフィールが知りたい方は、本人による履歴をご覧ください。そんなジャイアントなビジネスマンですが…… でも今は、全くの個人です。マイクロソフトの株ですら、退社時に全部売ってしまい、一切の権限を捨て去り、完全に自由な立場になったそうです。だから、古川

satojkovic 2006/10/16

リンク

Participation Inequality: The 90-9-1 Rule for Social Features

Summary: In most online communities, 90% of users are lurkers who never contribute, 9% of users contribute a little, and 1% of users account for almost all the action. All large-scale, multi-user communities and online social networks that rely on users to contribute content or build services share one property: most users don't participate very much. Often, they simply lurk in the background. In

satojkovic 2006/10/16

コミュニティ

リンク

Zipf曲線とWebサイト人気度

※ウェブサイトの収穫逓増に関するJakob Nielsenのコラムへの補足記事 Zipf曲線は、両軸を対数でとった図にプロットすると直線になる。この図はZipf分布になる300の要素による単純なデータセットを示したものだ。データの点を結ぶ線が右図では線形（リニア）になっている点に留意されたい（両軸とも対数でとってある）。普段見慣れたプロットのほとんどは線型である。比較のために、左側の図では同じ要素を線型軸にとってみた。この図表から明らかなのは、Zipf曲線は、線型軸では座標軸に近づく傾向があるということだ。このために、両軸を対数でとるのが普通なのだが、残念ながら、ほとんどの人はこの種の図の読み取りには慣れていないはずだ。簡単に言うと、Zipf分布になるデータには、簡単にいうと以下のような特徴がある。わずかな要素が極度に高い値を示す（図の左端）中くらいの数の要素が、中間的な値を示す（図

satojkovic 2006/10/16

リンク

ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。まずは、『タグの数』ではなく、比率をで判定するように改良（？）しました。スコア = タグ除去後（length） / タグ除去前（length）タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。牛乳を飲みつつ考えていると（カルシウムを摂取して身長を伸ばす）、ひらめきましたよ！要は、長い文章を取り出せればいいのだから、句読

satojkovic 2006/10/16

リンク

zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW

satojkovic 2006/10/16

blog

リンク

　「なか見！」の中身は、50,000冊 - bookscanner記

昨年11月の記事（『アマゾンジャパン、書籍の全文検索ができる“なか見！検索”のサービスを開始』）、なか見！検索は、その名のとおりAmazon.co.jpで販売されている書籍の内容の全文検索を行なえる機能。検索キーワードがヒットしたページの前後をプレビューする“立ち読み”に相当する機能も持つ。(株)講談社など280社の協力を得ており、現在800万点前後の取り扱いがある書籍のうち13万冊以上をデータベース化しているという。これには海外サービスですでに提供されている洋書のデータも含まれているが、洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない。さらに、今年5月に、谷口正晃さんの記事（『書籍全文検索サービス　グーグル、日本でも』）、昨年１１月から販売する書籍の検索・閲覧サービス「なか見！検索」を始めたアマゾン・ドット・コムでは、「最初は１３万冊が閲覧対象だったが、

satojkovic 2006/10/16

リンク

無印吉澤（※新エントリはhatenablogに掲載中） - Rojo / ソーシャルブックマークとソーシャルネットワークの微妙な関係

吉澤です。このサイトではIPv6やP2Pなどの通信技術から、SNSやナレッジマネジメントなどの理論まで、広い意味での「ネットワーク」に関する話題を扱っていたのですが、はてなブログに引っ越しました。最新の記事は http://muziyoshiz.hatena blog.com/ でご覧ください。 RSSフィードは http://muziyoshiz.hatena blog.com/feed に手動で変更するか、 Feedly or Live Dwango Reader を使っている方は以下のボタンで変更ください。 ■[SBM][SNS]Rojo / ソーシャルブックマークとソーシャルネットワークの微妙な関係（今回の日記は、cedさんとのMSNメッセンジャーでの会話を元にしています。） ■ Rojoはダメダメでした。でも、どこがダメ？ Rojo http://www.rojo.com/ 今ま

satojkovic 2006/10/16

sns
sbm

リンク

はてなブックマーク

タグ

2006年10月16日のブックマーク (9件)

http://digiper.com/interview/archives/2006/07/post_6.shtml

ITベンチャー創業者のインタビュー集『Founders at Work』がすごそうだ - YAMDAS現更新履歴

古川享さん（元MS会長）と飲む

Participation Inequality: The 90-9-1 Rule for Social Features

Zipf曲線とWebサイト人気度

ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

「なか見！」の中身は、50,000冊 - bookscanner記

無印吉澤（※新エントリはhatenablogに掲載中） - Rojo / ソーシャルブックマークとソーシャルネットワークの微妙な関係

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス