タグ

2005年11月17日のブックマーク (13件)

  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • 2005-11-05

    http://japan.linux.com/desktop/05/09/02/0144235.shtml にリンクあり。javadocをchmにするみたい。 cssいじった版。見やすいと思う。 http://d.hatena.ne.jp/secondlife/20051023/1129997394 id:toton:20051102 がはてなブックマークの「最近の人気エントリー」のトップに来ていたため、アクセスが結構あった様子。っちゅーわけでアフターケアとして少し検証してみます。 間違いがあったらヤなのでwww.unicode.orgのUnihan Radical-Stroke Index っちゅーunicodeデータベース検索で「一:U+4E00」と「龠:U+9FA0」の境界を調べてみた。 参考:id:toton:20050120 「一:U+4E00」のコード体系とフォント表示と「龠:

    2005-11-05
  • すべての漢字を取り出す正規表現 - totonのブログ

    http://www.unixuser.org/~euske/doc/python/sample.py.html # 日語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html [亜-煕]はJIS漢字を検出するときに使う正規表現になります。 文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので,すべての漢字を検出するには,[一-龠]を使用してください(龠は音読みで「ヤク」,訓読みで「ふえ」,Unicodeでは「9FA0」にあたります)。 追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。

    すべての漢字を取り出す正規表現 - totonのブログ
  • phpspot - PHPスクリプト/MySQL/掲示板/入門/サンプル/正規表現/レンタルサーバー

    ようこそphpspotへ! 当サイトではフリーのwindowsphp開発環境であるPHPエディタ(forWin)や、 フリーのPHPスクリプト( PHP掲示板,webshot,webimager,CMS 等 )、PHPツールバー、テレビバー、 便利検索バー(Yahoo,Google,辞典検索)などを配布しています。 その他、PHP入門 や PHP5-TIPS、PHPサンプル集、MySQL解説、PHPレンタルサーバー特集 などのコーナーもあります。 スポンサードリンク 2009/09/14 サイトで配布しているPHPスクリプトに脆弱性!すぐ最新版にアップしてください! new! 2009/01/21 PHPで携帯サイト構築を公開! 2008/07/12 PHPによるWebアプリケーションスーパーサンプル 活用編 第二版が出ました 2008/04/22 PHPエディタをVistaに対応させま

  • 「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌

    すべての漢字を取り出す正規表現を参考にPHPでトークンを切り出すサンプルを作成しました。 <?php // スクリプトはUTF-8で記述されています $str = <<<EOM ようこそphpspotへ!当サイトではフリーのwindowsphp開発環境であるPHPエディタ forWin や、フリーのPHPスクリプト( PHP掲示板,webshot,webimager,CMS 等 )、PHPツールバー、テレビバー、便利検索バー(Yahoo,Google,辞典検索)などを配布しています。その他、PHP入門 や PHP5ーTIPS、PHPサンプル集、MySQL解説、PHPレンタルサーバー特集などのコーナーもあります。 EOM; mb_internal_encoding("UTF-8"); mb_regex_encoding("UTF-8"); $token = array(); // すべての

  • 貧乏だけど心は萌え: オンライン書店で、もっとも早く本が到着するのはどこ?

    オンライン書店で、もっとも早くが到着するのはどこ?(更新) さて問題、左の達は、昨日11月07日にオンライン書店から届いた達。電撃文庫と富士見ミステリー文庫。サイトの特性上複数のオンライン書店を使ってますが、やっぱり、ここが一番早いですね。さて、みなさんは、どのオンライン書店を使ってますか? 個人的な経験から選ぶ、オンライン書店4つの比較です。 を買うなら1番 BK1 当日発送ではなく、当日配送なBK1 というわけで、一瞬でもを早く読みたい。という時に僕が使うのがBK1。ライトノベルの入荷がもっとも早く、当日到着!!という24時間配送ならぬ、12時間到着というあらわざがあるので、昨日入荷したを、昨日受け取るというアホみたいな技ができます。 早さで選ぶなら、BK1がオススメ ※当日サービスは、関東圏のみで250円かかります。 統合的な力ならAmazon Amazon Ama

  • Poundで作るロードバランサとSSLラッパ(1/4) ― @IT

    Webサーバの負荷を軽減する方法として、リバースプロキシによる代行とロードバランサによる分散が考えられる。今回は、これらによる負荷の低減方法について解説する。(編集部) Apache自体のチューニングによる性能向上には限界があります。よりパフォーマンスを求めるなら、次にやるべきことはメモリの追加や高性能なCPUへの交換など、ハードウェアの見直しです。しかし、それにも限界があります。 リバースプロキシとロードバランサ ハードウェア単体による性能向上が限界に達した場合は、サーバ構成の見直しを行います。まず考えられるのが、リバースプロキシをWebサーバの前面に立ててクライアントからのアクセスを肩代わりさせる方法です。Webサーバがボトルネックになるのを防ぐとともに、セキュリティ向上にも寄与します。 もう1つの方法は、より高可用性を意図した構成として負荷の分散を図ることです。高可用性とは、サーバの

    Poundで作るロードバランサとSSLラッパ(1/4) ― @IT
  • http://gigazine.net/News/html/lg/000597.htm

  • フォームに入力を促すメッセージを出力する JavaScript

    ■ フォームに入力を促すメッセージを出力する JavaScript input type="text" なフォームに最初から「ここに入力して下さい」みたいなメッセージを薄い色で表示させておいて入力を促すようなのありますよね。なんか、あれを、現実逃避気味に書いたので。 function inputDefault(elm, msg) { this.elm = elm; this.msg = msg; this.color = '#999999'; this.bgColor = '#F9FFF9'; } inputDefault.prototype.set = function() { this._cleared = false; this._defColor = this.elm.style.color; this._defBGColor = this.elm.style.background

  • 「あなたのはてブランキング」ではてなブックマークのロングテールを捕まえ、た? - sshi.Continual

    先日書いた、 要は、各ユーザーにパーソナライズしたはてなブックマークランキングつくれば、はてなブックマークの底にあるロングテール部分も拾えて腐っているエントリが少なくなるんじゃないの?というお話。 の続きで、はてなブックマークの「ロングテール」を捕まえられそうなものを実装してみた。実は前の話を書いた時には、既に基部分は出来ていたんだけれども、見栄えを良くするのに時間がかかったのでこのタイミングでご紹介。 作ったのは、各ユーザーが蓄積しているブックマーク情報からそのユーザーが注目しているキーワードを抽出して、それに基づいてはてなブックマークにランク付けをして、ランキングの結果をHTMLとして生成する仕組み。「あなたのはてブ ランキング」とでもいいましょうか。 まあ、見てもらうのが早いと思うので、生成したサンプルをxreaに置いてみた。id:sshiの「今日のはてブランキング」はこちら(ht

    「あなたのはてブランキング」ではてなブックマークのロングテールを捕まえ、た? - sshi.Continual
  • Web2.0に関する考察ノート:後編 - Speed Feed

    少し間があいたが、Web2.0に関するまとめ、考察ノートの後編。 前編では、Web2.0=数年前から変化し始めたWebの環境であり、その傾向は今後数年間にわたって更に顕著になっていく、と書いた。 後編では、Web2.0時代に生き残るサービス、企業、ビジネスモデルを論じたい。 01. Web2.0の技術 メタな言い方をする。 僕がWeb2.0的なサービスを作るとすれば、以下の条件を満たすことを優先する。 1. RUI(Rich User Interface) シンプルかつリッチなユーザーインターフェイス(UI) 2. Share サービサーとユーザー、あるいはユーザー同士がデータを共有することができる。 ソーシャルブックマークやタギングは重要な要素だ。そして、ユーザーがデータを共有してくれる以上、ユーザーが増えれば増えるほど内包するデータが増え、全体利益が増していく。 3. Feed Fee

    Web2.0に関する考察ノート:後編 - Speed Feed
  • CGI.pm の POSTDATA - naoyaのはてなダイアリー

    CGI.pmtext/xmlなPOSTデータを読みたい場合、 my $q = CGI->new; $q->param('POSTDATA')で読める。いままで知りませんでした。 CGI.pm で $q->param('POSTDATA') とすると、POST で送られて来たデータの body をそのまま取り出せる、という話。 どういうときにこの API が役に立つかというと、かぜぶろさんのタイトルにある通り XML な API をサーバー側に実装したいとき。 もともと CGI.pm は通常のウェブリクエストを処理するために考えられているので、POST のデータを標準入力から読み込み、それを parse して $q->param('foobar') と GET のときと同じ API でアクセスできるようにしてます。が、AtomPP や XML-RPC なんかの場合、その POST のデータ

    CGI.pm の POSTDATA - naoyaのはてなダイアリー
  • TUXのベンチマーク記事 - naoyaのはてなダイアリー

    カーネル・モードで高速に動作するオープンソースのWebサーバー「TUX」の性能を,現在主流の「Apache」と比較した。静的コンテンツに大量のアクセスが集まる用途で,TUX 3.2はApache 2.0の1.57倍の性能を出した。OSが扱えるTCPコネクション数を増やす調整を施せば,標準設定時より性能が33%改善する。 TUX のベンチマーク記事。参考になります、グッジョブ。 カーネルモードで動作するウェブサーバー TUX、ということで久しぶりにこの名前を聞きました。3, 4 年前に Linux Magazine のムックか何かで特集されていたのを思い出します。その後あまり話を聞かなかったので TUX プロジェクトは頓挫したのかなと思いきや、それは僕の勘違いで、ちゃんとプロジェクトは動いていて成果が出ているということなのかも。 この記事ではベンチマークの比較対象として Apache が選ば

    TUXのベンチマーク記事 - naoyaのはてなダイアリー