タグ

2007年8月16日のブックマーク (12件)

  • CentOSにMeCab+Senna+MySQLを入れる

    語で全文検索をするために MySQL に Senna を組み込むメモ。少し前は個人ニュースサイトめぐり→日記書きに数時間を要していた私が次に目をつけたのがRSSめぐり→はてブ登録なのだがそれでも依然として数時間かかる。そんなあなた (私) に朗報です。私の代わりにブックマークしてくれるエージェントを作ればいいのです。そしてそのエージェントが今日よく使われていた単語やタグとか出してくれて、1次ソースAについてBさんとCさんとDさんがそれぞれの立場でこんなことを書いているとかいうのが俯瞰できて、さらにあとから検索とかができればいいのです。いまホッテントリを見なくてもいいのです。あとで検索できればいいのです。Googleが拾ってくる量は莫大過ぎるし個人で把握できる範囲にも限度がある。ユーザの皆さんが勝手に重み付けしてくれるならそれを使ったらいい。先週の週刊東洋経済を読んで悟った。いやなんか変

    Kiske
    Kiske 2007/08/16
    インストールするときの参考に
  • XREAでPHPからChasenを使う (2007-03-17)

    MeCabは利用できないみたい。SSH経由でいろいろ見てみたけれどもMeCabはインスコされていないぽい。なのでChasenを使う。Chasenは連続する数字を一塊にしてくれないのが残念。あと半角英単語もそうなるので、半角文字については適宜全角に置き換えるようにする。 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html401/loose.dtd"> <title>Chasenテスト</title> <table> <?php $path = '/usr/local/php/bin/chasen'; $str = "浜松駅の耐震工事のために長いこと利用できなかったekimachi eastの工事が、予定通り3月15日までに終了した。これでマクドナルドやミスドにまた行

    Kiske
    Kiske 2007/08/16
  • PHPでメールアドレスかどうか調べる方法 (2007-05-31)

    Otsuneのtwitter経由でphpspotがオススメするメールアドレスの正規表現。8:2ルールを採用したような簡便な正規表現にはてブのコメント欄が賑わっている。 「メールアドレス 正規表現」で検索すると最初に出てくるリソースに、思いっきり メールアドレスに一致する正規表現は「ありません」 なんてあって、その下に条件付きの鬼のような正規表現が紹介されている。メールアドレスの闇は深い。ヘタに触れると火傷する。 一応正確なアドレスを弾かずに、「なるべく」おかしなアドレスを弾く正規表現として $d3 = '\\d{1,3}'; $ip = join('\\.', ($d3) x 4); $ascii = '[\\x01-\\x7F]'; $domain = '([-a-z0-9]+\\.)*[a-z]+'; $mailre = "^$ascii+\\@($domain|\\\\[$ip\\\

    Kiske
    Kiske 2007/08/16
  • MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

    文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

    Kiske
    Kiske 2007/08/16
  • 「ハッスル」が地上波に復帰、テレビ東京で10月からレギュラー放送。

    世界最大のプロレス団体WWEのエッセンスを巧みに取り入れながら、エンターテインメント性を全面に押し出した「ファイティング・オペラ」なるコンセプトを掲げ、日のプロレスに新風を吹き込んでいる「ハッスル」。その独特なスタイルは旧来のプロレスファンから常に賛否両論を呼びながらも、派手な仕掛けやお笑い芸人の参戦など、「非プロレスファン」にとっては分かりやすい訴求ポイントによって着実にファンを増やしているなりよ。「非プロレスファン」だったコ○助も一度生で「ハッスル」を観戦して以来、スポーツ紙の「ハッスル」欄は欠かさずに読むようになったほど。そうそう、今度はケロロ軍曹が参戦するなりよね……。 この「ハッスル」、スポーツ紙では大きく誌面を割いて報道されているのに、地上波のテレビではほとんど話題を見かけることがない……そう感じている人もいると思うなり。以前は地域によっては深夜番組「ハッスル×ハッスル」が放

    Kiske
    Kiske 2007/08/16
    これは嬉しい!PRIDEも復活して欲しい。
  •  10分でわかる『銀英伝』。 - Something Orange

    先日、平和さん(id:kim-peace)が、こんなことを書いていた。 実は・・・銀英伝が判りません 小説を読んだことも、アニメを見たこともありません。ヤン提督の名前と顔はかろうじて一致します。 スターウォーズのデススターみたいな要塞がでるんでしたっけ? 某所と某所がDVD-BOXの話題で盛り上がっていたのですが、全然付いていけません・・・ 読めよ。 いや、ひとの価値観はそれぞれなので、どのを読むのも読まないのもそのひとの勝手ではある。でも、ライトノベル読みなのにこの作品を読み逃がしているなんて、それは人生の損失でしょ。 およそ、日のキャラクタ小説で、この作品を超えるものは存在しないと思う*1。単純に商業的側面だけを見ても、正編全10巻だけで1000万部を超えるセールスを記録している。日出版史上屈指のベストセラーなのである。 もちろん、世の中には何がおもしろいのかわからないベストセラ

     10分でわかる『銀英伝』。 - Something Orange
    Kiske
    Kiske 2007/08/16
    本は苦手って人はアニメでもいいかも。正編だけで110話あるけどw
  • 【2ch】ニュース速報アワーズ:教室で盛大にゲロ吐いた その①

    1 :以下、名無しにかわりましてVIPがお送りします。:2007/08/14(火) 16:35:01.27 ID:EvwU9/xM0 6月下旬、俺は3時間目の途中から気分が悪かった。 元々体は病弱なほうで昔からよく貧血になってたりして、 この日も嘔吐感が抑えられなくなって古文のじゅぎょうの最中 机の上に朝べたフレンチトーストを含んだ吐しゃ物をはきだした。 隣の女子が「うわっ」 っていう声をあげてた。 教師が「大丈夫か?」って言いながらこちらに向かって来た。 教室がざわざわし始めて なんでか俺は「どうしよう」って何回も思ってた。 隣の女子をチラッと見るとかなり距離を取って避難してた。 なぜか冷静に「まあ そうするよな」 とか考えていた。 すると俺の背中をさすってくれる奴がいた。 顔も見ずにうつむいていたが俺には誰だかすぐにわかった。 19 :以下、名無しにかわりましてVIPがお送りします。

    Kiske
    Kiske 2007/08/16
    あとで読む
  • ウノウラボ Unoh Labs: グラフィック作りのコツとカン

    こんにちは。yamazakiです。 前回はレイアウトなどについて非常にざっくりとですが書いてみたわけですが、いかがでしたでしょうか。 そろそろ「グラフィック」のほうも少し書いてみようかという気になってきたので、グラフィック品質を高めるベーシックな技術についても少しずつ書いていってみようと思います。 基のき 具体的な話に入る前に、まずは基的な話から。 とりあえず、ざっとあなたの周囲を見回してみてください。壁にしても、PCにしても、「単なる一色のベタ塗り」にはなっていないのではないかと思います。光の加減などで、「影」や「グラデーション」がついていると思います。また、ものの表面には「つるつる」「ざらざら」といった「質感」があるのが当たり前、という中で私たちは生活しています。 そのため、人の目はそういう「グラデーション」や「影」、「質感」がある状況を「見慣れて」います。 グラフィック上

  • ITmedia エンタープライズ:IT Minute:好むと好まざるとにかかわらず職場環境をWeb2.0化すべき時代

    Enterprise 2.0 Conferenceの基調講演では、WikiやマッシュアップなどのWebベーステクノロジーを業務環境に持ち込まざるを得ない時代がやがて到来するはずであり、ITマネジャーは今から準備をしておく必要があるということであった。 ボストンで先日開催されたEnterprise 2.0 Conferenceの基調講演で語られていたのは、現在普及が進みつつあるWikiやマッシュアップなどのWebベーステクノロジーを業務環境に持ち込まざるを得ない時代がやがて到来するはずであり、ITマネジャーは今から準備をしておく必要があるということであった。つまり新世代の従業員にとってはこうしたツールを自宅で使うことが当たり前になっているので、勤務時間内であってもこれらのサービスにアクセスできて当然と主張してくるようになる、というのである。 SAP のジェネラルマネジャーを務めるデニス・モー

    ITmedia エンタープライズ:IT Minute:好むと好まざるとにかかわらず職場環境をWeb2.0化すべき時代
    Kiske
    Kiske 2007/08/16
    大企業になればなるほど機密漏洩を恐れて、しまいにはWeb利用禁止とかアホな対応するところもある。その分仕事のスピードが遅くなるのにね。
  • ウノウラボ Unoh Labs: Webアプリケーションの国際化

    komagataです。 先日、社内の勉強会でWebアプリケーションの国際化について話したので資料を公開します。 資料内で出てくるソースは下記でダウンロードできます。 hello_gettext.tar.bz2 rails_gettext.tar.bz2 関連: ブラウザ上で翻訳ファイルが編集できるソフト「Pootle」

  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

    Kiske
    Kiske 2007/08/16
    気になるなぁ。結構良さげ。
  • Photoshop担当者も唖然??「もう高い更新料は払わない!」無料でここまで出来るフリーの画像編集ソフト:Blog紹介しちゃいます。 - livedoor Blog(ブログ)

    あまり知識が無いと言うか、面倒と言うか、画像編集にはWindows標準の「ペイント」を使っている訳なんですが、いつもお世話になっている「ホームページを作る人のネタ帳さん」の記事を見て、ペイントを使っている事に<良い意味で>ショックを受けました。<笑> ・今度こそフリーの画像編集ソフト『GIMP』をマスターしようという人の為のまとめ*ホームページを作る人のネタ帳: 無料でもPhotoshop並の機能がある画像編集ソフトがあるもんなんですね〜。 面倒な操作が多いので敬遠していましたけど・・面白い写真をも作れますし、ブログの事を考えると必要な時期なのかもしれません。 他にも色々な画像編集ツールを発見しましたんで「Photoshop並に高性能」をテーマに、紹介したいと思います。画像編集ソフトは高い!なんて、愚痴っている人には必見かもしれませんよ。 と言う訳で、詳しくはこんな感じで、、、、、、、、