タグ

ブックマーク / private.ceek.jp (11)

  • Tritonn による検索はスコア値でソートされない - Ceekz Logs (Move to y.ceek.jp)

    最近は、徹夜しながら MySQL + Senna の Tritonn を試している。先日まで、Tritonn を利用した全文検索では、取り出した結果がスコア値でソート(適合度順)されるものだと思っていた。 すなわち、 SELECT * FROM table WHERE MATCH(col) AGAINST('*D+ 検索' IN BOOLEAN MODE); というクエリを発行した場合、結果は TF-IDF に基づく順序だと思っていた。 これは、単なる思い込みで、正しくない。 SELECT *, MATCH(col) AGAINST('*D+ 検索' IN BOOLEAN MODE) FROM table WHERE MATCH(col) AGAINST('*D+ 検索' IN BOOLEAN MODE); こうすればスコア値を表示できるので、スコア順でソートされていないことを確認できた。

  • メールに「件名」が必要になったのは何故だろう? - Ceekz Logs (Move to y.ceek.jp)

    久しぶりに FPN を見ていたら、面白いエントリを見つけた。 「件名なし」のメールを「常識」とする若者たち 携帯電話のメールは、口語コミュニケーション(会話)の延長上だと思われるので、携帯メールの「件名」が空であることは、驚きません。そういう層を対象とするサービス事業者であれば、しかるべき対応は行っているのかな、と。 エントリの内容よりもコメントの一部に注目した。 そもそも郵送の手紙や葉書だって「タイトル」は付けませんからね。 これこれ。 メールは、手紙の延長だと思うのだけど、よく考えたら、手紙には「件名」という文化が存在しない。件名という文化が存在するのは、告知文書や広報文書あたりか。メールに Subject を設けた裏には、いったい何があるのだろう。海外では、葉書や手紙に「件名」をつけるのだろうか。 メールが継承した文化は、手紙ではなく告知文書だとすれば、「告知」が「コミュニケーション

  • IE で UTF-8 の含まれる XML が表示されなかったら - Ceekz Logs (Move to y.ceek.jp)

    Simple FON Maps の XML を生成するときに、なぜか IE でエラーが出る場合がありました(日語以外のマルチバイト文字が含まれる場合)。 テキストの内容に無効な文字が見つかりました。 IE で XML を表示しようとすると、このようなエラーが出ました。律儀なことに JavaScript 経由でもデータを読み込んでくれません。他のブラウザ Firefox, Opera では、何のエラーも出ずに読み込めたのですが…。 サポートページを調べてみると、出力データに言語仕様によって定義された有効な XML 文字範囲を超えた内容が含まれるようです。すなわち、制御文字などが混ざっているようです。 utf8::decode($str); utf8::encode($str); このように UTF-8 フラグを ON にしてから OFF にすれば解決しました。不要なバイナリを除去してるのだ

  • 検索サーバを国内に設置するために法改正 - Ceekz Logs (Move to y.ceek.jp)

    2006年12月9日付の毎日新聞に興味深い記事がありました。僕は、法律に関するアンテナを立てていますが、基的に素人なので、その辺を踏まえてお読みください。 インターネットの検索サービスに使うサーバーコンピューターを国内に設置できるようにするため、著作権法を改正する方針を固めた。 検索サービスに関係なくネット上での著作物の使用が緩和されるなどして、一定のルールの下、情報の流通がさらに促されることは良いことだと思います。 2年前の未踏ソフトウェア創造事業でも同様のことを提案しましたが、知的財産面の解決が困難であるからという理由も挙げて、不採択となりました(この要因が大きいかどうかは知らない)。 現行法では、著作物の権利者に無断で検索用サーバーに著作物を保存したり、編集することは違法となる。このため、国内向けの検索サービス事業者もサーバー自体は海外に設置している。 1文目では、いわゆるキャッシ

  • XAMPP - Ceekz Logs (Move to y.ceek.jp)

    僕は、ウェブアプリケーションの開発をサーバサイドで行うことが多いのですが、ローカルでも開発を行える環境をそろえてみることにしました。特にネットがつながらない場所にて、ノート PC で開発を行いたいので。 過去に XAMPP が良いという話を聞いていたので、入れてみました。そのインストールの流れを記録しておきます。 ActivePerl を入れていましたが、アンインストールしました。XAMPP の方で Perl の環境をインストールする予定だからです。というか、インストールしました。重複する環境は、予めアンインストールしておく方が良いです(Apache, MySQL, PHP, Perl etc...)。 公式サイトから XAMPP のパッケージをダウンロードしましょう。僕のダウンロードしたバージョンは 1.5.3a でした。また、標準では Perl がインストールされない(?)ので Add

  • 大規模データ処理を可能にするGoogleの技術 - Ceekz Logs (Move to y.ceek.jp)

    今日は、総合研究棟で Googleエンジニアによる講演会があったので、聞きに行ってきました。結果を先に言うと、すでにプレスから流れている情報などを超えるものはありませんでした。リクルーティングが主かもしれません。 最近、かなりの頻度で Google の講演会が、さまざまな大学で開かれていますが、きっとリクルーティングです。2007年度新卒者の採用説明会の予約締め切りが2月19日ですもん。 参加者は、50名くらい。情報学類の3年生が多かったです。教員の方も1割くらい居ました。 興味を引いた部分をいくつか。 新ビジネスモデル: 東京電力で3年間契約すればもれなくサーバを1台プレゼント :) ハードウェアのコストは非常に下がってきている(性能が上がってきている)が、電力コストが変わらないため、近い将来、電力コストがハードウェアコストを超えてしまうと言う話。電源を入れっぱなしなサーバをプレゼン

  • Google 米本社の方の話を聞けるよ - Ceekz Logs (Move to y.ceek.jp)

    第4回つくばコンピュータサイエンス産学オープンカレッジが開催されます。 第4回は,Googleを代表するAPIのキーパーソンをエンジニアリングチームから招聘し,主要API (Maps, Desktop, Gadget)の紹介を行うとともに,新しい世代のアプリケーション開発を,デモやソースコードサンプルを交えながらわかりやすく解説します. Google の関わる講演会は、オフィシャルではアナウンスされないんですよね…。リクルーティング色が強いからでしょうか?純粋に、対象外の方にあまり参加して欲しくないという意図なのだろうか。 日時: 2006年12月14日(木) 14:30-18:15 (14:00 受付開始) 場所: 筑波大学 総合研究B棟 1階公開講義室 料金: 無料 定員: 80名 (先着) 今回は、事前の申し込みが必要なようです。オープンカレッジは申し込みが必要なのかな。これまで

  • Web Diff - Ceekz Logs (Move to y.ceek.jp)

    テキストの差分を簡単に取りたいので、ウェブから使える Web Diff なんてのを作ってみました。 HTML::Template の差分もなかなか上手く取れて大満足です。 Algorithm::Diff というモジュールを使ったので、僕がコーディングした部分は、主に表示部分ばかりです。ということで、性能品質に関しては Algorithm::Diff に依存するので、なんともできません。 あと、長い文章を「スペース」で区切ると、計算量が膨大になり結果が出ずにタイムアウトします… 空気を読んでお使いください。行区切りにすると大丈夫だと思う。 区切り方法の選択を無くして、とりあえず行区切りにして、そこで違いがあった場合、スペース区切りや MeCab を利用して、詳細な違いを計算するようにすればよさそう。 そのうち時間があればやる。 とりあえず、お試し版の公開ということで。 【関連情報】 ・Web

  • スパマーを追いかけろ - スパムメールビジネスの裏側 - Ceekz Logs

    目当ての書籍が無くって、代わりに購入した書籍だけど、面白かったです。 この書籍の面白いところは、文章上は「アンチ・スパマー = 善」「スパマー = 悪」として書かれているのだけど、読者にはそう感じさせない雰囲気があるところ。善のはずのアンチ・スパマーに賛同しにくいのです。 逆に言うと、スパマーには、読者をひかせる何かを感じました。多分、スパマーからは新たなチャレンジ精神を感じるのだけど、アンチ・スパマーからは保守的な臭いしか感じないのかもしれない。もちろん、スパム行為が陶しいことには変わりはない。 善悪を曖昧にしている分、読者の考える幅が広がります。 物語風なので、読みやすいです。1人のスパマーと、1人のアンチ・スパマーのお話という感じ。そこに、その双方が関連する人物の話が枝分かれします。 外国人が多く出てくる書籍はどれもそうなのだけど、誰が誰だかわからなくなることもしばしば…。また、脚

  • PostgreSQL を使ってみた - Ceekz Logs (Move to y.ceek.jp)

    諸事情で PostgreSQL を使いました。いつも使っている MySQL からの移植メモということで。 REPLACE tbl_name ( col_1, col_2 ) VALUES ( ?, ? ) REPLACE は PostgreSQL で使用できない。面倒がらずに INSERT と UPDATE を使い分ける。 INSERT tbl_name SET col_1 = ?, col_2 = ? INSERT で SET を使うことは PostgreSQL では出来ない。これは UPDATE と合わせた形式で便利だったのだけど、素直に VALUES を使う。 ・UNSIGNED が使えない ・AUTO_INCREMENT の代わりに SERIAL を使う というあたりも。 今回は意識しなかったけど、内部的な値の問題で、ブール型 BOOLEAN は使わずに INT か CHAR を使

  • Web2.0 時代の情報収集の新しい手法 〜Kikker 開発者 神林氏にお聞きする〜 - Ceekz Logs (Move to y.ceek.jp)

    タイトルは、P2P today ダブルスラッシュにインスパイヤされました。当にありがとうございます。 ということで、後輩の神林くんが Kikker という面白いサービスを立ち上げているので、インタビューしてみました。流行のポッドキャスティングには未対応です…。録音しておいて、それを字におこすのがかったるいので、メッセンジャーでインタビューを行いました。 「Kikkerの開発者に聞く100の質問」とかいうバトンじみたものではないので、ご安心を。 それでは、始まり始まり。 - まずは、Kikker の概要を教えてください。 Kikker は、ユーザーの趣向情報を分析してそれに従った情報を集めてこようというシステムです。『Web2.0 時代の情報収集の新しい手法』と謳っています。 - 具体的には、どのような機能があるのでしょうか? ユーザの好きそうなはてブックマークのエントリや CEEK.JP

  • 1