タグ

ブックマーク / private.ceek.jp (62)

  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

  • 会議の技法―チームワークがひらく発想の新次元 - Ceekz Logs (Move to y.ceek.jp)

    面白そうだったので BOOKOFF に流れる前に買い取った一冊。 私たちの忙しさの一因は会議の多さにある。多いばかりか、費やす時間も増えている。「会議社会」に生きる現代人にとって、会議の意味と役割は重くなる一方である。しかし、効率的・効果的な会議のもち方を知らないために、膨大な経済的・社会的ムダが生じているのが現状だろう。書は、企業の戦略会議から地域交流まで、あらゆる場面で役に立つ斬新なアイディアをちりばめながら、チームパワーを最大限に引き出す会議の方法を伝授する。 Amazon.co.jp に書かれた紹介文より。 『技法』を謳うだけあり、会議全体を良くするための手法を解いている。しかし、少しの手間で少し改善するというライフハック的な要素は少ない。その為、対象読者を選ぶだろう。学生が読んで、何かに役立てるというのは難しいと思う。 僕は、会議には1つだけルールを持って参加するようにしている

    yuiseki
    yuiseki 2009/01/21
  • 情報検索とエージェント - Ceekz Logs (Move to y.ceek.jp)

    5年ほど前に購入した書籍。何度か読んでいましたが、やっと全部読み通した。 インターネット時代に生じる様々な課題とそれらに対する知識処理の適用についての解説書。現在における質的な課題、人工知能をはじめとする知的処理の取り組み、今後のインターネットの方向性についてわかりやすく解説する。 Amazon.co.jp に書かれた紹介文より。 2002年に出版された書籍と言うこともあり、内容が古い。ウェブサービスに関する話は殆ど無く、既存の研究を WWW に適用する試みが解説されており、大の研究題材を知るのには良いかも。 擁護に関しては、比較的丁寧に解説されているので、論文(日英問わず)をサーベイする前に目を通しておくと、効率良く調べられそう。 なお,XMLはWeb上の構造化文書フォーマット以外に,構造データの表現に利用できる半構造データ(semi-structured data)でもあるというこ

    yuiseki
    yuiseki 2008/11/25
    HASH(0x2abf7ec735d0)
  • 編集距離(レーベンシュタイン距離)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文字列間の類似度を求める方法の一つとして、編集距離が挙げられます。編集距離は、考案者にちなみレーベンシュタイン距離とも呼ばれますが、具体的には、挿入や削除、置換によって、一方の文字列から他方の文字列に変換するために必要な作業の最小回数です。 use List::Util; sub levenshtein_distance { my ($list_1, $list_2) = @_; my $len_1 = scalar(@{$list_1}); my $len_2 = scalar(@{$list_2}); my @d; foreach my $i (0 .. $len_1) { $d[$i][0] = $i; } foreach my $j (0 .. $len_2) { $d[0][$j] = $j; } foreach my $i (1 .. $len_1) { foreach my

    yuiseki
    yuiseki 2008/11/09
  • 何故あの会社はメディアで紹介されるのか?―PR最強集団のTOPが教える55の法則 - Ceekz Logs (Move to y.ceek.jp)

    IDEA*IDEA で紹介されているのを見て、購入。プレゼント企画に応募すれば良かった…。 同業界で同じ位の売上げ規模の会社であっても、メディアに頻繁に紹介される会社とそうでない会社がある。その差はどこからきているのか? 新進PR会社のTOPが、メディアにのるコツを教える。 書では、PR最前線を55の法則に集約し、ケーススタディを紹介しながら、PRに初めて取り組む人にもわかりやすく解説。 Amazon.co.jp に書かれた紹介文より。 宣伝は、テレビや新聞に広告を出すような活動が中心(情報を自社でコントロールできる)であり、広報はメディア(第三者)に対し自社の活動内容を知らしめる活動が中心(情報を自社でコントロールできない)であるというイメージがある。そして、それらを合わせた概念が PR(Public Relations) であると思う。いかがだろうか? 現在、宣伝と広報の違いはほぼ無

    yuiseki
    yuiseki 2008/11/04
  • 夜カフェ(IDEA*IDEA)の店舗を Google マイマップ にプロットしてみた - Ceekz Logs (Move to y.ceek.jp)

    了承を得られたので公開してみる。 大きな地図で見る 百式の田口氏が、IDEA*IDEA にて夜に利用できるカフェの連載をしていらっしゃるのですが、その紹介店舗を Google マイマップにプロットしてみました。マイマップを試してみたかったのと事マップのイメージを掴みたいな…と。 Google マイマップは便利だなぁ。写真も入れた方が見栄えが良さそう。 【関連情報】 ・夜カフェ(IDEA*IDEA) - Google マップ http://maps.google.co.jp/maps/ms?ie=UTF8&hl=ja&msa=0&msid=104319079039464232954.00045a32f75a21d12b630&z=13 ・夜カフェ アーカイブ | IDEA*IDEA http://www.ideaxidea.com/archives/cat29/

    yuiseki
    yuiseki 2008/11/01
  • 補聴器を借りてきた - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2008/10/24
  • 「え?なんて?」と聞きなおすのは貴方の話が聞きたいからです - Ceekz Logs (Move to y.ceek.jp)

    現在では、ろう者(全く聴力のない方)に対する理解は広がりつつあります。しかし、それ以外の聴覚障害者(中軽度難聴)に対する理解は、まだまだ広がっていないようです。僕自身、中度難聴相当の聴覚障害者です。 聴覚障害者が理解されにくいのは「音は聴こえている」からだと思っています。 「音」と「声」は似ていますが、全く別物です。「音」を認識できても「声」を認識できるとは限りません。声は、様々な周波数で成り立っていますが、聴覚障害は、各周波数が一律に聴こえにくくなるわけではないからです。僕の場合であれば、聴力は周波数によって 30dB - 90dB という開きがあります。 この事は、大きな声であっても、認識できない場合がることを示します。声が欠けて聴こえているわけで、たとえ大きな声でも判らないものは判らないのです。 聴覚障害者は、「音」「声」「唇」の断片を拾いながら、自身の知識に基づき、頭の中で会話を再

    yuiseki
    yuiseki 2008/10/24
  • 大学附属病院に通院開始 - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2008/10/24
  • utf8_general_ci と utf8_unicode_ci の違い - Ceekz Logs (Move to y.ceek.jp)

    以前までは、データベース MySQL を利用したアプリケーションを作るときは、文字コードとして EUC-JP を利用していました。最近は、国際化との兼ね合いなどから UTF-8 を利用するようにしています。 MySQLUTF-8 を扱う場合、照会順序として utf8_bin を使用していました(何も考えずに)。 utf8_bin の場合、部分一致探索 LIKE などの使用時に英字の大文字小文字が区別されてしまう。大文字小文字を区別されないようにするためには、照会順序として utf8_general_ci を使用すればよいのですが、他にも utf8_unicode_ci があることに気がつきました。 utf8_general_ci と utf8_unicode_ci では、どこが違うのだろう? utf8_general_ci also is satisfactory for both

    yuiseki
    yuiseki 2008/09/20
    探索等において、文字列照合の正確性と速度のトレードオフのようですね。正確性を重視するのであれば utf8_unicode_ci を使用して、速度を重視するのであれば utf8_general_ci を使用すればいいみたい。
  • くたばれ学校 ある教師の24年間の叫び - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2008/08/04
  • Googleを支える技術 〜巨大システムの内側の世界 - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2008/06/30
  • 学術機関リポジトリ横断検索構想 - Ceekz Logs (Move to y.ceek.jp)

    Development の話題かもしれませんが、構想は Toshokan に書くということで。 学術機関リポジトリの横断検索を開発します。横断検索を実装した暁には、フィード(RSS)出力機能を付けたいと思います。 宣言した通り開発に着手しました(現実逃避とも言います)。リポジトリシステムに DSpace を採用している機関(64機関)を収集し、約28万件のデータ(タイトルと URL のみ)が集まっています。また、冒頭のスクリーンショットの通り、タイトルで検索できる仕組みを作成してみました。 今後はメタデータの収集を行いますが、予備調査では、各機関のメタデータがまちまちなので統合が難しそうな予感。まずは、使われている要素名の統計を取るところからですね。その後、統合ルールを決めたいと思います。 現在調査中ですが、メタデータ交換プロトコル OAI-PMH を利用すればクロールが楽になりそう(Li

    yuiseki
    yuiseki 2008/04/03
  • アイデアマラソン特別講義 最終日 - Ceekz Logs (Move to y.ceek.jp)

    23日は、情報学特別講義 IW がありました。グループ課題がありましたが、誰も事前に来なかった模様。 日の講義で印象に残った話。 ・を書く場合は 120% の力で 編集者が 85% くらいにしてくれる。残りの 15% を書き足すわけだけど、どうせそれをあわせると 120% くらいになる。を繰り返すと、数冊が出来上がる。 ・修士論文は書籍に 修士論文を書くモチベーションの1つとして書籍にするという方法がある。そういえば、特許出願書類にそのまま使えるような論文を書いたほうが良いという話も聞いた気がする(知的財産と技術移転 あたりの講義で)。 演習の内容。 ・大喜利発想雨あられ 3 前回の宿題からネタを集めたものですね。 ・これから2冊の書籍を書くなら これから書く2冊の書籍のタイトルと時期、内容を考えるというもの。 答えた内容。 ・U字型のほうき 最後にチリを集めるときにV字に動かすので

    yuiseki
    yuiseki 2008/03/04
  • La Fonera が Amazon.co.jp で購入できます - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2008/02/12
  • 噂の FON_livedoor を利用してみました - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2008/02/08
  • ワイヤレスゲートに乗り換えてみたが… - Ceekz Logs (Move to y.ceek.jp)

    今まで「Yahoo! 無線 LAN スポット(BB モバイルポイント)」を利用していたが、今年から「ワイヤレスゲート ヨドバシ・オリジナルプラン」に乗り換えた。既報の通り、月額利用料金が下がり、利用可能 AP が増えるお得な乗り換え(Yahoo! オークション を利用していない場合は特に)。 1月1日に契約を済ませ、4日に関西空港で利用を試みたとき(BB モバイルポイント)は、認証が通らなかったが(パスワード等の間違いの可能性もある)、6日に最寄のマクドナルドで認証が通過したため、正常に契約できていると思われる。 ただ、ワイヤレスゲートの都度利用プラン(月額210円 + 299円/回)かヨドバシ・オリジナルプラン(月額380円)のどちらで契約できているのかわからない…。会員ページの情報に不備があると思う。 実は、会員ログインページのアドレスは2種類4ページあり、種類によって表示内容が異なる

    yuiseki
    yuiseki 2008/01/12
  • 公衆無線 LAN サービスが月額380円で利用できる - Ceekz Logs (Move to y.ceek.jp)

    現在の商用公衆無線 LAN サービスといえば、月額504円で利用できる「Yahoo! 無線 LAN スポット(BB モバイルポイント)」や月額525円で利用できる「livedoor Wireless」があるが、今回、月額380円で両方が利用可能となるサービスが発表された。 月額利用料は380円で、プロバイダー契約不要。自宅で使っているときと同じように外出先でもインターネットやメールが使えます。 トリプレットゲートとヨドバシカメラの提携により、ワイヤレスゲートに「ヨドバシ・オリジナルプラン」が設けられた。ワイヤレスゲートの通常価格は、月額2000円程度であるため、値引率がすごい。 ワイヤレスゲートは、BBモバイルポイント・livedoor Wireless・成田空港エアポートネットなど 複数のサービスをひとつのIDで横断的に利用できる公衆無線LANサービスです。 Yahoo! 無線 LAN

    yuiseki
    yuiseki 2007/12/24
  • FOMA オープンiエリア による位置情報取得 - Ceekz Logs (Move to y.ceek.jp)

    FOMA オープンiエリア で位置情報を取得できるようになった。日付けの、オープンiエリア仕様変更に基づく。 基地局情報を元に測位した緯度経度情報を受け取りたい時に使用します(省略も可能です。省略時には従来通り、エリアコードのみの提供となります)。 取得用 URL に posinfo というパラーメータが新たに設けられた。このパラメータを 1 に設定することにより、位置情報も同時に返す。引用文だけでは、三点測位の結果を返すように思えるが(誤差範囲も返す)、すぐ下に「基地局緯度経度」と書かれているため、最寄の基地局緯度経度を返している可能性が高い。 位置情報が三点測位の結果に基づくものか基地局の情報に基づくものか、調査中。任意の範囲で何度も位置情報を取得し、頻度の高いポイントがあるかどうか、そのポイントに何があるかを調べたいと思いますが、すぐには難しい…。わかる人が居れば、教えて欲しい。

    yuiseki
    yuiseki 2007/12/18
  • 配属希望研究室候補の一覧 - Ceekz Logs (Move to y.ceek.jp)

    yuiseki
    yuiseki 2007/12/18