タグ

ブックマーク / chalow.net (14)

  • 【書評・感想】「それ、根拠あるの?」と言わせない データ・統計分析ができる本

    書評・感想】「それ、根拠あるの?」と言わせない データ・統計分析ができる 2013-09-19-1 [BookReview][献][Mac] 献いただきました。ありがとうございます。著者は私の高校時代の同級生で優秀な切れ者であります。そして編集者も同じ高校で同学年。そんな書ですが、贔屓フィルターをはずしても、かなりの良著です。目的に合う人には、救いの書になるはず。 ■柏木吉基 / 「それ、根拠あるの?」と言わせない データ・統計分析ができる ◎データと統計で、誰もが納得する「根拠」がつくれる! 「プランに数字的な裏づけをつけたい」もしくは、「それ、根拠あるの?」、「計画通り行くの?」と突っ込まれて何も言えなくなってしまう……。 そんなとき、データ・統計分析が使えます。 書は、はじめてデータ分析をする新人が、データ集めから始め、分析をして、プレゼン資料を作成するまでを、ストーリ

    【書評・感想】「それ、根拠あるの?」と言わせない データ・統計分析ができる本
  • 「Introduction to Information Retrieval」の日本語訳が出るそうです

    「Introduction to Information Retrieval」の日語訳が出るそうです 2012-06-04-2 [IIR][Algorithm][Book] 2008-2009年に輪講した「Introduction to Information Retrieval」(IIR)の日語訳が「情報検索の基礎」というタイトルで共立出版から出るそうです。2012/6/23に発売予定。 ■Christopher D.Manning, Prabhakar Raghavan, Hinrich Schutze (著), 岩野和生, 黒川利明, 濱田誠司, 村上明子 (翻訳) / 情報検索の基礎 書は,従来の古典的な情報検索から,最近のウエブの情報検索までの基礎をわかりやすく扱った,網羅的で最先端の入門書である。 最初に,文書の前処理,インデックス化,逆インデックス,重み付け,スコア付け

    「Introduction to Information Retrieval」の日本語訳が出るそうです
  • ウェブサイエンス入門-インターネットの構造を解き明かす

    ウェブサイエンス入門-インターネットの構造を解き明かす 2007-09-02-2 [Book][Algorithm] こんなを買いました。 ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす 可視化、構造分析、SEOスパム分析、トピック抽出などの Webまわりの楽しげな話題がたくさん。ウェブマイニングとか テキストマイニングとかが大好きな私としては素通りできません。 一度一気にざっと目を通して、その後部分部分つまみ読みしたりしてたん だけど、具体的なアルゴリズムや数式(そんなに難しくないやつ)も のっていて、実用的かも。

    ウェブサイエンス入門-インターネットの構造を解き明かす
  • シンプルすぎるコンテンツマネジメントシステム「ebicoma」を公開しました

    シンプルすぎるコンテンツマネジメントシステム「ebicoma」を公開しました 2008-04-05-6 [Programming] シンプルすぎるCMS、「ebicoma」を公開しました。 コメント欄もトラックバックもいらないから簡単に扱えるCMSが欲しい、 ということでいろいろ調べていたのですが、 結局自作することで落ち着きました。 ドキュメントなどをまとめたので、ブログ合宿の成果として公開します。 よろしくお願いします。 どういうものなのかは、こちらの README をご覧ください。 http://coderepos.org/share/browser/lang/perl/misc/ebicoma/README こちらにソース一式の tarball を置いておきますのでよかったら お試しください。 http://chalow.net/misc/ebicoma-1.0.tar.gz また

    シンプルすぎるコンテンツマネジメントシステム「ebicoma」を公開しました
    kitanow
    kitanow 2008/04/07
  • Yahoo!日本語形態素解析APIをコマンドラインから使うサンプルプログラム

    Yahoo!形態素解析APIをコマンドラインから使うサンプルプログラム 2008-04-05-5 [Programming][NLP] とある経緯で、Yahoo!形態素解析API[2007-06-18-1]を使った Perl のサンプルプログラムを作りました。 車輪の再発明的ですが(だれか作ってた気がする)気にしない! - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html 以下コードです: #!/usr/bin/perl use strict; use warnings; use Encode; use URI::Escape; use LWP::Simple; use XML::Simple; use Getopt::Long; use

    Yahoo!日本語形態素解析APIをコマンドラインから使うサンプルプログラム
  • Googleを支える技術

    Googleを支える技術 2008-03-25-1 [BookReview] 献頂きました。ありがとうございます。 そうでなくとも絶対買うですが。 ■西田圭介 / Googleを支える技術 - 巨大システムの内側の世界 結論から言いますと、 Google のバックエンドの技術について 興味のあるITエンジニアや学生で、 英語よりも日語を読むほうがはやい人は必読です。 グーグルについての技術的なトピックが 日語でさくっと読めます。 Google 社員による英語論文やドキュメントを情報源とし、 それらを咀嚼して平易に解説しています。 「情報系の大学3年生程度の予備知識」を前提に 書かれているとのことで、 情報系の基礎的な語彙が分かっていれば、 確かに難解な話はありません。 数式も出てこないです。 内容紹介 第一章は検索の話で、クロール、インデックス、 ランキング、と Google

    Googleを支える技術
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
    kitanow
    kitanow 2008/01/20
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • Wikiばな/Vol.6「失敗Wiki/さびれWiki」

    Wikiばな/Vol.6「失敗Wiki/さびれWiki」 2007-11-23-1 [Wiki][EventReport] 第6回Wikiばな「失敗Wiki/さびれWiki」に参加してきました。 (ちなみに第5回は二年前[2005-10-15-1]) - WikiBana/VOL.6 http://wikibana.socoda.net/wiki.cgi?WikiBana%2fVOL%2e6 各自が事前に用意したポジションペーパーをベースに グループディスカッションする形式。グループ議論は2回。 で、最後に全体でディスカッション。 いろいろな知見が得られたんだけど、そのうちいくつかメモ: - Wiki 上の古いデータは更新する必要がないし、更新されると 新しい情報と思われて混乱するので、完全ロックするとか、 静的ファイルに移動するとかしないと。 - 昔は、ブログ=フロー、Wiki=ストック

    Wikiばな/Vol.6「失敗Wiki/さびれWiki」
    kitanow
    kitanow 2007/11/24
  • ブロガーのためのデジカメ撮影講座

    ブロガーのためのデジカメ撮影講座 2007-11-23-2 [Photo][EventReport] 「ブロガーのためのデジカメ撮影講座」参加しました。 18時から銀座ソニービルのセミナールームにて。 - 無料「ブロガーのためのデジカメ撮影講座」(11/23)受講者募集! (ブロガーのためのデジカメスキルアップ講座) http://photo.monoportal.com/2007/11/event.php - 「ブロガーのためのデジカメ撮影講座」無事終了! http://wada.cocolog-nifty.com/blog/2007/11/post_2b0a.html - 明後日「ブロガーのためのデジカメ撮影講座」開催! http://wada.cocolog-nifty.com/blog/2007/11/post_46f7.html 参加者は20名くらい。 まず、プロの写真家である瀬

    ブロガーのためのデジカメ撮影講座
  • [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」

    Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いていて、今回で5回目になります。 今回はリーズ大学の多言語コーパス検索サイトの話。 こういう活動は頭が下がります。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第五回 「リーズ大学の多言語コーパス検索サイト」 この連載の第二回[2007-09-03-1]で紹介した拙作「

    [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」
  • Web関連語抽出を試作

    Web関連語抽出を試作 2007-09-04-3 [WebTool][NLP] Web関連語抽出 http://yapi.ta2o.net/kanrenp/ Yahoo!ウェブ検索APIで検索結果100件を取ってきて、形態素解析をかけて、 複合名詞的なものだけ抽出し、出現頻度をカウントして表示します。 ちょっと前に作ったやつで、まだ試作段階なんだけど、 とりあえず動くので公開しておきます。 例: - 銀行 http://yapi.ta2o.net/kanrenp/s/%E9%8A%80%E8%A1%8C.html - skype http://yapi.ta2o.net/kanrenp/s/skype.html - カメラ http://yapi.ta2o.net/kanrenp/s/%E3%82%AB%E3%83%A1%E3%83%A9.html 出てくる関連語はいろいろ使いまわしができ

    Web関連語抽出を試作
  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • 1