タグ

ブックマーク / chalow.net (48)

  • 「サーバ/インフラを支える技術」をゲット!

    「サーバ/インフラを支える技術」をゲット! 2008-08-04-1 [Book] 献いただきました。 いつも、ありがとうございます。 著者陣が豪華なインフラです。 ■安井真伸, 横川和哉, ひろせまさあき, 伊藤直也, 田中慎司, 勝見 祐己 / [24時間365日] サーバ/インフラを支える技術〜スケーラビリティ、ハイパフォーマンス、省力運用 私はサーバーまわりの運用や負荷分散や最適化などの知識はあまりない、というか、ほとんどまったく経験がないので知識(ほぼ)ゼロなのですが、これを教科書に最低限の知識はきっちり身につけたいと思います。 2割くらいが WEB+DB PRESS の記事で、他は書き下ろしみたい。

    「サーバ/インフラを支える技術」をゲット!
  • Algorithm::Diff で類似文字列検索

    Algorithm::Diff で類似文字列検索 2008-04-22-3 [Algorithm][Programming] Perl のモジュール Algorithm::Diff[2004-12-12-2]を使って、線形時間で類似文字列検索するサンプルプログラム。 まあ、 agrep があればそれでいいんですけどね。 サンプルコード(ads.pl): #!/usr/bin/perl use strict; use warnings; use Algorithm::Diff; use utf8; use Encode; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; my $key = shift; my @seq1 = split(//, decode('utf-8', $key)); while (<

    Algorithm::Diff で類似文字列検索
  • Googleを支える技術

    Googleを支える技術 2008-03-25-1 [BookReview] 献頂きました。ありがとうございます。 そうでなくとも絶対買うですが。 ■西田圭介 / Googleを支える技術 - 巨大システムの内側の世界 結論から言いますと、 Google のバックエンドの技術について 興味のあるITエンジニアや学生で、 英語よりも日語を読むほうがはやい人は必読です。 グーグルについての技術的なトピックが 日語でさくっと読めます。 Google 社員による英語論文やドキュメントを情報源とし、 それらを咀嚼して平易に解説しています。 「情報系の大学3年生程度の予備知識」を前提に 書かれているとのことで、 情報系の基礎的な語彙が分かっていれば、 確かに難解な話はありません。 数式も出てこないです。 内容紹介 第一章は検索の話で、クロール、インデックス、 ランキング、と Google

    Googleを支える技術
  • スパムはスルーしてブログの話題を取り出すブログレーダー

    スパムはスルーしてブログの話題を取り出すブログレーダー 2008-02-21-1 [WebTool][Blog] 日のブログで注目されている話題を一目で見ることができるサイト 「ブログレーダー」が登場しました。 - ブログレーダー(Blog Radar) http://blogradar.jp/ - ブロガー注目の話題を自動でピックアップする「ブログレーダー」 http://japan.internet.com/busnews/20080221/4.html 多くのブログからリンクされている話題を自動的に抽出していますので、 ブログで話題になっている記事や、多くの議論を呼んでいる記事が自然と ピックアップされるようになっています。[...] なお、独自のロジックにより、影響力の強いブログのリンクを 重視するようになっているため、スパムブログや自動生成ブログからの 影響が受けにくい仕組みと

    スパムはスルーしてブログの話題を取り出すブログレーダー
  • [を] 2007年にひとりで作ったネットサービス

    2007年にひとりで作ったネットサービス 2008-01-27-2 [2007] 2007年にひとりで作ったネットサービスを振り返ってみます。 全部で 21 サービスを公開していました。 まずは、何月にいくつ作ったかの表です。 月個グラフ11★21★31★44★★★★51★76★★★★★★85★★★★★91★100 110 121★ 平均すると月1,2個のペースですが、 年の中盤である夏にリリースが集中していました。 いわゆるマッシュアップサマーですね(なんのこっちゃ)。 以下、公開したサービスの一覧です。 【No.1】アマゾンリストマニア検索サイト「リストマニャ」 [2007-01-21-1] 概要:Yahoo!経由でアマゾンの「リストマニア」を キーワード検索できるサイトです。 Yasazon (ヤサゾン)の姉妹サイトとして作りました。 特に賞は頂けませんでしたが、 アマゾンの「第3回

    [を] 2007年にひとりで作ったネットサービス
  • 日本語形態素解析入門

    形態素解析入門 2005-03-30-2 [NLP] 山下達雄 / 日形態素解析入門 Version 0.9.1 / 1999 <http://ta2o.net/doc/tech/jma/jma19990514.pdf> (1.4M) 奈良先端科学技術大学院大学(NAIST)自然言語処理学講座(松研)に D2の学生として所属していた1998年6月9日のミーティングで、 新入生(M1) 向けに「日形態素解析」の入門講座を行った。 その際に用いた資料を1999年5月14日に改定したものをPDF化して公開する。 文書自体は Version 0.9.1 で、 その後さらに加筆修整するつもりだったのだが、 結局そのままだったようだ。ChaSen についての記述など内容は古いし、 当然のことながらあちこちに重大な間違いがあるかもしれない。 しょっぱなから大きな間違いがあって、 トップペ

    日本語形態素解析入門
  • Yahoo!デベロッパーネットワークにテキスト解析APIが登場!

    Yahoo!デベロッパーネットワークにテキスト解析APIが登場! 2007-06-18-1 [WebTool][NLP][MECAPI][Programming] Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。 第一弾は日形態素解析APIです。 ヤフーのいろんなところに使われている WebMA という 形態素解析エンジンのAPIです。 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html MECAPI の仕様に似ていますが、まあそういうものです。 (MECAPI https://maapi.net/) で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の WebMA 版を作ってみました。「文で検索2」

    Yahoo!デベロッパーネットワークにテキスト解析APIが登場!
    ono_matope
    ono_matope 2008/01/21
    MeCabより固有名詞に強い。
  • Wikipediaのアブストを返すAPIを作ってみた

    Wikipediaのアブストを返すAPIを作ってみた 2007-07-01-4 [Programming] Wikipediaのキーワードリンクを使った「なんちゃって関連語データ」 作成[2007-06-09-3]に引き続き、 今度は、Wikipedia のアブストラクトを返すWeb APIを作ってみた。 こういうのは既出だけど気にしない。 Wikipedia のアブストデータはダウンロードページから取得。 (see Wikipedia:データベースダウンロード) 「jawiki-latest-abstract.xml」というやつ。 なぜか圧縮されてないのでDLがちょっと遅い。 で、「その場しのぎプログラミング」[2003-12-09-3]でXMLをTSVに変換。 検索インデックスは SUFARY を使用。 - WikipeHacks: Abstract API http://wikipe

    Wikipediaのアブストを返すAPIを作ってみた
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • ウェブサイエンス入門-インターネットの構造を解き明かす

    ウェブサイエンス入門-インターネットの構造を解き明かす 2007-09-02-2 [Book][Algorithm] こんなを買いました。 ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす 可視化、構造分析、SEOスパム分析、トピック抽出などの Webまわりの楽しげな話題がたくさん。ウェブマイニングとか テキストマイニングとかが大好きな私としては素通りできません。 一度一気にざっと目を通して、その後部分部分つまみ読みしたりしてたん だけど、具体的なアルゴリズムや数式(そんなに難しくないやつ)も のっていて、実用的かも。

    ウェブサイエンス入門-インターネットの構造を解き明かす
    ono_matope
    ono_matope 2008/01/21
    実用的とのこと。
  • Web関連語抽出を試作

    Web関連語抽出を試作 2007-09-04-3 [WebTool][NLP] Web関連語抽出 http://yapi.ta2o.net/kanrenp/ Yahoo!ウェブ検索APIで検索結果100件を取ってきて、形態素解析をかけて、 複合名詞的なものだけ抽出し、出現頻度をカウントして表示します。 ちょっと前に作ったやつで、まだ試作段階なんだけど、 とりあえず動くので公開しておきます。 例: - 銀行 http://yapi.ta2o.net/kanrenp/s/%E9%8A%80%E8%A1%8C.html - skype http://yapi.ta2o.net/kanrenp/s/skype.html - カメラ http://yapi.ta2o.net/kanrenp/s/%E3%82%AB%E3%83%A1%E3%83%A9.html 出てくる関連語はいろいろ使いまわしができ

    Web関連語抽出を試作
  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
    ono_matope
    ono_matope 2008/01/21
    『関連語を探すときに、χ二乗値を関連度として使う。』
  • [を] 数式を使わないデータマイニング入門

    数式を使わないデータマイニング入門 2007-09-24-3 [BookReview] ■岡嶋裕史 / 数式を使わないデータマイニング入門 - 隠れた法則を発見する 「データマイニングってなに?なに?なに?」と思ったら、最初に読むべき。聞かれたら読ませたい。 特にIT企業の企画系の人とか読んでおくと、理想と現実が分かって良いかも。 データマイニングは、何でもできるオールマイティな技術ではないけど、条件がそろえば威力を発揮できる可能性が大。 何ができるものなのかという点をしっかり押さえておきたいですね。 題名の通り、数式は一切なし。 説明用の図が豊富。 ぱくってセミナーでそのまま使いたくなってしまう分かりやすさです。 データマイニング関連書籍: ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす (ref. [2007-09-02-2]) ■那須川哲哉 / テキストマ

    [を] 数式を使わないデータマイニング入門
  • Perlで入門テキストマイニング.pdf

    Perlで入門テキストマイニング たつを 2007.10.1 Shibuya Perl Mongers テキストマイニング(1) • 評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○? • クラスタリング。グルーピング。 テキストマイニング(2) • その目的 – 意外な関係を探し出す! – 当たり前の関係を大量に自動で! • 後者で 関連語を自動生成 • ヤフー – グーグル楽天、六木、ライブドア、… • 文教堂 – 書店、川崎、有隣堂、株主優待、… • PerlRuby, PHP, dankogai, miyagawa, … 関連語の「関連」って? • 同じドキュメントにいっしょに現れる単語は 関連してそうだよね。 – � 共起 (co-occurrence) • 例えば、「渋

    ono_matope
    ono_matope 2008/01/21
    シンプソン係数による共起語判定
  • ベイジアンネットワーク技術

    ベイジアンネットワーク技術 2007-10-09-2 [BookReview] ■村陽一, 岩崎弘利 / ベイジアンネットワーク技術 - ユーザ・顧客のモデル化と不確実性推論 ベイジアンネットワークとは何かを事例で説明する入門書、ですね。 協調フィルタリングとかパーソナライゼーションとかの事例がたくさん 載っているので「こういうことに使うのかあ」とイメージがわきます。 始めのほうにちょっとだけアルゴリズムの解説があるのですが、 実装してみようと思うと情報不足です。 (まあそれが目的のではないですからね)

    ベイジアンネットワーク技術
  • キーワード検索がわかる

    キーワード検索がわかる 2007-10-23-3 [BookReview] ■藤田節子 / キーワード検索がわかる 書は、キーワードの質や、種類と特徴、情報検索のしくみを、 わかりやすい言葉で解説したものです。 (p.9) 検索のリテラシーって大切だよね、ということで、 キーワード検索について丁寧に解説している。 すごく良い入門書です。 私としては、 「検索について説明する資料」を作るときにバリバリと参考にする予定。 まさに「参考資料」。ありがたいです。 以下、あとで思い出すための内容メモ。 §第1章 キーワードとは 「情報をキーワードで探す」=「索引の中の索引語を探す」 固有概念と一般的概念 国会図書館蔵書検索(http://opac.ndl.go.jp/)の著者名検索で 「寺田寅彦」→ペンネームも分かる。著者名典拠リスト。 §第2章 情報検索とは ローゼンフェルドによる情報検索の

    キーワード検索がわかる
    ono_matope
    ono_matope 2008/01/21
    良い本なのか
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
    ono_matope
    ono_matope 2008/01/21
    適合率=検索結果の中での適切な結果の率、再現率=Web全体の適切な結果のうち、検索結果に出てきたものの率
  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • ヤフーの検索窓から使えるウェブ検索オプションまとめ

    ヤフーの検索窓から使えるウェブ検索オプションまとめ 2007-12-15-3 [WebTool][Tips] Yahoo! JAPAN で検索(http://search.yahoo.co.jp/)するときに検索窓から使えるWeb検索用のオプションをまとめてみました。 ■コマンド等 「" "」 フレーズとして検索。 (例: "最高の子孫" vs. 最高の子孫) 表記のゆれ[5]を無視する。 (例: アイディアマン → "アイディアマン") 「site:」 指定したドメイン内のページのみを検索。サブドメインも含まれる。 (例: site:yahoo.co.jp / site:uk) 「hostname:」 指定したドメイン内のページのみを検索。サブドメインは含まれない。 (例: hostname:yahoo.co.jp) 「link:」 指定したURLのページへリンクしているページを検索。

    ヤフーの検索窓から使えるウェブ検索オプションまとめ
    ono_matope
    ono_matope 2008/01/20
    おーlinkdomain知らなかった