ono_matopeのブックマーク - はてなブックマーク

「サーバ/インフラを支える技術」をゲット！

「サーバ/インフラを支える技術」をゲット！ 2008-08-04-1 [Book] 献本いただきました。いつも、ありがとうございます。著者陣が豪華なインフラ本です。 ■安井真伸, 横川和哉, ひろせまさあき, 伊藤直也, 田中慎司, 勝見祐己 / [24時間365日] サーバ/インフラを支える技術〜スケーラビリティ、ハイパフォーマンス、省力運用私はサーバーまわりの運用や負荷分散や最適化などの知識はあまりない、というか、ほとんどまったく経験がないので知識（ほぼ）ゼロなのですが、これを教科書に最低限の知識はきっちり身につけたいと思います。 2割くらいが WEB+DB PRESS の記事で、他は書き下ろしみたい。

ono_matope 2008/08/06

book

リンク

Algorithm::Diff で類似文字列検索

Algorithm::Diff で類似文字列検索 2008-04-22-3 [Algorithm][Programming] Perl のモジュール Algorithm::Diff[2004-12-12-2]を使って、線形時間で類似文字列検索するサンプルプログラム。まあ、 agrep があればそれでいいんですけどね。サンプルコード(ads.pl)： #!/usr/bin/perl use strict; use warnings; use Algorithm::Diff; use utf8; use Encode; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; my $key = shift; my @seq1 = split(//, decode('utf-8', $key)); while (<

ono_matope 2008/04/24

自然言語処理

リンク

Googleを支える技術

Googleを支える技術 2008-03-25-1 [BookReview] 献本頂きました。ありがとうございます。そうでなくとも絶対買う本ですが。 ■西田圭介 / Googleを支える技術 - 巨大システムの内側の世界結論から言いますと、 Google のバックエンドの技術について興味のあるIT系エンジニアや学生で、英語よりも日本語を読むほうがはやい人は必読です。グーグルについての技術的なトピックが日本語でさくっと読めます。 Google 社員による英語論文やドキュメントを情報源とし、それらを咀嚼して平易に解説しています。「情報系の大学3年生程度の予備知識」を前提に書かれているとのことで、情報系の基礎的な語彙が分かっていれば、確かに難解な話はありません。数式も出てこないです。内容紹介第一章は検索の話で、クロール、インデックス、ランキング、と Google に

ono_matope 2008/03/26

リンク

スパムはスルーしてブログの話題を取り出すブログレーダー

スパムはスルーしてブログの話題を取り出すブログレーダー 2008-02-21-1 [WebTool][Blog] 日本のブログで注目されている話題を一目で見ることができるサイト「ブログレーダー」が登場しました。 - ブログレーダー（Blog Radar） http://blogradar.jp/ - ブロガー注目の話題を自動でピックアップする「ブログレーダー」 http://japan.internet.com/busnews/20080221/4.html 多くのブログからリンクされている話題を自動的に抽出していますので、ブログで話題になっている記事や、多くの議論を呼んでいる記事が自然とピックアップされるようになっています。[...] なお、独自のロジックにより、影響力の強いブログのリンクを重視するようになっているため、スパムブログや自動生成ブログからの影響が受けにくい仕組みと

ono_matope 2008/02/22

リンク

[を] 2007年にひとりで作ったネットサービス

2007年にひとりで作ったネットサービス 2008-01-27-2 [2007] 2007年にひとりで作ったネットサービスを振り返ってみます。全部で 21 サービスを公開していました。まずは、何月にいくつ作ったかの表です。月個グラフ11★21★31★44★★★★51★76★★★★★★85★★★★★91★100　110　121★ 平均すると月1,2個のペースですが、年の中盤である夏にリリースが集中していました。いわゆるマッシュアップサマーですね（なんのこっちゃ）。以下、公開したサービスの一覧です。【No.1】アマゾンリストマニア検索サイト「リストマニャ」 [2007-01-21-1] 概要：Yahoo!経由でアマゾンの「リストマニア」をキーワード検索できるサイトです。 Yasazon （ヤサゾン）の姉妹サイトとして作りました。特に賞は頂けませんでしたが、アマゾンの「第3回

ono_matope 2008/01/28

脱帽…

リンク

日本語形態素解析入門

日本語形態素解析入門 2005-03-30-2 [NLP] 山下達雄 / 日本語形態素解析入門 Version 0.9.1 / 1999 <http://ta2o.net/doc/tech/jma/jma19990514.pdf> (1.4M) 奈良先端科学技術大学院大学（NAIST）自然言語処理学講座（松本研）に D2の学生として所属していた1998年6月9日のミーティングで、新入生(M1) 向けに「日本語形態素解析」の入門講座を行った。その際に用いた資料を1999年5月14日に改定したものをPDF化して公開する。文書自体は Version 0.9.1 で、その後さらに加筆修整するつもりだったのだが、結局そのままだったようだ。ChaSen についての記述など内容は古いし、当然のことながらあちこちに重大な間違いがあるかもしれない。しょっぱなから大きな間違いがあって、トップペ

ono_matope 2008/01/21

リンク

Yahoo!デベロッパーネットワークにテキスト解析APIが登場！

Yahoo!デベロッパーネットワークにテキスト解析APIが登場！ 2007-06-18-1 [WebTool][NLP][MECAPI][Programming] Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。第一弾は日本語形態素解析 APIです。ヤフーのいろんなところに使われている WebMA という形態素解析エンジンのAPIです。 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html MECAPI の仕様に似ていますが、まあそういうものです。 (MECAPI https://maapi.net/) で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の WebMA 版を作ってみました。「文で検索2」

ono_matope 2008/01/21

MeCabより固有名詞に強い。

リンク

Wikipediaのアブストを返すAPIを作ってみた

Wikipediaのアブストを返すAPIを作ってみた 2007-07-01-4 [Programming] Wikipediaのキーワードリンクを使った「なんちゃって関連語データ」作成[2007-06-09-3]に引き続き、今度は、Wikipedia のアブストラクトを返すWeb APIを作ってみた。こういうのは既出だけど気にしない。 Wikipedia のアブストデータはダウンロードページから取得。 (see Wikipedia:データベースダウンロード) 「jawiki-latest-abstract.xml」というやつ。なぜか圧縮されてないのでDLがちょっと遅い。で、「その場しのぎプログラミング」[2003-12-09-3]でXMLをTSVに変換。検索インデックスは SUFARY を使用。 - WikipeHacks: Abstract API http://wikipe

ono_matope 2008/01/21

リンク

Wikipediaのキーワードリンクを使って関連語データを作ってみた

Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ（関連キーワード集）を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。日本のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。（スクリプトはこの記事の末尾に載せておく） (1) 各キーワードページに含まれているキーワード（リンク）を取り出す。例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。またキーワードAが他のキーワードのページ（例えばX）に含まれていたら、それも蓄積。その場合

ono_matope 2008/01/21

リンク

ウェブサイエンス入門-インターネットの構造を解き明かす

ウェブサイエンス入門-インターネットの構造を解き明かす 2007-09-02-2 [Book][Algorithm] こんな本を買いました。 ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす可視化、構造分析、SEOスパム分析、トピック抽出などの Webまわりの楽しげな話題がたくさん。ウェブマイニングとかテキストマイニングとかが大好きな私としては素通りできません。一度一気にざっと目を通して、その後部分部分つまみ読みしたりしてたんだけど、具体的なアルゴリズムや数式（そんなに難しくないやつ）ものっていて、実用的かも。

ono_matope 2008/01/21

実用的とのこと。

リンク

Web関連語抽出を試作

Web関連語抽出を試作 2007-09-04-3 [WebTool][NLP] Web関連語抽出 http://yapi.ta2o.net/kanrenp/ Yahoo!ウェブ検索APIで検索結果100件を取ってきて、形態素解析をかけて、複合名詞的なものだけ抽出し、出現頻度をカウントして表示します。ちょっと前に作ったやつで、まだ試作段階なんだけど、とりあえず動くので公開しておきます。例： - 銀行 http://yapi.ta2o.net/kanrenp/s/%E9%8A%80%E8%A1%8C.html - skype http://yapi.ta2o.net/kanrenp/s/skype.html - カメラ http://yapi.ta2o.net/kanrenp/s/%E3%82%AB%E3%83%A1%E3%83%A9.html 出てくる関連語はいろいろ使いまわしができ

ono_matope 2008/01/21

すげー

自然言語処理

リンク

カイ二乗値で単語間の関連の強さを調べる

カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

ono_matope 2008/01/21

『関連語を探すときに、χ二乗値を関連度として使う。』

リンク

[を] 数式を使わないデータマイニング入門

数式を使わないデータマイニング入門 2007-09-24-3 [BookReview] ■岡嶋裕史 / 数式を使わないデータマイニング入門 - 隠れた法則を発見する「データマイニングってなに？なに？なに？」と思ったら、最初に読むべき本。聞かれたら読ませたい本。特にIT企業の企画系の人とか読んでおくと、理想と現実が分かって良いかも。データマイニングは、何でもできるオールマイティな技術ではないけど、条件がそろえば威力を発揮できる可能性が大。何ができるものなのかという点をしっかり押さえておきたいですね。題名の通り、数式は一切なし。説明用の図が豊富。ぱくってセミナーでそのまま使いたくなってしまう分かりやすさです。データマイニング関連書籍： ■斉藤和巳 / ウェブサイエンス入門-インターネットの構造を解き明かす (ref. [2007-09-02-2]) ■那須川哲哉 / テキストマ

ono_matope 2008/01/21

リンク

Perlで入門テキストマイニング.pdf

Ｐｅｒｌで入門テキストマイニングたつを 2007.10.1 Shibuya Perl Mongers テキストマイニング（１） • 評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○？ • クラスタリング。グルーピング。テキストマイニング（２） • その目的 – 意外な関係を探し出す！ – 当たり前の関係を大量に自動で！ • 後者で関連語を自動生成 • ヤフー – グーグル、楽天、六本木、ライブドア、… • 文教堂 – 書店、川崎、有隣堂、株主優待、… • Perl – Ruby, PHP, dankogai, miyagawa, … 関連語の「関連」って？ • 同じドキュメントにいっしょに現れる単語は関連してそうだよね。 – � 共起 (co-occurrence) • 例えば、「渋

ono_matope 2008/01/21

シンプソン係数による共起語判定

自然言語処理

リンク

ベイジアンネットワーク技術

ベイジアンネットワーク技術 2007-10-09-2 [BookReview] ■本村陽一, 岩崎弘利 / ベイジアンネットワーク技術 - ユーザ・顧客のモデル化と不確実性推論ベイジアンネットワークとは何かを事例で説明する入門書、ですね。協調フィルタリングとかパーソナライゼーションとかの事例がたくさん載っているので「こういうことに使うのかあ」とイメージがわきます。始めのほうにちょっとだけアルゴリズムの解説があるのですが、実装してみようと思うと情報不足です。（まあそれが目的の本ではないですからね）

ono_matope 2008/01/21

リンク

キーワード検索がわかる

キーワード検索がわかる 2007-10-23-3 [BookReview] ■藤田節子 / キーワード検索がわかる本書は、キーワードの本質や、種類と特徴、情報検索のしくみを、わかりやすい言葉で解説したものです。 (p.9) 検索のリテラシーって大切だよね、ということで、キーワード検索について丁寧に解説している本。すごく良い入門書です。私としては、「検索について説明する資料」を作るときにバリバリと参考にする予定。まさに「参考資料」。ありがたいです。以下、あとで思い出すための内容メモ。 §第１章　キーワードとは「情報をキーワードで探す」＝「索引の中の索引語を探す」固有概念と一般的概念国会図書館蔵書検索(http://opac.ndl.go.jp/)の著者名検索で「寺田寅彦」→ペンネームも分かる。著者名典拠リスト。 §第２章　情報検索とはローゼンフェルドによる情報検索の

ono_matope 2008/01/21

良い本なのか

リンク

検索における適合率 (Precision) と再現率 (Recall)

検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります（第八章でも出てきます）。若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、全検索結果に対しての、検索要求 (information need) を満たす検索結果の割合です。例えば、「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす（重さが分かる）のが85件だとすると、 Precis

ono_matope 2008/01/21

適合率＝検索結果の中での適切な結果の率、再現率＝Web全体の適切な結果のうち、検索結果に出てきたものの率

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

ono_matope 2008/01/21

リンク

[を] 転置インデックスによる検索システムを作ってみよう！

転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ

ono_matope 2008/01/20

リンク

ヤフーの検索窓から使えるウェブ検索オプションまとめ

ヤフーの検索窓から使えるウェブ検索オプションまとめ 2007-12-15-3 [WebTool][Tips] Yahoo! JAPAN で検索(http://search.yahoo.co.jp/)するときに検索窓から使えるWeb検索用のオプションをまとめてみました。 ■コマンド等「" "」フレーズとして検索。 (例： "最高の子孫" vs. 最高の子孫) 表記のゆれ[5]を無視する。 (例：アイディアマン → "アイディアマン") 「site:」指定したドメイン内のページのみを検索。サブドメインも含まれる。 (例： site:yahoo.co.jp / site:uk) 「hostname:」指定したドメイン内のページのみを検索。サブドメインは含まれない。 (例： hostname:yahoo.co.jp) 「link:」指定したURLのページへリンクしているページを検索。

ono_matope 2008/01/20

おーlinkdomain知らなかった

リンク

はてなブックマーク

タグ

ブックマーク / chalow.net (48)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス