rin1024のブックマーク / 2009年6月4日

LinkChecker – Get this Extension for 🦊 Firefox (ja)

このアドオンの不正を報告このアドオンが Mozilla のアドオンポリシーに違反している、あるいはセキュリティやプライバシー上の問題があると思われる場合は、このフォームを使って Mozilla へ問題を報告してください。このフォームを使ってアドオンのバグを報告したり機能を要望したりしないでください。この報告はアドオン開発者ではなく Mozilla へ送信されます。

rin1024 2009/06/04

リンク

人工知能に関して追究したい三つのテーマ - 人工知能に関する断創録

この日記の最初のエントリが2002年2月21日なので、人工知能の勉強を開始してから大体7年経ったことになる。当初は、はてなダイアリーではなく、研究室のサーバを借りて運用していたのを思い出す。今まで人工知能に関係のあるいろんな分野を勉強・調査・研究してきたわけだが、私が人工知能の分野で本当に面白い！追究したい！と思ったテーマは三つある。このブログの多くの人工知能に関するエントリもその三つに分類できると思う。その三つのテーマとは、連想に基づいたデータ記憶方式選好を創発するアルゴリズムしろと言われていないことをさせる方法である。実際、テーマっていうには抽象的すぎるんだけど（笑）こんな抽象的なテーマじゃ卒論は書けないって怒られちゃいますね。まあ、目指したい方向性っていうぐらいかな。 (1) 連想に基づいたデータ記憶方式連想記憶は想像と創造の源である。この2つは今のコンピュータで実現できな

rin1024 2009/06/04

nlp

リンク

2009-03-25

もう、色々なところで語られてしまいましたが、情報処理学会第190回自然言語処理研究会、通称NL研に参加したので、記事を書きます。僕は、紺色のジャケットを来て受付やってました。NL研の受付をやるのは、熱海に続き、二回目になります。日当8000円。熱海では会場と受付が離れていたので発表がほとんど見られなかったのですが、今回は、会場と受付が同じ部屋だったので見ることができました。会場は、東大工学部6号館3階でした。 NL研は、聴講だけなら無料で可能です。有料・無料は予稿集の有無で決まります。予稿集は、大抵、1件6ページです。学生であれば、情報処理学会の会員でなくても、現地で500円払えば予稿集が購入できます。学生でない方は、情報処理学会の会員の場合1500円、そうでなければ2500円かかります。学生500円というのは、かなり安いと思います。今回のNL研でも、途中で読みたい論文が出てきたので、50

rin1024 2009/06/04

nlp

リンク

Não Aqui! » 10行強で書けるロジスティック回帰モデル学習

ロジスティック回帰（logistic regression）の学習が，確率的勾配降下法（SGD: stochastic gradient descent）を使って，非常に簡単に書けることを示すPythonコード．コメントや空行を除けば十数行です．リストの内包表記，条件演算子（Cで言う三項演算子），自動的に初期化してくれる辞書型（collections.defaultdict）は，Python以外ではあまり見ないかも知れません．リストの内包表記は，Haskell, OCaml, C#にもあるようなので，結構メジャーかも知れません． [W[x] for x in X] と書くと，「Xに含まれるすべてのxに対し，それぞれW[x]を計算した結果をリストにしたもの」という意味になります．sum関数はリストの値の和を返すので，変数aにはXとWの内積が計算されます． Pythonでは，三項演算子を条

rin1024 2009/06/04

実行できなかたー。なんでだろ。

nlp
python

リンク

最先端の実験は必然的に大規模化する - 武蔵野日記

大規模テキストデータ(もう昨今 GB 単位はそんな大規模ではなく、TB 単位以上)を対象とした研究をしている自分が言うのもなんだが、そもそも自然言語処理の研究ってそんなに大規模化する必要はないし、データ量を増やしたからといってそんなに劇的に精度が変わったりするわけではない(むしろ扱いに独特なコツが必要なので、うかつに手は出さないほうがいい)、と思っているのだが、なんでみんな大規模化したがるのかなぁ、と不思議だった疑問に得心がいった。もちろん増やしたデータ量に対し log スケールで改善する、というような微弱な改善効果はあるのだが、そんなことよりはアルゴリズムを変えたり、用いるデータの質を上げたり、もしくは使う素性を工夫したり、はたまた全部同じだけどパラメータだけチューニングしたりするほうが大幅に精度に影響したりするのは世の常である。で、今晩見た爆問学問で、先週の情熱大陸と同じくノーベル

rin1024 2009/06/04

,研究とは何ぞや。

nlp

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

rin1024 2009/06/04

ベイズの勉強をするならここから。

nlp
bayes

リンク

新R25 - シゴトも人生も、もっと楽しもう。

新R25は、仕事や人生を楽しむビジネスパーソンのための「ビジネスバラエティメディア」です。編集部によるインタビューコンテンツを通じて、R25世代のみなさんの"小さな一歩"を応援します。

rin1024 2009/06/04

nlp

リンク

JavaScriptの基礎からはじめよう - JavaScript講座

変数は以下のように値を代入したり出力することができます。 # 変数に文字列を代入 $value = "テストです"; # 変数を出力 print $value; 【参照ページ】変数配列複数の値を1つの変数で管理したい場合は、『配列』という変数が最適です。配列を初期化する場合は､要素をカッコで囲み､各要素毎にカンマで区切ります｡ @week = ('日曜', '月曜', '火曜', '水曜', '木曜', '金曜', '土曜'); 配列はインデックスを使って参照します。インデックスは 0から始まるので注意してください。たとえば1番目のデータ "日曜" を呼び出すときは、$week[0]、"月曜"なら $week[1] とします。 # 配列 @week の1番目の要素を表示 print $week[0], "\n"; > 日曜 # 配列 @week の2番目の要素を表示 print $

rin1024 2009/06/04

perl
nlp

リンク

未解読のインダス文字を、人工知能で解析 | WIRED VISION

前の記事　スレの状況がわかるツール：「多様な意見」を視覚化パソコンの瞬間オン・オフも可能に：強誘電体トランジスターに新技術　次の記事未解読のインダス文字を、人工知能で解析 2009年4月24日 Brandon Keim J.M. Kenoyer/Harappa.com 多くの考古学者の挑戦を退けてきた古代文字が、人工知能にその秘密の一部を見破られた。 4000年前のインダス文明で使われていた記号をコンピューターで分析したところ、これらの記号が話し言葉を表している可能性があることがわかったのだ。「含まれている文法構造は、多くの言語で見られるものと共通しているようだ」と、ワシントン大学のコンピューター科学者、Rajesh Rao博士は語っている。インダス文字は、紀元前2600年から紀元前1900年に今のパキスタン東部からインド北部にかけて使われていた文字で、エジプト文明やメソポタミア文

rin1024 2009/06/04

凄い

nlp

リンク

ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記

SIGIR 2009 の採択論文が発表されていたようだ。SIGIR というのは情報検索に関する世界で一番権威ある国際会議で、情報系の国際会議ランキングでもトップ10にランクインしている。その採択数が一番多いのは Microsoft、二番目が Yahoo! 次いで Google (でも3本だけ)という結果に。なぜ採択数(率)が問題になるかというと、情報系の国際会議というのは最新の研究成果を発表する場であり、投稿された論文に2人以上の査読者がついて各項目について点数をつけ、一定点数以上のものだけを採択するので、国際会議のランクに応じてそれなりのクオリティの論文が書けないとそもそも通らないし、1人で書ける論文の量にも限界があるので大量に通せる研究機関は研究者の層も厚いことが分かるからである。上記リンク先でも書いてあるが再度引用すると、 38% of the papers have at le

rin1024 2009/06/04

nlp

リンク

英語の単語を原形に戻す WordNet-based lemmatizer - mtbrの日記

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy 使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基品詞ごとの接尾辞ルール（上記ソースにべたがきされている） #! /usr/bin/env ruby # -*- coding: utf-8; mode: ruby -*- # port from nltk.corpus.reader.wordnet.morphy # http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.read

rin1024 2009/06/04

昔からある技術だったんだ?ステミングの一種かな。

nlp
python

リンク

上位下位関係抽出ツール: Hypornymy extraction tool

上位下位関係抽出ツールとは上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係の候補となる表現ペアを抽出します．以下の3種類を情報源としています． hierarchy :箇条書きなどの階層構造から上位下位関係の候補を抽出 definition ：最初の文（定義文）から上位下位関係の候補を抽出（「～とは，…．」などを利用） category ：category tagにある単語から上位下位関係の候補を抽出目次新着情報注意事項ダウンロード動作環境実行オプション引数ディレクトリ構成実行コマンド入力例 Copyright 新着情報 2009-04 上位下位関係抽出ツールv0.80　リリース注意事項 Wikipediaのデータを利用するため，処理及び処理結果の利用に際しては，Wikipediaの著作権を熟読の上

rin1024 2009/06/04

wikiのデータを元に上下関係を構築，最近はこういったのを辞書でも売ってるとか．

nlp

リンク

動詞項構造シソーラス

人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の辞書を構築してfreeで配布しています(現在4425語(7473語義))．動詞の概念は名詞と異なり，係り関係のある名詞との形が重要になってきます．例えば彼が(Agent)秘密を(Theme)握る → 秘密を(Theme)得る彼が(Agent)おにぎりを(Theme)握る → おにぎりを(Theme)作るのように表層の格(ガ，ヲ..)と深層格(Agent, Theme,..)との組み合わせで動詞の持つ意味が異なり，他の動詞との関係が変わってきます(言語学の語彙意味論では深層格と動詞の関係を項構造と呼びます)．このような関係を全ての名詞と動詞の組で記述するのは不可能ですが，それを推測するのに必要な構築可能な動詞辞書の構築を行っています．具体的な方針としては語義を仮定して，語義ごと

rin1024 2009/06/04

動詞の活用形を示したシソーラス

リンク

テキストからの評判分析と機械学習

テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン

rin1024 2009/06/04

肯定的な発言と否定的な発言を切り分ける

nlp

リンク

ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 - 武蔵野日記

5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告の発表原稿 PDF。小町守, 牧本慎平 (Yahoo!), 内海慶 (Yahoo!), 颯々野学 (Yahoo!). ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得. 情報処理学会第191回自然言語処理研究会. Vol.2009-NL-191, No.9, May 2009. 情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない

rin1024 2009/06/04

nlp

リンク

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

rin1024 2009/06/04

tfidfの意味。ベイズに通じていたのかな？

nlp
tfidf

リンク

RSS を読み込んでランダムな文章を生成する

RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。以下、サンプルプログラムと実行例です。サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

rin1024 2009/06/04

"RSS（日本語）を読み込んで、テキストを形態素解析し、単語２連続（bigram）をカウントしています"

リンク

Class N-gramモデルとHMM、もしくはどこが隠れてるねん - 射撃しつつ前転改

Class N-gramモデルというのは、各単語はあるクラスに所属するものとし、クラスの連なりによって次の単語の確率分布を予測する言語モデルである。各単語がどのクラスに所属するかは、コーパスの対数尤度を最大化するように決定される。このモデルはHMMと非常に似ている。HMMとの違いは、HMMでは単語があるクラスへと所属する確率が存在するのに対し、Class N-gramモデルでは単語はあるクラスへと確実に所属するところだ。つまり、クラスAに所属する単語は、クラスBやCには絶対に所属しない。（HMMだと、クラスAへの所属確率0.8, クラスBへの所属確率0.1、みたいになる。）比べてみるとつまり、HMMの方がちょっと柔らかい印象を受ける。今、ちょっと嘘を書いた。もしかするとClass N-gramモデルという言葉で、各単語のクラスへの所属確率をイメージする人もいるかもしれない。ただ、この日

rin1024 2009/06/04

nlp

リンク

ChaIME: Term-based Yet Another Input Method Editor

ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデルを学習するとうまく行くかもしれません。統計的仮名漢字変換統計的仮名漢字変換についてページを分けました。既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定現在2GBの辞書サイズ

rin1024 2009/06/04

大規模コーパスを用いた統計的仮名漢字変換。IMEっぽいの。

nlp
ime

リンク

ChaIME: Statistical Input Method Editor

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換トップに戻る統計的仮名漢字変換統計的仮名漢字変換では、与えられた仮名文字列の入力yに対して変換候補 xを条件付き確率P(x|y)の降順に提示します。仮名文字列が来たときに仮名漢字交じり文になる確率です。この確率値が高い順に変換結果が並んでいてくれればいいわけです。言い換えると、確率値最大のものがもっとも尤もらしい変換候補となり、尤もらしさ順に確率値が並んでいることが統計的仮名漢字変換の基本原理となります。さて、直接P(x|y)を推定する方法があればそのまま仮名漢字変換に用いることができるのですが、一般にこの確率値を直接推定することは難しいため、近似を用いて推定することになります。この定式化は統計的機械翻訳や音声認識と同様で、ベイズの定理を用いることによってP(x|y)はP(y|x)とP(x)の積として推定するこ

rin1024 2009/06/04

確率で変換。ベイズとか使う。

nlp

リンク

第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記

昨年と一昨年に引き続き IM (input method) 飲み会。前々回は単に参加しただけ、前回は昼の部を取りまとめただけで夜の部は oxy くんに任せていたのだが、今回は昼の部だけではなく夜の部も取りまとめることになった(京都開催なのに自分は京都住んでいないのでお店もよく分からず……森さんが助けてくれた。深謝！)ので、なかなか緊張する。出張扱いで来る可能性のある人がいたので、とりあえず第1回入力メソッドワークショップという名前をつけてページを用意してみた(なにか開催するときはこういうものを作っておくと役に立つということを、昨年 Patrick Pantel さんを Yahoo! Labs から招聘したとき学んだ)。去年のものも入れると第2回だけど……。今回初参加は id:kzk くんの紹介で来た id:naoya さん、tabatee さんの紹介で shinh さん、森さんの研究室

rin1024 2009/06/04

nlp

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

rin1024 2009/06/04

nlp

リンク

言語処理学会第15回年次大会(NLP2009)

概要言語処理学会第１５回年次大会は、鳥取大学鳥取キャンパスで開催します．例年通り，自然言語に関する理論から応用まで幅広い研究発表を募集します．特に，言語学，教育学，心理学など，日頃「言語処理」とは縁が薄いと感じておられる人文系の研究者の方々からの積極的な発表を期待しています．従来通り，研究発表の形態は口頭発表（質疑応答も含めて２０分間程度を予定）とポスター発表のいずれかです．特に，人文系と理工系とのより密接な交流を図るには，多くの場合，ポスター発表が適しています．さまざまな分野の研究者との深い議論を期待される方は，是非ポスター発表への申込をお願いします．口頭発表とポスター発表は時間帯を分け，両者が重ならないよう考慮する予定です．ポスター発表ではパソコン持ち込みなどによるデモ等も歓迎します．両種の発表とも，予稿集には最大４頁の論文を掲載する予定です．また，今大会でも文理の

rin1024 2009/06/04

nlp

リンク

Google サジェストのローマ字検索機能 = Google IME - 武蔵野日記

Google サジェストがもっと便利にという記事で、検索窓にローマ字で入力しても Google サジェストに変換した候補が出るようになったことを知る。(前からできたような気もするが……Google サジェストではなかったかも) それでこの記事に関するはてなブックマークのコメントを見ていて、これ migemo の発展版と見ている人が大勢いるのかぁ、とはっとする。自分的にはかな漢字変換の発展版だと思っていたのだが……(ローマ字→かな漢字変換してくれて検索する、という意味で。多言語情報検索の単言語版と見てもよいかも)。以下、実際どういう技術でやっているのかは推測にすぎないが、Migemo との比較で考察してみる。 Migemo としては仕組みは簡単です。利用者が 1文字入力するたびに、ローマ字列から正規表現を生成して、それで検索するという力技な方法です。ということで、たぶんクエリに対する検

rin1024 2009/06/04

すげぇわ

nlp

リンク

Loading...

rin1024 2009/06/04

クエリの修正方法についての話とか。 "雑音のある通信路モデル、nグラム言語モデル、翻字、一般化編集距離、分布類似度、ブートストラップ、グラフカーネル、最大エントロピー法、etc. etc.."

nlp

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

rin1024 2009/06/04

自然言語処理における特徴ベクトルの作り方と、性質、とか。

リンク

人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つでオンライン学習 L1正則化索引を用いた効率化, 全ての部分文字列を利用した文書分類という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。オンライン学習自然言語処理のデータは3つの特徴がある。高次元疎冗長で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい色んなもののベースになる線形分離できるときには

rin1024 2009/06/04

オンライン学習の手法についての紹介等

リンク

Programming Language of Choice

my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) Some of you know that I (at least used to be) a bit of a programming language snob. In fact, on several occasions, I've met (in NLP or ML land) someone who recognizes my name from PL land and is surprised that I'm not actually a PL person.

rin1024 2009/06/04

pyhon?

nlp

リンク

Porter Stemming Algorithm

This page was completely revised Jan 2006. The earlier edition is here. This is the ‘official’ home page for distribution of the Porter Stemming Algorithm, written and maintained by its author, Martin Porter. The Porter stemming algorithm (or ‘Porter stemmer’) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term norma

rin1024 2009/06/04

英語などで、単語の複数形や過去形などに付く余分な文字列を取り除き、原型を推測するための処理を "stemming" といいます。

nlp

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク

rin1024 2009/06/04

リンク

教師なし形態素解析 - mots quotidiens.

LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージを使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページの文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージを使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

rin1024 2009/06/04

nlp

リンク

自然言語処理における半教師あり学習のテキスト - 武蔵野日記

最近移動続きであまり研究に時間は割けないのだが、本は読めるということで本を2冊、サーベイ的な記事を3本(うち2本はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見るを読む。この本の著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

rin1024 2009/06/04

リンク

独立行政法人　国立国語研究所：日本語話し言葉コーパス

『日本語話し言葉コーパス』第２刷の受付を開始しました(更新：2008.05.02) 報告書『日本語話し言葉コーパスの構築法』がダウンロードできるようになりました。(更新：2008.03.24)

rin1024 2009/06/04

nlp

リンク

きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか

http://www.asks.jp/users/hiro/59059.html http://www.itmedia.co.jp/news/articles/0905/08/news021.html 最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。さて、この「読めてしまう」がなぜよめてしまうのでしょうか？人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100　程度の確率で正解するということです。件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。すなわち、52/100 =~ 0.5　実際には、最後の文字も変わらないし、単語の長さが変わらないというもの、大きな

rin1024 2009/06/04

100分の1であたるのか…

nlp

リンク

NLP - Wikipedia

NLP 自然言語処理 (Natural Language Processing) の略称。人間の言語をコンピュータに処理させる技術。夜間離着陸訓練 (Night Landing Practice) の略称。アメリカ海軍が夜間にタッチアンドゴーを繰り返す訓練。非線形計画法 (Non-Linear Programming) の略称。数学用語。一部が非線形な関数を最小化または最大化するような解を求めるプロセス。神経言語プログラミング (Neuro-Linguistic Programming) の略称。自己啓発技法を中心とした体系。このページは曖昧さ回避のためのページです。一つの語句が複数の意味・職能を有する場合の水先案内のために、異なる用法を一覧にしてあります。お探しの用語に一番近い記事を選んで下さい。このページへリンクしているページを見つけたら、リンクを適切な項目に張り替えて下さい。

rin1024 2009/06/04

nlp

リンク

http://chasen.org/~daiti-m/paper/naist-dlec2004-lmodel.pdf

rin1024 2009/06/04

リンク

cm240A-03.tex

Fast Phrase Querying With Combined Indexes HUGH E. WILLIAMS, JUSTIN ZOBEL, and DIRK BAHLE RMIT University Search engines need to evaluate queries extremely fast, a challenging task given the quantities of data being indexed. A signiﬁcant proportion of the queries posed to search engines involve phrases. In this article we consider how phrase queries can be efﬁciently supported with low disk over

rin1024 2009/06/04

リンク

Latent semantic analysis - Wikipedia

Latent semantic analysis (LSA) is a technique in natural language processing, in particular distributional semantics, of analyzing relationships between a set of documents and the terms they contain by producing a set of concepts related to the documents and terms. LSA assumes that words that are close in meaning will occur in similar pieces of text (the distributional hypothesis). A matrix contai

rin1024 2009/06/04

search
lsa

リンク

Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)

Latent Semantic Analysis (LSA) 目次背景課題の流れ背景近年、情報検索が非常に重要となる一方で、その検索手法は未だにキーワード入力によるものが事実上標準となっています。しかし単語には同義語や、多義語が存在するために目的とする結果がなかなか得られない場合があります。例えば、木を用いたデータ構造を検索しようとして、treeと入力しただけでは目的のものが得られず、tree data structureでようやく狙った検索結果が上位に来ます（多義語の例）。全ての単語に対し、どの単語同士が似た意味を持っているのか、または持っていないのかを調べることで、より柔軟性をもった情報検索ができる可能性があります（例えば、キーワードに「東大」としか入力していないのに検索結果では「東京大学」「最高学府」「University of Tokyo」が含まれる文書も検索できる）。

rin1024 2009/06/04

人間が作ったシソーラス（類義語辞典）を利用することも考えられますが、これを人手で作成するのは非常に大変であり、次々と生まれてくる新しい単語に対応することも困難です。

リンク

檜山正幸のキマイラ飼育記 - JavaScriptで学ぶ・プログラマのためのラムダ計算

「JavaScriptによるテンプレート・モナド、すっげー簡単!」にて：紙と鉛筆でラムダ計算を実行できることは必要だな、やっぱり。なんて強調したので、ラムダ計算の入門、いってみよう。 [追記]練習問題集を追加しました。説明を読みながら、あるいは読んだ後で是非やってみてください。→「JavaScriptで学ぶ・プログラマのためのラムダ計算問題集」[/追記] ※印刷のときはサイドバーが消えます。内容： JavaScriptの関数リテラルラムダ式ってなんだラムダ計算の体系と適用操作ラムダ式の例をいくつか β変換 -- ラムダ計算のキモ！ β変換を何度か実行してみる中間まとめ、まだ続きがあるよ JavaScriptの関数リテラル最初に、JavaScriptに関する知識を確認しておきましょう。なお、JavaScriptの対話的実行環境については「もっともお手軽な対話的JavaScr

rin1024 2009/06/04

jsでラムダ式

javascript

リンク

教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

rin1024 2009/06/04

リンク

青柳臣一ブログ（趣味系） [C++] 細かい手動最適化（けど、結構効果あるのね）

Optimize Your Code: Matrix Multiplication より結果を見て「へぇ」と思ったので紹介。ところで、このブログの方、Microsoft の C++ Shanghai team のデベロッパと書いてあるけど、Shanghai チームって上海のことなのかな？それともそういうコード名のプロジェクトがある？紹介してるのは n×n の正方行列の積を求めるコード。 Version 1 はごく普通にループ回して結果を求めるコード。何の工夫もなし。 Version 2 は内側のループで一時変数を使うようにしたちょっとした改良。最初これを見たとき「これくらいはオプティマイザが勝手に最適化してくれるんじゃないかな？」と思ったんですが、してくれないんですね。ちゃんと解説が書いてあります。「”result” が “m1” か “m2” の別名になってる（言

rin1024 2009/06/04

ラムダ式使えるようになったとか

c++

リンク

全文検索エンジンを試作してみたよ - やればできる子の日記

今日は奥様とタイ料理&タイ式マッサージの日でした。マッサージはちょっと素晴らしいなあ。表題のように、全文検索エンジンをGAE上で試作してみました。GAEはGoogle様提供のサービスにもかかわらず「なんで全文検索機能がないねん」という声が上がっていたんですよね。主にtwitter界隈から。「Introduction to Information Retrieval」という本のドラフトPDFと、たつをさんのところのIIR輪講の資料を参考に作りました。つっても、第1章の一部の知識しか使ってないですが。論理和検索もスキップリストも使ってないし(論理和検索はクエリ式のパーサを書くのが面倒だった)。 import logging import re from urllib import urlencode import wsgiref.handlers from google.appengine

rin1024 2009/06/04

リンク

JavaScript で、画像本来のサイズ(幅, 高さ)を取得する方法 - latest log

Opera で DOM Mutation Event を使用するコードを追記しました。まとめを追加しました。 Opera パート2に取得できないケースが見つかったため、パート3 を追加しました。 rhino.jpg(幅:300px, 高さ:227px) を、 <img id="rhino" src="rhino.jpg" width="100" height="75" /> と、100 x 75 で表示している場合を例に、画像本来のサイズを取得する方法をご紹介します。 Firefox, Safari, Google Chrome なら image.naturalWidth と image.naturalHeight を利用します。 image.naturalWidth と image.naturalHeight の初期値は 0 です。画像の読み込みが完了した時点で適切な値に更新されます。

rin1024 2009/06/04

javascript

リンク

JavaScriptで画像のリンク切れをチェックする方法:phpspot開発日誌

JavaScript で、画像本来のサイズ(幅, 高さ)を取得する方法 - latest log JavaScriptで画像のサイズ(幅,高さ)をとる方法があって詳しく紹介されていて分かりやすいです。ここで、画像のリンク切れをチェックする方法が書かれていなかったので書いてみます。 var img = new Image(); var url = '//phpspot.org/blog/img/notfound.jpg'; // あえて存在しない画像を指定 img.onload = function() { alert('width='+img.width+' , height='+img.height); }; img.onerror = function() { alert(url+' is dead'); }; img.src = url; 赤文字の部分を記述しておけば、エラー時に

rin1024 2009/06/04

なるほど。

javascript

リンク

Hadoop + Luceneで分散インデクシング - moratorium

Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

rin1024 2009/06/04

面白そう

リンク

転置インデックスで学ぶ検索エンジンの中身アプリ - シリコンの谷のゾンビ

学生の頃から情報検索っぽい研究をやっていたくせに，転置インデックスてこんなものなんだ，ということを知るまで検索エンジンが正直怖かった．転置インデックスの概要を理解したら急に甘く見はじめるようになった（それはそれでいかんのだけど）．位置情報を持たせたり，転置インデックスの圧縮をした状態で説明されると急にアッーてなるけれど，一番単純な例を見るとすぐに理解できる．というわけで転置インデックスってこんな感じなんですよー．という一例を体験するプログラムをつくってみた．またJavaScript+TinySegmenter．工藤様毎度ありがとうございます． Text search indexing demo - 転置インデックスで学ぶ検索エンジンの中身アプリこれを見ると，転置インデックスって基本的にこういう構造でデータを持つのかということが納得できると思います．Termをkey，Posting l

rin1024 2009/06/04

リンク

全文検索エンジンSennaの設計と実装

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

rin1024 2009/06/04

senna
search

リンク

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve

rin1024 2009/06/04

シューッ！

リンク

空白でインデックス圧縮 - smly’s notepad

転置インデックスを圧縮したりするところの Variable byte code さんを実装した. ただ実装するのではつまらないので whitespace を使って実装したという, くだらないお話. Variable byte code については, IIR の Index Compression を参照.Introduction to Information Retrieval作者: Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze出版社/メーカー: Cambridge University Press発売日: 2008/07/31メディア: ハードカバー疑似コードが載ってます. 実装したコードhttp://github.com/smly/junkcode/tree/master/lang/ws/variable_byt

rin1024 2009/06/04

IIRネタ？

search

リンク

ブートストラップによるパターン抽出 - 武蔵野日記

午後は情報検索に関するトーク。shima さんたちのチームの話が気になったのでメモ。 Ni Lao, Hideki Shima, Teruko Mitamura and Eric Nyberg. Query Expansion and Machine Translation for Robust Cross-Lingual Information Retrieval. NTCIR-7. 2008. この論文、言語横断検索のためにいろいろなことをやっているのだが、自分が気になったのはクエリ展開(query expansion)の部分。クエリ展開とはたとえば「カーネギーメロン大学」と「CMU」が同義語であった場合、「カーネギーメロン大学」と入れて「CMU」のページも検索してくれると嬉しいよね、という話で、それを自動的に展開してあげましょう、という内容なのだが、この同義語・言い換えをどう見つける

rin1024 2009/06/04

自然言語関係

search
nlp

リンク

情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

昨年書いた教科書編が（僕にとっては）嬉しくて跳ね上がるほどブックマークされたので，調子に乗って第二弾を書いてみました．皆様ありがとうございます（ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです）．今回は研究寄りですが，少しでも誰かの役に立てば幸いです．僕は網羅的にサーベイを，キーワード検索以外に主に二つの方法で行っています．会議毎にサーベイ研究者毎にサーベイ 1.はさておき，2.ですが，僕は研究者のDBLPをチェックしています．気になる論文の著者のDBLPを眺めると，知らなかった要チェックや！論文を拾うことができます．なので，一線で活躍する研究者の論文は定期的にチェックする必要があります．今回はIR研究者の中でも，戦闘力が高く，この人は常にウォッチせねばという研究者の一部を紹介したいと思います．下記は若輩の独断と偏見に基づくものです．一線で活

rin1024 2009/06/04

search

リンク

IR Maniac II (検索メイニアック II)

NTCIR-9 runs seven tasks: Intent (INTENT), Recognizing Inference in TExt (RITE), Geotemporal Information Retrieval (GeoTime), IR for Spoken Documents (SpokenDoc), Cross-Lingual Link Discovery (CrossLink), Interactive Visual Exploration (Vis-Ex) and Patent Machine Translation (PatentMT) Hideo Joho and I are working as the evaluation co-chairs of NTCIR-9. Also, I am one of the task organisers of INT

rin1024 2009/06/04

search

リンク

Link Analysis and Related Topics - Home

2008年度先端情報科学特論 II & IV リンク解析と周辺の話題担当新保仁 shimbo@is.naist.jp 日時 2008/11/10, 11/17, 12/1, 12/8 (全 4 回) - 4限 15:10-16:40 場所情報棟 L3 講義室リンク解析は, グラフ (ネットワーク) データの構造から有用な情報を抽出するための, データマイニングの一研究分野です. この講義ではまず, リンク解析が取り扱う 2 種類の尺度 (重要度と関連度) について述べ, それぞれの代表的な計算手法を紹介します. 後半では, 近年機械学習分野で盛んに研究されているカーネルのうち, グラフ上の節点に対して定義されたカーネル (グラフカーネル) と, そのリンク解析への応用について紹介します. 第1回 11月10日スライド第2回 11月17日スライド第3回 12月1日

rin1024 2009/06/04

"リンク解析は, グラフ (ネットワーク) データの構造から有用な情報を抽出するための, データマイニングの一研究分野です"

リンク

文字列探索スターターキット - シリコンの谷のゾンビ

最近重点的に勉強しているので，これまで集めた教科書情報，資料等へのリンクをまとめてみる．紹介している教科書はほとんど読んでいないので妄言注意．この他にお薦め教科書，勉強法があればぜひ教えてください．文字列探索は検索対象テキストの中から転置インデクスのような外部データ構造を利用せずに目的の文字列を探索する課題です．文字列探索，文字列照合，パターンマッチなどとも呼ばれています（一番オーソドックスな呼び方はなんでしょう？）教科書和書で文字列探索だけを取り扱っている本を見かけたことがない．アルゴリズム本の探索の章にKMP法，BM法が紹介されているだけのケースが多い．注意してみるとAC法を扱っている本が意外と少ないことに気がつく．．．（文字列探索でよい和書の情報募集中）追記 (2009-04-02) Thanks to cubicdaiyaさん! 情報検索アルゴリズムにKMP法, BM法

rin1024 2009/06/04

リンク

the pillows インタビュー／＠ぴあ

今年でバンド結成20周年！初の武道館公演も決定した彼らが歩んできた、己の道とは？　フロントマン、山中さわおに訊いた。 Text●森朋之 ――結成20年目にして、初の武道館ライブが決定。the pillowsにとっても、大きなポイントになりそうですね。「まあ、相変わらずライブ会場選びについては自発的ではないんだけどね。はじめてZepp公演をやったときもそうだったんだけど、マネージャーから話があったときの最初の言葉は“何を考えてるんだ”だから（笑）。今回も同じで、初めは“無理だよ”って思ったんだよね。でも、いろいろ考えてね。まず、武道館の印象が変わってきたっていうのがあるよね、個人的に。ほら、ミスチルやGLAYを横浜アリーナなんかで見るじゃない？　それに比べると、武道館って肉眼でもわりと楽しめるなって。あと、去年だったかな、The Birthdayの武道館を見たとき、アリーナがスタンディ

rin1024 2009/06/04

山中さんかっけ

リンク

Twitter共同創設者、「ほとぼりが冷める日を待ち望んでいる」

ニューヨーク発--Twitterの共同創設者で幹部のJack Dorsey氏は、世界がTwitterについてこれほど語らなくなる日を待ち望んでいると述べている。 Internet Week New Yorkの一環として米国時間6月3日に当地で開催された討論会「Future of Media（メディアの未来）」に出席していたDorsey氏は、「人々がTwitterについて語ることをやめ、このような会のパネリストに呼ばれることなくなり、人々が電気のような公共インフラとして使用するようになれば、Twitterはわれわれにとって成功であると思う」と述べた。「単なる通信の一部として裏方へと消えていく。われわれはTwitterをあらゆる通信手段と同じレベルのものとして考えている。つまり、電子メール、SMS、電話だ。われわれはそれを目指している」（Dorsey氏） Twitterをよく知らない読者のため

rin1024 2009/06/04

interview

リンク

Perfumeのアルバム・タイトル決定！でも何て読むの？ | BARKS

7月8日にリリースされるPerfumeのニュー・アルバムのタイトルが発表された。その名はズバリ『⊿』。……え!?　記号？　読み方は？　現在わかっているのは、この謎の記号『⊿』のみ。『GAME』から約1年3ヶ月振りのアルバムとなる『⊿』。音楽プロデュースには、お馴染みの中田ヤスタカ(capsule)を迎え、｢love the world｣｢Dream Fighter｣｢ワンルーム･ディスコ｣、そして森永乳業｢エスキモー pino｣CMソング｢NIGHT FLIGHT｣など、既発曲2曲の別ヴァージョンを含む､全12曲収録を予定。気になる読み方など、詳細は6月4日(木)23:05から放送のTOKYO FM系『SCHOOL OF LOCK!』内の｢Perfume LOCKS!｣で発表されるので要チェックだ。 ◆perfumeオフィシャル・サイト ◆徳間ジャパンperfumeサイト

rin1024 2009/06/04

三角州で

perfume

リンク

世代別ガベージコレクション - Wikipedia

世代別ガベージコレクション (英: generational garbage collection) はガベージコレクションの手法のひとつである。別名として、ジェネレーション・スキャベンジング (英: generation scavenging) とも呼ばれる。以下、ガベージコレクションをGCと省略する。 GCを持つ言語上で動く実システムでは、経験上メモリオブジェクトの利用に、ある偏りが存在する。それは「計算途上で利用される一時オブジェクトは数が多く、かつすぐさま破棄される率が高い」「ある程度長く生存したオブジェクトは、以降も長く生存する率が高い」という傾向である。この傾向に着目し、メモリ領域を2つの世代に分離する。第1世代 (young generation) に属するオブジェクトは小さな領域で高速なコピーGCを繰り返し、積極的に回収する。第2世代 (old generation)

rin1024 2009/06/04

GC

リンク

マーク＆スイープ法をテスト実装してみる - imHo

ガベコレも、なんとなくやってることはわかるんだけど、実際のところよくわからない…なので実装して確かめる。手始めにマーク＆スイープ法。 GCを自分で実装、ということでメモリ管理も自分で好きに扱えるように、自分で作る。というかK&Rのmallocルーチンの管理構造体を外から渡すようにしたもの： balloc.c: /// Buffer Allocator /** K&R「プログラミング言語Ｃ」の malloc ルーチン */ #include "balloc.h" typedef union balloc_header Header; /* 領域初期化 */ void balloc_init(BAlloc* balc, void* buf, unsigned size) { Header* up; balc->base.s.ptr = balc->freep = &balc->base; ba

rin1024 2009/06/04

ruby
GC

リンク

http://lc.linux.or.jp/lc2001/papers/ruby-gc-paper.pdf

rin1024 2009/06/04

ruby
GC

リンク

宮城県警石巻署で伝承教養「デカルチャー」制定 :日刊警察ニュース

～若手警察官に各級幹部が実戦的教養を定期的に実施～宮城県警石巻署は、若手警察官に対して、挙署態勢による刑事手続中心とした実戦的・体験的な教養を継続実施する伝承教養「デカルチャー」を制定し開校式を実施した(写真)。地域警察官を中心とした若手警察官に対して、各級幹部等が捜査手続、擬律判断、捜査書類作成等の実戦的教養を定期的に行い、職務執行能力向上を図るもの。デカルチャーとは、デカ（刑事）とカルチャー（culture）を合わせたもので、対象者は、警察官拝命後5年未満の者または教養受講を希望する者となっている。

rin1024 2009/06/04

ギャグだな

リンク

若い女性が見るサイト

ユーザーの中にF1層と呼ばれる20〜34歳の女性が多く含まれているサイトはどこか――このような調査をビデオリサーチインタラクティブが実施した。コミュニケーションサイトや通販サイト、グルメサイトが上位にのぼった。第1位はミクシィが運営するソーシャルネットワーキングサービス（SNS）「mixi」。推定で400万人以上の接触者がおり、そのうちF1層が27.7％を占めるという結果となった。コミュニケーションサイトではこのほか、GMOメディアのブログサービス「ヤプログ」が12位に入っている。ほかに目立つのは通販サイトとグルメサイトだ。通販では2位に千趣会の「ベルメゾンネット」、3位にニッセン、10位におちゃのこネット、13位にDHCが入った。グルメサイトでは5位にレシピサイトの「クックパッド」、6位にリクルートのレストラン情報サイト「ホットペッパー」、8位にカカクコムの「食べログ」、11位にぐる

rin1024 2009/06/04

リンク

アイトラッキングから検証した、使いやすいフォームの10のポイント

Google Mail、Hotmail、Yahoo! Mail、eBayの各サインアップのフォームを使用して、22～33才までの平均27才のユーザー8人を被験者にしたアイトラッキングから検証した、使いやすいフォームの10のポイントをcxpartnersから紹介します。 Web forms design guidelines an eyetracking study 以下、10のガイドラインからポイントのピックアップです。 1. Vertical, not horizontal 水平ではなく、垂直にフォームのレイアウトは、水平方向の配置やそれが混在したものではなく、単純に垂直方向に配置したものが効果的です。可能であれば、各ラベルも垂直方向に揃えて配置してください。 2. Left-aligned labels are clearer (anecdotally) ラベルは左寄せにすると、よ

rin1024 2009/06/04

design
tips

リンク

Webサイトを作ったらまずやるべきことチェックリスト | Web担当者Forum

今日は、Webサイトを作ったらまずやるべきことのチェックリストを紹介しましょう。サイトは作るまでも大切だけど、作ってからのアクションも同じかそれ以上に大切。すでにサイトを運営している人は、やってないものがないか確認してみましょう。サイト運営日記をスタートする（変更点を日付と一緒にメモしていく）XMLサイトマップを作って更新内容が含まれるようにするGoogleウェブマスターツールにサイトを登録する → https://www.google.com/webmasters/sit emaps/XMLサイトマップを登録するURLのwwwあり／なしの統一を指定するサイトリンクの表示をチェックして調整（以降随時）Yahoo!サイトエクスプローラーにサイトを登録してXMLサイトマップを登録する → http://siteexplorer.search.yahoo.co.jp/live Webmaste

rin1024 2009/06/04

tips
seo

リンク

ウェブの収益化は不可能なのか？相次ぐサービス停止と日本のウェブ *{m|e|t|a|m|i|x}+

ウェブの収益化は不可能なのか？相次ぐサービス停止と日本のウェブ 02-6 月-09 友引 by maskin 100年に1度ともいわれる不況の中、ネット関連の多くの事業がサービス停止に追い込まれている。2009年3月決算期を過ぎ、閉鎖の勢いが加速しているようだ。ネットサービスは、実体がないと指摘されながらも、期待値を含みながら成長してきた。売上がなくても「ユーザー数」をその価値基準に生きのびてきた。しかしながら、蓋をあけてみると、収益力の有無が生存能力に直結していることが露呈された形となり、その幻想は打ちくだかれた形となったといえそうだ。一方で、Web2.0を喧伝した梅田望夫氏が「日本のWebは「残念」と発言したことが話題を読んでいる。「日本のWebの悪いところは？」ときかれると沈黙するなど、どうやら問題を直視できていないと思われるが、閉鎖が悪だとすると、一体何が問題だったと

rin1024 2009/06/04

ほしかったけど、当時お金なくて買えなかった > ガンダムタクティクスオンライン

リンク

梅田望夫氏の開き直り - 池田信夫 blog

梅田氏のインタビューが、あちこちで話題になっている。私が一番ひっかかったのは、次の部分だ：ただ、素晴らしい能力の増幅器たるネットが、サブカルチャー領域以外ではほとんど使わ[れ]ない、“上の人”が隠れて表に出てこない、という日本の現実に対して残念だという思いはあります。そういうところは英語圏との違いがものすごく大きく、僕の目にはそこがクローズアップされて見えてしまうんです。この「残念」な状況を作り出した大きな原因は、はてなである。梅田氏が「バカなコメントが多い」といったように、匿名による悪罵が「上の人」を萎縮させて、日本のウェブのレベルを下げているのだ。その結果、アメリカのブログは著名人が既存メディアの枠を超えてリアルタイムで議論する場になり、大手メディアに対抗する存在になりつつあるのに、彼も嘆くように日本のブログはますます劣化している。私は、これは「日本の文化」だとは思わない。それは戦

rin1024 2009/06/04

そんなにはてな好きだったのか

リンク

日本語大シソーラス　類語検索辞典

19世紀半ばに刊行された英語の類語検索辞典『ロジェのシソーラス』は、英文を書くためのツールとして広く長く愛用され、今日に至っています。同じ発想に基づく「日本語シソーラス」は、日本でも各界から要望されていました。しかし編纂の困難さから今まで作られたことはありませんでした。今回じつに二十数年の歳月をかけ、初めて『日本語大シソーラス』が誕生したのです。本書は「先に分類ありき」ではなく、できるだけ多くの言葉・表現を収集しながら、それを連想に基づいて群にまとめ、分類を練り上げる作業を繰り返して作られました。そのため日本語使用の実態や、言葉の世界に定着された日本人の感性がよく反映されており、「日本人の文化・感性の総索引」と呼ぶべき内容になっています。日本語の語彙が豊かであること、対象を正確に捉える言葉を持っていることは、日本語で何かを表現する際の重要なポイントです。本書は言葉探しのナビゲーターとし

rin1024 2009/06/04

thesaurus

リンク

辞典・百科事典の検索サービス - Weblio辞書

五山送り火京都市如意ケ岳（大文字山）他、五つの山で行われるかがり火。しゃんしゃん祭り鳥取市で中心街の主要道路を利用して、地元の各団体が鈴の付いた傘を使い、きなんせ節など鳥取の唄に合わせて踊る。元は県無形民俗文化財の「因幡の傘踊り」。備中たかはし松山踊り岡山県高梁市で行われ、五穀豊穣と町家の繁栄を願って踊る。（8月14日から）木頭おどり徳島県那賀郡那賀町で行われる盆踊り 8月16日のことばをすべて見る

rin1024 2009/06/04

リンク

シソーラス（類語）検索

rin1024 2009/06/04

すげぇ。でもサービスが終わってる。

thesaurus

リンク

シソーラスとオントロジー

２．２電子化されたシソーラスキーボードから直接どこでも指定できるので木構造をたどりながら探していく必要はありません。もはや木構造ではなく、網構造になって複数の広義語が持てるようになります。しかしその結果同じ文字列で複数の意味を持つ多義語が区別できない問題がでてきます。例えば木構造で検索したときには、「時間」からたどった「月」(month)と、「天体」からたどった「月」(moon)の二つの異なった意味の語は区別できますが、網構造では区別ができなくなります。「月」を「天体」の観点でとらえたときはmoon で「時間」の観点でとらえたときはmonthであるとすれば解決できます。一つのグループに入れる語を多くしすぎるとグループのなかを探すのに時間がかかってしまいます。逆に少なくしようとすると階層が深くなってしまいます。電子化されたシソーラスでは、クリックするだけで、簡単に上下の階層

rin1024 2009/06/04

同義語としてのシソーラスについて前半は書いてる(後半は未だ見てない)

thesaurus

リンク

Tech Venture Plus

rin1024 2009/06/04

リンク

NEC、トリプルメディアの時代において、ソーシャルメディアへの取り組みを推進するため、「公式アカウント一覧」および「「ソーシャルメディアポリシー」を公開 | 日本電気株式会社 | New

Accurately conveying Japan, present and future, to the world. Mission Providing trustworthy information that deepens understanding of, and generates interest in, Japan. 世界中で、日本に興味を持つ人を増やし、日本についての理解を深めるために、私たちは、信頼できる情報を提供します。 Vision Contributing to a better world through the promotion of mutual understanding between Japan and various international communities. 日本と世界の相互理解を推進することで、よりよい世界の実現に貢献します。

rin1024 2009/06/04

そうなんだ

リンク

「バナナ」から「ダイエット」を連想、きざしが生活体験に根ざしたブログ成分解析＆レコメンエンジンを開発

『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

rin1024 2009/06/04

これいいなぁ。下位語検索の一種。

リンク

テキストマイニングとNLPビジネス

rin1024 2009/06/04

テキストマイニングに関する資料

recommend

リンク

【PDF】クラスタリング - 嵯峨山茂樹 - 東京大学工学部計数工学科応用音響学

嵯峨山茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 1 東京大学工学部計数工学科応用音響学 D2 - クラスタリング嵯峨山茂樹 <sagayama@hil.t.u-tokyo.ac.jp> 東京大学工学部計数工学科資料所在 http://hil.t.u-tokyo.ac.jp/∼sagayama/applied acoustics/ クラスタリング k-means アルゴリズムベクトル量子化 LBG アルゴリズムセグメンタル k-means アルゴリズム嵯峨山茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 2 クラスタリング1 内容 1. クラスタリング 2. k-meansアルゴリズム、LBGアル

rin1024 2009/06/04

クラスタリングのアルゴリズム紹介

clustering

リンク

データマイニング - 機械学習の「朱鷺の杜Wiki」

データマイニング (data mining)† すでに蓄積されている大量のデータから興味深く再利用可能な規則性を見つけ出すこと． Book/Advances in Knowledge Discovery and Data Mining では，狭義には，知識発見の中でデータのパターンを見つけるアルゴリズムのこととされる．しかし，最近ではこのプロセス全体を指すことが多い．統計的推定などとの違いは，文献3の見方が興味深いと思う．推定や学習では，正当性(Validity)，有効性(Effectiveness)，効率性(Efficiency)の三つの軸をとりあげ，それぞれを重視する研究が統計，機械学習(人工知能)，データベースの各分野になっているのではないかと指摘している．実際のデータへの適用にはどの軸も大切で，バランスをとろうと心がけることがデータマイニングの特徴といえると思う．-- し

rin1024 2009/06/04

recommend

リンク

BooneOakley.com - Home Page

Like us on facebook: http://www.facebook.com/BooneOakley View our work portfolio here: http://vault.booneoakley.com Please follow @booneoakley on Twitter: http://twitter.com/booneoakley

rin1024 2009/06/04

Googleにささげしもの

youtube

リンク

4U - beauty image bookmarking

Motoshi Goto / Freelance Web Designer and Developer from Oita, Japan.

rin1024 2009/06/04

photo

リンク

ItList.com

Selling PDFs is so 2010. An ItList is a new digital product that actually converts. Curate what you know into snackable bundles you can share or sell anywhere.

rin1024 2009/06/04

初期のSBMサービス

リンク

http://plus.buzzurl.jp/

rin1024 2009/06/04

リンク

99999 ブリンクフォルダ

ブックマークを簡単追加（IEのみ）下の赤い文字をブラウザのリンクツールバーにドラッグしよう！ Blink It!

rin1024 2009/06/04

SBMサービス。古い？

リンク

メイド喫茶が増え続けるわけ：RBB TODAY (ブロードバンド情報サイト)

その他 2024.6.2 Sun 12:30 「なんでこれ、会社がOK出したんですか！？」小室瑛莉子アナ、バズらせ動画に悲鳴『深夜のハチミツ！！Bee the top』（フジテレビ系）が2日25時から放送される。その他 2024.5.22 Wed 16:23 優れたプロモーションを評価する「ケーブル・アワード2024 第17回ベストプロモーション大賞」投票受付スタート！PR ケーブルテレビ事業者による優れたプロモーションなどを評価する「ケーブル・アワード2024 第17回ベストプロモーション大賞」が実施される。ガジェット・ツール 2024.5.20 Mon 20:17 完成度高い！Androidタブレットのイメージが変わる！Galaxy Tab S9／S9 FEをチェック今回はAndroidタブレット「Galaxy Tab S9 Series」を実際に使ってみて感じたことをレポー

rin1024 2009/06/04

あなたが好きそうな音楽を紹介してくれる

リンク

SEM業界～スナップアップ投資顧問の推奨銘柄

ネット広告業界やSEM・リスティング広告業界に関する解説ページです。ネット広告市場の動向やスナップアップ投資顧問の推奨銘柄の実績例を紹介します。東証一部上場の運用型ディスプレイ広告会社「Orchestra Holdings」（オーケストラホールディングス、旧デジタルアイデンティティ）など。メニューセプテーニアドウェイズオーケストラHD アイモバイル SEM・ネット広告業界ネット広告業界の大手企業の一覧ネット広告業界の大手企業の一覧です。売上高のランキング（順位）や業態などをリストにまとめました。ネット広告会社は主に「代理店」「メディアレップ」「アフィリエイト」に大別されます。最大手サーバーエージェントのような独立系のほか、電通や博報堂など旧来型のメガ代理店の傘下に入っている会社もあります。＜ネット広告企業の業態別ランキング＞業態売上高の順位会社名証券コード

rin1024 2009/06/04

精度悪くても新しい気づきの為です！って言ってごまかせそう。

リンク

KBMJ/株式会社ケイビーエムジェイ

アピリッツは、創業2000年以来"インターネットサービスの価値を最大化する"ことに特化してきました。デジタルテクノロジーとクリエイティブ支援について豊富な実績があります。 WEB BUSINESS SOLUTION アピリッツは企業のWebビジネスの変革に最適なビジネスパートナーです AWSを最大限に活用した大規模システム開発や、アジリティ・コスト最適化に強いECソリューションを提供できます。300人以上のエンジニアによる確かな実行力を持って「企業のビジネスモデルやビジネスプロセスの変革」を実現します。

rin1024 2009/06/04

KBMJのレコメンド。4travelでも使われてるそうな。

リンク

SaaS型多機能レコメンドソリューション「レコナイズ」

rin1024 2009/06/04

どっかの悪徳商法のページみたいだ

リンク

コトハコレコメンドプラス【はじめに：レコメン道虎の巻】 - コトハコ：ECサイトのレコメンドと検索エンジンをSaaS(ASP)で提供

rin1024 2009/06/04

紹介は面白いけど内容薄い。

リンク

マーケットバスケット分析（まーけっとばすけっとぶんせき）

データマイニングの利用法の1つで、POSデータやECサイトのトランザクション（取引）データを分析して、“一緒に買われる商品”の組み合わせを発見する探索的データ分析のこと。 1顧客による1回の取引データをマーケットバスケット・データといい、これを週や月単位に集計した取引データベースをソースとしてデータマイニングを行う。量販小売業で特に有効とされるが、クレジットカードの取引データや通信系会社の利用記録などに適用することもできる。一般にアソシエーション分析の手法が利用され、結果は［パン, バター］→［ミルク］というようなアソシエーション・ルールの形で出力される。「おむつを買う顧客は同時にビールも買う」という“おむつとビール”の事例が有名。このほか、「日曜大工店でラテックスペンキを購入する人の8割はローラーを同時購入する」「食品店でトルティーヤチップスを購入する人の8割は瓶入りサルサソースを同

rin1024 2009/06/04

recommend

リンク

データ＆アナリティクス | アクセンチュア

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

rin1024 2009/06/04

レコメンドサービスを専門に作ってる会社

recommend

リンク

Introduction to Recommender Systems

rin1024 2009/06/04

概論

recommend

リンク

midomi - 歌やハミングで音楽を検索できる無料サービス

Identify music on-the-go! Download the free SoundHound app.

rin1024 2009/06/04

どうやって音声解析してるんだろう。

リンク

データマイニング分野のクラスタリング手法（1） — クラスタリングを使ってみよう！ —

PDF閲覧時に認証を求められる記事がございます（発行後2年間）が，人工知能学会の個人会員は無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい（会員情報管理システムとオンラインで連携していないため，パスワードは同システムとは異なります．また，認証情報の更新は偶数月の月末に実施しております．新規入会された方は利用できるまでしばらくお待ちください）．個人会員以外は記事複製申込フォームから購入いただけます．また，アマゾンにて冊子版あるいはKindle版を購入いただくことも可能です．

rin1024 2009/06/04

クラスタリングの手法解説

リンク

Accurate is not always good: How Accuracy Metrics have hurt. Recommender Systems

rin1024 2009/06/04

"Accurate is not always good: How Accuracy Metrics have hurt. Recommender Systems ."

recommend

リンク

SNS大手ミクシィが実践する社内SNS活動とは？--「あったらいいな」を実現する企業：ミクシィ

ミクシィの人事部長である高久聡子さんと、同部採用グループリードリクルーターの水本敦則さんにお聞きしました。 2004年にオープンしたmixiは、2009年3月現在で1683万人を超えるユーザーを抱えており、「コミュニケーションのインフラ」という位置づけで更なる事業を展開しているところです。一方、会社設立当時から手掛けてきたFind Job ！は、ウェブディレクターやウェブエンジニア、ウェブデザイナーなど、ウェブに特化した求人情報サイトとして成長を遂げてきました。ミクシィは、2006年9月に東京マザーズへの株式上場を果たし、こうした事業展開の流れの中で社員数も急激に増えました。そして、働きやすい環境を整備するため、2007年7月、現在の原宿に本社を移転しました。リードリクルーターの水本さんは、「会社として『コミュニケーションを進化させて人々の生活を豊かにする』というビジョンがあるからと

rin1024 2009/06/04

水本さんの写真がない！なんで！

mixi

リンク

4dk - コミュニティ・ブックマーク

みんなの気になる話題 - なるぱらテレビ (1人 ) 皆さんが気になった話題を投稿していただくグループです。登録された中からなるぱらテレビで紹介させていただきます。気になる話題には面倒なのでタグを設定していただなくても大丈夫ですが、楽曲紹介はタグに「一曲」を入れていただければと思います。

rin1024 2009/06/04

グループ内でブクマ共有

リンク

第２回SBM研究会プレゼン資料

開催概要： ■開催日　2008年12月6日（土） ■講演時間　10:00〜17：40 ■場所 IIJ 本社講演資料 ☆慶応大　上野さん「ソーシャルブックマークデータの時間情報を使った情報フィルタリングと検索」 ☆SBM事務局長　西谷「ＳＢＭコメント機能によるコミュニケーション形態の考察」 ☆IIJ-II 藤田さん「KikkerのMap/Reduce化」 ☆株式会社ライブドア　井原さん「事業者から見たSBM」各種プレゼン資料置き場に戻る

rin1024 2009/06/04

SBM研究会

リンク

SBM研究会プレゼン資料

開催概要： ■開催日　2008年7月12日（土） ■講演時間　10:00〜17：30 ■場所東工大大岡山キャンパス ■スケジュール、講演概要： http://toremoro.tea-nifty.com/tomos_hotline/2008/06/sbm_0921.html 講演資料 ☆学びing株式会社　企画営業部　課長　メディアプランナー　横田真俊「ソーシャルメディアとマーケティング」(7/14修正版アップ） ☆東京工業大学大学院理工学研究科集積システム専攻　助教　博士(工学) 宮田　高道 ☆東京工業大学大学院理工学研究科集積システム専攻　博士課程　佐々木祥「SBMデータを用いたwebコンテンツ推薦」(7/23修正版アップ） ☆フランステレコム株式会社 (France Telecom R&D Tokyo)　早稲田大学大学院理工学研究科情報・ネットワー

rin1024 2009/06/04

SBM研究会

リンク

SBMデータを用いたwebコンテンツ推薦: SBM-miyata080723.pdf

SBMデータを用いたwebコンテンツ推薦東京工業大学宮田高道 / 佐々木祥佐々木 SBM研究会宮田高道/佐々木祥 0 Agenda Aパート：SBMと研究（宮田） SBM研究の着眼点と目的 SBMデータを用いた推薦 Bパート：Anti-FolksonomyアプローチにもとづくSBMデータからのWeb推薦（佐々木） SBM研究会宮田高道/佐々木祥 1 SBMと研究 SBM SBMとは何か？ URLに対してタグやコメントをつけられるもの日本の「はてなブックマーク」では… コメントを受け付けないブログにもコメント可能コメント欄での議論など，コミュニケーションツールの側面一方，多くのSBM関係の研究ではタグとコンテンツ，ユーザの関係に着目コメントを分析/利用する研究は少ないなぜタグが重視されるのか？ SBM研究会宮田高道/佐々木祥

rin1024 2009/06/04

anti-folksonomy!

SBM研究会

リンク

ヒエラルキーVSタギング　と　タグの機能分類 - Gohongi Lab.

The Structure of Collaborative Tagging Systems Scott A. Golder and Bernardo A.Huberman @HP Lab フォークソノミーに関する重要論文解読の第2弾。前回のHT06, tagging paper, taxonomy, Flickr, academic article, to readの中で、「数少ないフォークソノミーを取り扱った論文」として何度も引用されている。 2005年の論文ということもあり、前半部分はフォークソノミーに関する基本的説明をしている。これはこれで、学術的に整理するためのお手本であり、かなり有用。第2章で、タイトルがStructure=構造なので、タグ付けによる意味分類の構造を説明している。タギング最大の効用（でもあり、これが弱点という指摘も多いのだが、、、）であるヒエラルキーがない分

rin1024 2009/06/04

リンク

The Structure of Collaborative Tagging Systems

Grab your spot! Want to support truly open science and create access to research, regardless of disability? Sign up for the arXiv Accessibility Forum in September and Learn more.

rin1024 2009/06/04

"数少ないフォークソノミーを取り扱った論文"

リンク

CiteULike: HT06, Tagging Paper, Taxonomy, Flickr, Academic Article, to Read

rin1024 2009/06/04

"Flickrを対象に利用者とタグの関係を調査。また，タグ付け行為のインセンティブに関する考察もあり。 "

リンク

インターフェイスの街角(93) – 本棚演算(協調フィルタリング)

� � � � 2005 10 30 (93) – ` ` (Collaborative Filter- ing) ´ ´ blog GroupLens Net- News GroupLens [1] GroupLens 6 4 1 Ken Lee Meg Nan 1 1 4 2 2 2 5 2 4 4 3 3 4 2 5 5 5 4 1 1 6 ? 2 5 ? 1 5 2 Ken 5 Lee 2 2 Ken Lee 1 2 4 5 Ken (1, 5, 2, 4) Lee (4, 2, 5, 1) rKL σK , σL K, L Cov(K, L) Ken K = 3 Lee L = 3 rKL = Cov(K, L) σK σL = � i (Ki − K)(Li − L) �� i (Ki − K)2 �� i (Li − L)2 = −2 − 2 − 2 − 2 √ 10 √ 1

rin1024 2009/06/04

協調フィルタリング関係

recommend

リンク

ＪＲ東日本：ネットｄｅ定期

通勤、通学定期券、FREX、FREXパルの申込、申込内容の確認・変更が行えます。

rin1024 2009/06/04

通勤費計算

lifehack

リンク

テキスト解析:キーフレーズ抽出API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

rin1024 2009/06/04

面白い

api

リンク

Research Topics - Toshihiro Kamishima

Fairness-Aware Data Mining I am currently working on this research topic. The goal of fairness-aware data mining is to analyze data while taking into account potential issues of fairness, discrimination, neutrality, and/or independence. Studies related to fairness-aware data mining are summarized in the page: Fairness-Aware Data Mining Learning for Rankings / Orders The term order as a sequence of

rin1024 2009/06/04

リンク

pLSI を用いた文書クラスタリングにおける初期値設定手法発表者：阿部竜之介指導教官：新納浩幸 1. はじめに文書クラスタリングとは、文書集合をトピックの類似性にもとづいてグルー�

rin1024 2009/06/04

pLSI を用いた文書クラスタリングにおける初期値設定手法

リンク

untitled

rin1024 2009/06/04

半教師つきの次元削減の手法

リンク

次元削減とクラスタリングに基づくフィルタリングによる画像検索の高速化 | CiNii Research

rin1024 2009/06/04

リンク

Netflix Update: Try This at Home

[Followup to this] Ok, so here's where I tell all about how I (now we) got to be tied for third place on the netflix prize. And I don't mean a sordid tale of computing in the jungle, but rather the actual math and methods. So yes, after reading this post, you too should be able to rank in the top ten or so. Ur... yesterday's top ten anyway. My first disclaimer is that our last submission which tie