タグ

2010年1月8日のブックマーク (10件)

  • 類似度と距離 - CatTail Wiki*

    2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0  ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x

    類似度と距離 - CatTail Wiki*
  • [メモ] サポートベクターマシン(SVM) - 机上の空論

    サポートベクターマシン(以下 SVM) とは ・ニューラルネットワークの一種 ・教師ありクラスタリング SVM の基的な考え方 ・元々2クラスの線形分離手法として提案される ・単層パーセプトロンに似ているが、SVM はマージン最大化という手法をとっているのがポイント。 ・マージン最大化とは、超平面と学習データの隙間となるマージンをなるべく大きく取ろうというもの。 (ここでいう超平面とは、2つのクラスにぶった切る平面のこと) ・ちなみに超平面と、ちょうどマージンの分だけ離れている学習データをサポートベクトルという。 ・このマージン最大化という考えを取り入れることによって、テストデータの識別精度を高めている。 SVM の発展 ・線形分離不可能な問題への対応 - ソフトマージン(学習データが多少マージンにくい込んだり、反するクラスの空間にくい込んだりしても許す)で対応

  • Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)

    Latent Semantic Analysis (LSA) 目次 背景 課題の流れ 背景 近年、情報検索が非常に重要となる一方で、その検索手法は未だにキーワード入力によるものが事実上標準となっています。しかし単語には同義語や、多義語が存在するために目的とする結果がなかなか得られない場合があります。例えば、木を用いたデータ構造を検索しようとして、treeと入力しただけでは目的のものが得られず、tree data structureでようやく狙った検索結果が上位に来ます(多義語の例)。 全ての単語に対し、どの単語同士が似た意味を持っているのか、または持っていないのかを調べることで、より柔軟性をもった情報検索ができる可能性があります(例えば、キーワードに「東大」としか入力していないのに検索結果では「東京大学」「最高学府」「University of Tokyo」が含まれる文書も検索できる)。

  • 文書クラスタリングの技法ゼミ

    III. 文書クラスタリングの技法 A. 単一パスアルゴリズム 1. k-means 法の適用 2. Willett のアルゴリズム 3. 平均クラスタリング・アルゴリズム

  • Introduction to Information Retrieval #16 の復習資料 - naoyaのはてなダイアリー

    しばらく間が空いてしまいました。Introduction to Information Retrieval 輪読会 16章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_16.ppt 16章のテーマは、"Flat Clustering" で話題はクラス分類からクラスタリングへと移ります。16章ではクラスタとクラスタの間に関係性がないフラットクラスタリングを扱い、続く 17章ではクラスタ間に階層的構造を見出す階層型クラスタリング (Hierachical clustering) を扱います。 クラスタリング 13章から15章までは Naive Bayes や SVM などによる "Classification" が話の主題でした。クラスタリングも同様に情報のグルーピングを行うものですが、Classification

    Introduction to Information Retrieval #16 の復習資料 - naoyaのはてなダイアリー
  • Tsujii Lab. Enshu3 -- Document Clustering

    背景 ウェブやメールのような大量の生テキストが与えられたとき、 分類 を行ってデータの見通しをよくしたい、ということはよくあります。 自動的な文書の分類を行う際、とりえる手段は教師あり学習と教師なし学習に分かれます。 教師なし学習を用いる利点は、人的なコストをあまりかけずに良い分類器を作れる可能性があることです。 教師あり学習では、比較的少ない数(たとえば数百)の文書に対して事前に分類ラベルを振っておき、それに対して機械学習の手法を適用し、 その学習結果を使ってそれ以外の大量(たとえば数万、数百万)の文書を分類しようとします。教師あり学習は多くの言語処理タスクで成功していますが、事前にラベルを振るために必要な人的コストが大きいという問題があります。 一方、教師なし学習では、事前に分類ラベルを振ったデータセットを作ることはしません。 教師なし学習の一種である文書クラスタリングの場合は、データ

  • テキスト・マイニング

    20 テキスト・マイニング この章では、Oracle Data Miningを使用してテキストをマイニングする方法について説明します。 この章では、次の項目について説明します。 非構造化データとは Oracle Data Miningでの非構造化データのサポート方法 マイニング用のテキストの準備 テキスト・マイニング問題の例 Oracle Data MiningとOracle Text 非構造化データとは データ・マイニング・アルゴリズムは、リレーショナル・データベースやスプレッドシートに保存された量的データおよび質的データに作用します。量的データにはINTEGER、DECIMAL、FLOATなどの型があり、質的データにはCHARやVARCHAR2などの型があります。 量的データでも質的データでもないデータ項目をマイニングする場合を考えます。Webページ、ドキュメント・ライブラリ、Powe

  • 似顔絵イラストメーカー | フリーで名刺や年賀状に使える無料素材

    作り方 パーツボタンをタップして、該当パーツ一覧を表示します。 使いたいパーツをタップすると、左上の画像に反映されます。 ダウンロードボタンをタップし、画像を保存してください。 ブログやSNSで使用する場合 制限は商用も含めて特にありませんが、よかったらお友達にこのサービスを紹介してくれるとうれしいです。 ご自身が運営するコミュニティサイトなどで使用する場合 ユーザーが画像をアップロードするフォームなどから「ここで似顔絵が作成できますよ」的にリンクしていただければOKです。 名刺などの印刷物に使用する場合 できれば、似顔絵は「似顔絵イラストメーカー」で制作しました。 と明記してください。商用印刷物にもご利用いただけます。 パーツだけを素材として使っていいですか? パーツの単体使用は許可しておりません。 各パーツは単体で素材として配布しているわけではありませんので、単体のご使用はご遠慮くださ

    似顔絵イラストメーカー | フリーで名刺や年賀状に使える無料素材
  • この国の製造業で起きつつある「日本仕様」の放棄という激流 - 木走日記

    5日付け東京新聞コラム「筆洗」から。 筆洗 2010年1月5日 「一人勝ち」という言葉は、この企業のためにあるように思える。不況の中で、好調を維持するカジュアル衣料品の「ユニクロ」だ。価格だけではなく、品質の良さとファッション性とのバランスが取れているのが、消費者には魅力なのだろう▼ユニクロを展開するファーストリテイリングの柳井正社長は著書で「当は大した成功でもないのに、自分が相当大きなことをやり遂げたような錯覚をしている」と「成功」を取り違えている経営者が多いと指摘した(『成功は一日で捨て去れ』)▼そんな錯覚を生むなら、成功という名の失敗であると柳井社長はいう。「ちょっとした成功なら、すぐに捨て去るぐらいの強い意志が必要だ」と安定志向を戒める厳しさが強さの秘密なのだろう▼鳩山由紀夫首相はきのう、年頭の記者会見で「景気が二番底になってはいけない」と強調した。経済の先行きが見通せない不安な

    この国の製造業で起きつつある「日本仕様」の放棄という激流 - 木走日記
  • コンセンサス型企業の終焉* : 池田信夫 blog

    2010年01月07日09:32 カテゴリ経済テクニカル コンセンサス型企業の終焉* きのうの記事には意外に大きな反響があり、いろいろなコメントやTBもついたが、すべてに答えることはできないので、MITの大学院生からの「会社は当に株主のものか?」というTBに簡単にお答えしておこう。 きのうも書いたように、株式会社が株主のものであることは法的には自明である。しかし企業を公開会社にしなければいけないという法律はないのだから、「株主至上主義」がいやな経営者は、MBOで閉鎖会社にすればよい。現にアメリカでは公開会社の「閉鎖化」が進行している・・・というのが彼女への短い答である。 少しテクニカルな話を補足すると、学問的には株式会社より効率的なガバナンスがあるかどうかについては長い論争がある。特に日企業のパフォーマンスが高まった80年代には、マイケル・ポーターなどが「長期的視野」で経営できる日

    コンセンサス型企業の終焉* : 池田信夫 blog