タグ

2010年3月16日のブックマーク (11件)

  • 文書クラスタリングの基礎

    文書クラスタリングの基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report No. 20070913004 2007年 4月 24日 Abstract 文書クラスタリングでは,文書の定義,クラスタリングに用いる類似度の定義,クラスタリング手法などに特徴的な点がある.そこで報告ではそれらをまとめ,文書クラスタリングに対する理解を深める. 1  はじめに 知的システムデザイン研究室では,ISDLレポートと呼ばれる研究報告を現在までに1300以上Web上に公開している.多くのレポートが存在するが,レポートの分類は行われていないため,クラスタリングにより自動的にレポートのグループ化を行うことを目指している.しかしISDLレポートのような文書に対するクラスタリングではいくつか特徴的な事項があり,それらを考慮する必要がある.そこで報告では文書クラスタリングに関する特徴点をまと

  • バッチ処理 - Wikipedia

    バッチ処理(バッチしょり、Batch processing)はバッチ単位でおこなわれる処理である。特に以下の2つの意味で用いられる。 コンピュータでひとまとまりのデータを一括して処理する方式。項で詳述する。 ひとつの設備である程度まとまった時間、または単位操作ごとに処理を区切り、原材料をこの区切りごとにまとめて投入する処理のこと。回分処理(かいぶんしょり)も同義。発酵工程やバッチ殺菌などは典型的なバッチ処理である。反対語は逐次処理または連続処理。 データ処理におけるバッチ処理(バッチしょり)は、ひとまとまりのデータを一括して処理する方式である[1]。逐次生み出されるデータを一定期間・一定量集めたものをバッチといい、このバッチ単位で処理をおこなう方式がバッチ処理である。 比較される方式として、逐次生み出されるデータをストリームとして捉え到着したデータを順次扱うストリーム処理がある[2][3

  • [自己組織化写像] - Wikipedia

    自己組織化写像(じこそしきかしゃぞう、英: Self-organizing maps, SOM, Self-organizing feature maps, SOFM)はニューラルネットワークの一種であり、大脳皮質の視覚野をモデル化したものである。自己組織化写像はコホネンによって提案されたモデルであり、教師なし学習によって入力データを任意の次元へ写像することができる。主に1~3次元への写像に用いられ、多次元のデータの可視化が可能である。出力となる空間をマップ (map)、競合層 (competitive layer)、もしくは出力層 (output layer) と呼ぶ。出力層に対して入力データの空間を入力層(input layer)と呼ぶこともある。自己組織化写像はコホネンマップ (Kohonen map)、コホネンネットワーク (Kohonen network)、自己組織化マップ、ソム

    [自己組織化写像] - Wikipedia
  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

  • CoolCoding.com is for sale | HugeDomains

    Working with hugedomains.com was a quick and easy process. We got to speak to multiple real people located in Colorado without having to wait on hold! Our only complaint was we felt we had to overpay more than this particular domain was worth, and we weren't able to negotiate it down to a level that we felt was fair. However, payment and delivery were seamless, and within a few hours we had all of

    CoolCoding.com is for sale | HugeDomains
  • リレーショナルデータベースとは - IT用語辞典

    概要 リレーショナルデータベース(relational database)とは、データベースの構造の一つで、一件のデータを複数の属性の値の組として表現し、組を列挙することでデータを格納していく方式。属性を列、組を行とする表(テーブル)の形で示されることが多い。最も普及している方式で、単にデータベースといった場合はリレーショナルデータベースであることが多い。 リレーショナルデータモデル(関係データモデル)と呼ばれる数学的なモデルに基づいてデータを秩序立てて格納したデータ集合である。一件の登録単位は複数の属性(attribute)の組(tuple)で、同じ属性を持つ組を何件も集めたデータの集合体をリレーション(関係)という。 これは実際には縦横に項目が並んだ表(テーブル)の形で整理される。リレーションが表に相当し、属性を縦方向に並んだ列(column)、組を横方向に並んだ行(row)として表す

    リレーショナルデータベースとは - IT用語辞典
    kyuu3908
    kyuu3908 2010/03/16
  • http://fatw.sklave.jp/sigwi2/

    kyuu3908
    kyuu3908 2010/03/16
  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究

  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • となりったー Tonaritter - Twitterの発言を分析して嗜好が近い人をお勧め

    あなたのお隣Twitter-erを見つけます。あなたの「おとなりついったらー」を見つけるサービスです。 (何かしらの共通点がある人、嗜好の近い人などです) 右上の検索窓にTwitter IDを入力するだけで以下のように分析結果が表示されます。