タグ

データマイニングに関するcolonoeのブックマーク (7)

  • ツイッター世論、憲法・外交に関心 盛り上がり重視 - 日本経済新聞

    ネットと一般の世論は違うとよく言われる。両者の差が現れた興味深い事例が7月の参議院議員選挙だった。参院選を巡って投稿されたツイッター上の意見をデータマイニング大手のデータセクション(東京・渋谷)が分析した「ネット世論」と、日経済新聞が7月に実施した世論調査を比較すると大きな違いがあった。ネット世論は景気や社会保障、税への関心が著しく低かった一方、憲法や原子力、外交・防衛という賛否両論がはっきり

    ツイッター世論、憲法・外交に関心 盛り上がり重視 - 日本経済新聞
    colonoe
    colonoe 2013/08/18
    どれだけ話題になったか調べた結果なんだから、盛り上がるテーマが多くなるのは当然。「ネット世論」なんて言葉を使うのがおかしい。
  • Orange Data Mining

    Data Mining Fruitful and FunOpen source machine learning and data visualization. Download Orange 3.36.2 Apr 15, 2024 So Sweet and So Fresh … New Text Mining Tutorial is OutA step-by-step guide on how to build a classifier to predict food types. Getting the know the widgets Test and Score, Logistic Regression, Confusion Matrix, Predictions. Jan 11, 2024 Scoring Sheets: Transform Data into Insightfu

  • 自己組織化マップ・チュートリアル | Mindware Research Institute

    Kohonenの自己組織化マップ(SOM: Self-Organizing Maps)は、標準的なデータサイエンス手法の1つとしてよく知られております。ただし、ここで述べるSOMテクノロジーの効用を発揮するには、高度なソフトウェアの実装が必要となります。Viscovery Software GmbH(社・ウィーン)は1990年代から世界に先駆けて、実用的なSOMテクノロジーを開発し、日では2000年からマインドウエア総研が提供しております。一般的な教科書や解説書に記述されているSOMでは、ここに述べるような実用性は実現できませんので、その点をご了承ください。 大規模データの分布のトポロジーを保持しながら、 コンパクトに圧縮した要約版を作成し、 素早く類似データを照合するインタフェースとして動作し、 データ分析やモデリング、モデルの実行を拡張・統合・支援する。 というもので、これを単体で

    自己組織化マップ・チュートリアル | Mindware Research Institute
  • R による統計処理

    「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ

  • RjpWiki - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですRjpWiki はオープンソースの統計解析システム 《R》 に関する情報交換を目的とした Wiki です † どなたでも自由にページを追加・編集できます. (初めて投稿・既存記事への追加・修正を行なう方はこのページ末の注意*1を御覧下さい) ページへのファイル添付については、画像ファイルのみパスワードなしで可能としてあります(ページ上部「画像添付」より)。その他のファイルの添付はパスワードを入力することで可能です(ページ上部「ファイル添付」より)。現在のパスワードは, Rでの round(qt(0.2,df=8),3) の実行結果です。 スパム書き込みに対処するため、書き込み系の処理に対してパスワードを設けました。ユーザ名の欄には,Rで round(qt(0.2,df=8),3) を実行

  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • 芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary

    ちょっとした実験をしてみました。芸能人の相関関係を機械的に探索してみます。 具体的には「○○というタレントと関係が深い芸能人は?」といった、芸能人にフォーカスした類似検索みたいな実験です。 技術的には「潜在的意味インデキシング」(Latent Semantic Indexing)といった手法を使います。 これは普通は自然言語処理の世界で使われるテクニックですが、なにも言語だけでなく他のデータ素材でも面白い結果が得られるかもしれないので、やってみようという試みです。 以下に大まかな手順をまとめます。 wikipedia から有名人のリストを抽出 それらの有名人リストについて、一人ずつ「誰と関連が深いか」を集計。具体的には有名人個々のwikipediaのページ中に、先ほど抽出しておいた人名リストとマッチする人名がどれだけ掲載されているかをピックアップしていきます。 上記の方法で有名人の間の相関

    芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary
    colonoe
    colonoe 2009/05/22
    技術的には「潜在的意味インデキシング」(Latent Semantic Indexing)といった手法を使います
  • 1