タグ

programmingとデータに関するfukudamasa09のブックマーク (9)

  • ITエンジニアなら知っておきたい、今更聞けないアルゴリズムの種類一覧 - paiza times

    Photo by Oferico 皆さんはアルゴリズムやデータ構造について勉強したことはありますか?そして、基的なアルゴリズムについて、どのようなものがあって、どのようなときに使うとよいかといったことを説明することができますか? 仕事をしていると、プログラミング言語等の勉強や業務に忙しくて、正直アルゴリズムどころではないという場合がほとんどでしょう。しかし、いつか勉強しようと思っていたけど、基的なアルゴリズムにどんなものがあるのかなんて今更聞けないな……ということもあるかと思います。 今回はそんな方に向けて、基的なアルゴリズムの一部の概要に加え、アルゴリズムの勉強に役立つサイト、書籍をご紹介したいと思います。 ■アルゴリズムを学ぶ意味 例えば、ソート等については、通常はすでにソート関数があるので、自分で作らなくても済む=アルゴリズムも勉強しなくていいと思ってしまうかもしれません。しか

    ITエンジニアなら知っておきたい、今更聞けないアルゴリズムの種類一覧 - paiza times
  • 第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

    というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数

  • 第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT

    今ほど統計解析が必要とされる時代はありません。オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しましょう! 読者にとってRは、世に溢れるデータの密林を切り開くための“ブッシュナイフ”となることでしょう(編集部) 統計解析の必要性とリテラシー 21世紀になって、経営学者の故ピーター・ドラッカー氏が言うところの知識労働者は、ますます統計解析を必要する局面が増えてきました。この状況は、20世紀後半から21世紀に起きた計算機能力の増大とインターネットの発展を基礎に、3つの大きな潮流が現れたことがキッカケとなっているように思います。その3つの潮流とは、オープンソース、オープンデータ、そしてオープンアイデアです。後ろの2つは今筆者が名付けました。 オープンソースは、皆さんがご存知のように、Linux、Apache、PerlPythonRubyなどのO

    第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT
  • 木構造 (データ構造) - Wikipedia

    この記事には参考文献や外部リンクの一覧が含まれていますが、脚注による参照が不十分であるため、情報源が依然不明確です。 適切な位置に脚注を追加して、記事の信頼性向上にご協力ください。(2023年1月) 木構造は、一般のグラフ構造と同様の、ノード(節点、頂点)とノード間を結ぶエッジ(枝、辺)あるいはリンクで表すこともできるが、木構造専用の、特に有向の根付き木となるような表現が使われることも多い。 データ構造として使われる木は、ほとんどの場合、根となるノードが決められた根付き木である。さらに、有向木であることも多い。[注 1] ノード間の関係は家系図に見立てた用語で表現される。木構造内の各ノードは、0個以上の子ノード (英: child node) を持ち、子ノードは木構造内では下方に存在する(木構造の成長方向は下とするのが一般的である)。子ノードを持つノードは、子ノードから見れば親ノード (英

    木構造 (データ構造) - Wikipedia
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • Rプログラム (TAKENAKA's Web Page)

    R でプログラミング:データの一括処理とグラフ描き started on 2005-06-06 updated on 2017-09-16 竹中明夫 この文書は,フリーの統計解析・作図システム R を使って, データの一括処理と図化のプログラムを書けるようになるためのチュートリアルです. R の経験がまったくなくても読めるように書いています. ただし統計解析手法そのものについての解説はほとんどしていません. ひとつ覚えた統計解析用の関数を使って、 数十セットのデータを一度に処理しりたいとか、 ついでに自動的に作図してしまいたいとか、 統計解析の前にデータを一通りグラフにして全体像を見たいとか、 解析・作図の手順をプログラムとして書きとめ、 再利用できるようにしたいといった要望に応えるための文書です。 まずは はじめに:この文書のねらい をごらんください。 終りにでも、この文書の守備範囲に触

  • 夏の異常気象をオープン・データで確認

    観測地点を選び、データの属性を選択すれば、ドリルダウン形式で気象データを表示できます。以下では紙幅の都合上、東京だけを考察対象とし、1日24時間の平均気温を取った月別のデータである「観測開始からの月ごとの値」を利用することにしましょう。その条件の日平均気温データは1876年から現在までの値を表示することができます。 ただし、残念なことに、これは気象庁のサイトではHTMLとして表示されているだけで、このままでは再利用が大変です。こういうときは、表計算ソフトを使ってテーブル部分をコピー&ペーストでデータとして再利用できる形にする方法が一番早いと思います。こうした作業には、一番副作用が少ない表計算ソフトである、OpenOfficeの表計算アプリケーションを利用するとうまくいくことが多いです。それでは、表の部分だけを選択し、OpenOfficeの新しいスプレットシートにコピー&ペーストで持っていく

    夏の異常気象をオープン・データで確認
  • No.17 VBAで連想配列 ~ Scripting.Dictionary

    VBAな方には連想配列というのはなじみのない言葉かもしれません。awkにはじまりPerlJava、ノーツ(LotusScript)でもリストとして実装されているものです。通常の配列の場合は数字をインデックスとして値を格納しますが、連想配列の場合は文字列をインデックスとすることができます。箱を配列とすると値は中身、それぞれの箱に名札(ラベル)を付けることができるので値を取り出すときも感覚的にわかりやすいですよね。それ以外にもメリットがあります。通常の配列の場合あらかじめ領域を確保しておく必要がありますが、連想配列の場合は不要で配列が溢れることを気にする必要がないのです。 Perlでの記述例 $Result{'山田太郎'} = 95; $Result{'鈴木次郎'} = 78; $Result{'田中三郎'} = 83; print $Result{'山田太郎'}; Dictionaryオブ

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1