このデータ・ジャーナリズム・ハンドブックは、クリエイティブコモンズ 表示-継承 (CC BY-SA) ライセンスの下で、自由に複製、再配布、再利用できる。作成に貢献した方々はその素晴らしい貢献について著作権を保持する一方、親切にもこのライセンスの下での公開に同意してくれた。
このデータ・ジャーナリズム・ハンドブックは、クリエイティブコモンズ 表示-継承 (CC BY-SA) ライセンスの下で、自由に複製、再配布、再利用できる。作成に貢献した方々はその素晴らしい貢献について著作権を保持する一方、親切にもこのライセンスの下での公開に同意してくれた。
機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村本(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く