東日本と西日本の境界線を機械学習で引いてみました. セキュリティ分野の M1 が機械学習をお勉強する際に,モチベ維持のため面白そうなテーマを選んだらこうなった!というもの. なので本体の論文とか,学術的貢献とかはないです...が,そういった視点から見ていただけるのはとても嬉しいです! 市町村単位,藩単位など,県境以外で境界線を引けないか?というコメントを多くいただいていますので,今後そういった方面への掘り下げもやっていきたいです.
ディープラーニングは、人間の脳の中のAI分野の若手経営者も注目するニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能が急に進化し始めたことで注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、リクルートがAI研究所を開設するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向をつかみ、文書を幾つかのカテゴリーに自動分類する手法だ。このトピックモデリングも、近年急速に進歩してきているといわれる。トピックモデリングとはどんな技術なのか。最近ではどのような研究が最先端なのか。第一人者のコロンビア
なぜか唐突にブログを同時更新使用みたいな話が決まってしまったので、無理矢理エントリを書いています。 自然言語処理のトピックモデルの一つの手法であるLDAを使ってみました。 LDAについては以下のスライドが詳しいので、参照ください。 LDA入門 一部引用すると ・白鵬が単独首位 琴欧洲敗れる ・人は上の文を見て相撲に関係する文であることを理解できる 文中に相撲という単語は出てこないにもかかわらず ・単語は独立に存在しているのではなく、潜在的なトピックを持つ単語は同じ文章に出現しやすい といったモデルです。 ギブスサンプリング*1によるLDAをC++で実装したソフトが公開されています*2。Pythonによる実装*3もいくつかありましたが、今回は研究室の人が利用しているこちらを。 GibbsLDA++: A C/C++ Implementation of Latent Dirichlet All
Latent Dirichlet allocationの実装を色々試してみた.自分でも実装したことある気がするけど.比較はまた後でやるとして使い方だけメモ.詳細は各リンク先で… Latent Dirichlet Allocation in C GibbsLDA++ A C C++ Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference plda - A parallel C++ implementation of fast Gibbs sampling of Latent Dirichlet Allocation - Google Project Hosting 1. Latent Dirichlet Allocation
※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く