タグ

テキストマイニングに関するItisangoのブックマーク (3)

  • 機械学習手法を用いてブログの文章を分析・可視化(テキストマイニング) - karaage. [からあげ]

    自分のブログのテキストを分析・可視化してみたい 以前自分のブログの分析を「内部リンク」や「はてブ情報」の観点で行ってみました。 ただ、目的無く分析してしまったので、結局イマイチどう活用してよいかよく分からない結果しか得られませんでした。 そんな前回の反省を全く活かすことなく、また何の目的もなくブログを分析してみることにしました。今回は以前から興味のあった機械学習を用いたブログの文章の分析・可視化(テキストマイニングと呼ばれるらしいです)にチャレンジしてみることにしました。どちらかというとテキストマイニングが主で、使用する素材(学習データ)に困ったので仕方なく自分のブログを使ってみたというのが正直なところです。 ネットでコピペすりゃ簡単にできるだろと思っていたのですが、自分のやりたいことするのはそれなりに大変だったので、知見としてやり方とどんなことが分かるのかを残しておきます。 ブログのテキ

    機械学習手法を用いてブログの文章を分析・可視化(テキストマイニング) - karaage. [からあげ]
  • 言語研究者のための統計の学び方―より高度な内容|Colorless Green Ideas

    はじめに 先日、「言語研究者のための統計の学び方―基礎を身につける」という記事で、統計の基礎の学び方を紹介した。そこで紹介したことを学ぶだけでも、結構色々な言語研究ができる。だが、もう少し腰を入れて言語研究をする場合は、統計に関して、より高度な内容を学んでおく必要がある。 今回は、統計の基礎を学び終えた言語研究者が次にどう勉強していけば良いかについて紹介する。 この記事で扱う内容 先日書いた「言語研究者のための統計の学び方―基礎を身につける」という記事では、統計の基礎をどう勉強すれば良いかについて触れた。今回は、より高度な内容を学ぶためにはどうすれば良いかについて紹介したい。図示すると、以下のとおりになるだろう。 言語研究者のための統計の学習順序 上に掲げた図からも分かるように、今回扱う内容は、「コーパス処理向け」・「言語実験向け」・「言語教育向け」の3つに分かれている。このように分けた

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1