タグ

テキストマイニングに関するadmaniax13のブックマーク (5)

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    admaniax13
    admaniax13 2012/08/29
    「Hadoop」の取っ掛かり用として。
  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • コピー&ペーストのみで始める テキストマイニング超入門

    Nicoteki_1 - Presentation Transcript コピー&ペーストのみで始める テキストマイニング超入門 @langstat 第1回 にこにこテキストマイニング勉強会 於 Oracle青山センター 2011年2月19日(土) 1 自己紹介• 小林 雄一郎 (こばやし ゆういちろう) – 大阪大学言語文化研究科/日学術振興会 – 関心領域(「専門領域」ではない): コーパス言語学・統計的テキストマイニング 2 78/5 1/3 5/0 0/7 SN SNN SN SNN3 3/0 4/58 SN SNN997.5=>DEH 997.5 <DEH 76.21 <MES 76.21=>MES 31.22 <OOB 31.22=>OOB 345.4 <MRF 345.4=>MRF 56.83 <MES 56.83=>MES – 様々な母語を持つ学習者のクラスタリング et

  • 自由回答データを定量的な切り口で分析するには? ― @IT情報マネジメント

    Webなどを通じて、顧客や利用者の意見を集めることが簡単にできるようになってきた。しかし、非定型の自由回答データは非常に有意義な意見を得ることができる反面、分析するのに手間が掛かる。手軽に定量分析する方法はないだろうか? Webや電子メール、ケータイの普及で、幅広くさまざまな意見を募ることが安上がりにできるようになってきました。最近ではブログやSNSなどのCGMと呼ばれる口コミ系メディアも花盛りです。 Webアンケートも広く行われていますが、アンケートの回答は「出題側の仮説に影響される」という制約があり、“意外な発見”にはなかなか結び付きません。 一方、メールなどで寄せられる自由回答や意見・要望はそうした制約もなく、何かビジネスのヒントがありそうですが定量的な分析ができないという弱みがあります。せいぜい分析者が文章を読んで主観的に解釈するぐらいにしか活用していないのではないでしょうか? あ

  • TTC: TinyTweetCrawler β version

    OAuth認証の設定 Twitter API 1.1からOAuth認証が必要になったので、Twitter Application Managementからアプリを登録して、「Access token」「Access token secret」「Consumer key」「Consumer secret」を取得してください。 コードを取得したら、 以下のように4つのコード(このコードはダミーです)を記載したファイル(ファイル名は key_token.yml)を作成し、TTCと同じ場所に置いてください。 CONSUMER_KEY : anRCxaTNt096NLYyO***** CONSUMER_SECRET : KoNovQcsVdtmB5b6G17ldMUyNfA1ih8MfAy***** ACCESS_TOKEN : 4972441-VP75borAnbkb0p1CqrKOqxU7296

    admaniax13
    admaniax13 2012/02/02
    特定サービスのつぶやきを収集してテキストマイニングとかやってみたいなー。と思ったら良さげなもの発見。
  • 1