タグ

textMiningに関するtsupoのブックマーク (11)

  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
    tsupo
    tsupo 2012/03/08
    Hadoopによって並列分散処理のハードルが下がった / これまであきらめていた大量のデータによる機械学習が現実的な選択肢になる / Mahoutはヒンディー語由来の「象使い」という意味
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    tsupo
    tsupo 2011/06/22
    テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説
  • 「つぶやき」から投稿者のプロフィールを自動推定する技術の開発に成功 - 株式会社KDDI研究所

    「つぶやき」から投稿者のプロフィールを自動推定する技術の開発に成功 〜口コミ投稿者の年齢や性別、趣味などが推定可能に〜 株式会社KDDI研究所(社:埼玉県ふじみ野市、代表取締役所長:秋葉 重幸)は、インターネット上のブログや掲示板に投稿された文書を解析することで、投稿者のプロフィール(年齢、性別、職業、出身、趣味など)を自動推定する技術を開発しました。技術を評判解析技術に適用することで、商品やコンテンツに対して年代や性別などのプロフィールごとに、どのような意見を持っているかが分かるようになり、マーケティングへの応用が可能です。

    tsupo
    tsupo 2010/09/27
    あずにゃん、ぺろぺろ
  • Amazon.co.jp: 人文・社会科学のためのテキストマイニング: 松村真宏, 三浦麻子: 本

    Amazon.co.jp: 人文・社会科学のためのテキストマイニング: 松村真宏, 三浦麻子: 本
    tsupo
    tsupo 2009/04/21
    誠信書房 (2009/4/24) / 160ページ / ISBN-13: 978-4414301717
  • 誠信書房―書籍情報: 人文・社会科学のためのテキストマイニング

    テキストマイニングを、“分かりやすく”、そして“タダ”で、行うことを可能にする一冊。著者が開発したフリーソフト「TinyTextMiner」をはじめとする各種ソフトウェアの活用方から、自然言語処理、統計解析、データマイニングの分野を幅広くカバーした。人文・社会学分野の学部学生、大学院生・研究者の入門書として最適な内容である。 第1章 序 1.1 テキストマイニングがもたらすブレイクスルー 1.2 タダで格的なテキストマイニング 1.3 書の構成 第2章 TTMと関連ソフトウェアのインストール 2.1 テキストマイニングの準備 2.2 TTMのダウンロードとインストール 2.3 TTM関連のツールの準備 2.4 分析用各種ソフトウェアのインストール 第3章 TTMによるテキストデータの分析 3.1 TTMの基的な使い方 3.2 テキストマイニングで知る経済情勢の時

    tsupo
    tsupo 2009/04/21
    テキストマイニングを、“分かりやすく”、そして“タダ”で、行うことを可能にする一冊 / 自然言語処理、統計解析、データマイニングの分野を幅広くカバー / TinyTextMiner
  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

    tsupo
    tsupo 2007/11/29
    Web ページには(略)、とにかく本文以外の「ゴミ」がわんさかついているので、本文を抽出するというより「いかにゴミを取り除くか」に注力しています / セクションターゲット対応重要 ← お金の力は偉大
  • 位置表現特定API (プロジェクト:位置情報)

    JSON(callbackを指定した場合はJSONP)形式による連想配列(Content-type: application/json; charset=utf-8) { "result_select":[ //絞り込み結果 //クラスタ(緯度経度情報の配列)の配列 [ // クラスタ1 // 緯度経度情報の配列 {"text":"住所文字列", "lat":経度1(世界測地系・小数点表記: (例)135.527859)", "lng":緯度1(世界測地系・小数点表記: (例)34.685452)", "type": "address" または "spot", "weight": 重要度}, : ], [ //クラスタ2 ], [],... ], } text として「東京から名古屋駅を通過して大阪駅に行きました。大阪市中央区町に到着しました」を指定した場合。 { result_s

    tsupo
    tsupo 2007/11/29
    住所文字列(位置表現)を含むテキストを入力すると、位置表現を抽出してそのテキストの主題位置に絞り込んだ結果をJSON形式で応答するAPI
  • 「サービスは半日で完成させる」—— SETAKE・たつをさん

    「有名人身長推定サイト SETAKE」「EREK」などのサービスを作ったたつをさんはドメイン取得からサービスリリースまでは半日でこなすという。飲み会で生まれたアイデアをもとにサービスを開発することもあるため、ペンはどこにでも持ち歩く工夫をしている。 「ひとりで作るネットサービス」第11回目は、Web APIを活用して次々と小粋なサービスを開発するたつをさん(35)にお話をうかがった。「ドメイン登録からサービスリリースまで半日が目安」と言い切る彼は、どのように企画・開発・運用を行っているのか。その秘訣に迫った。 飲み会の会話から「有名人身長推定サイト」が生まれた 「作ったものはたくさんの人に使ってもらいたいですよ。エンジニアですから」と話すたつをさん。彼が作るサービスはWeb APIを使ったシンプルなものが多い。ちょっとしたアイデアが、情報の見せ方を工夫することで“意外と便利”なサービスにな

    「サービスは半日で完成させる」—— SETAKE・たつをさん
    tsupo
    tsupo 2007/06/11
    [を]の人 // 試してみるとすぐ分かるので、くだらないアイデアでもまず試す / 基本的にシンプルなサービスしか作らない / ブログ検索で、自分が作ったサービスの評判をチェック
  • ニュースリリース | ブログ等のユーザー発信型コンテンツを利用した日常メディア&マーケティング開発企業「株式会社ブログウォッチャー」設立のお知らせ ― RECRUIT

    ブログ等のユーザー発信型コンテンツを利用した日常メディア&マーケティング開発企業「株式会社ブログウォッチャー」設立のお知らせ 株式会社リクルート(社:東京都中央区、代表取締役社長 兼 CEO:柏木斉、以下「リクルート」)は、ブログ等のUGC(ユーザー発信型コンテンツ)を利用した日常メディア&マーケティングの開発、推進を目的に、「株式会社ブログウォッチャー」を設立することを決定いたしましたので、下記の通りお知らせいたします。 記 ■ 新会社設立の目的 リクルートは現在、情報誌から店舗型の相談カウンターまで、さまざまな形でB2C情報サービスを展開していますが、この数年大きなメディアへと育った、インターネットにおいては新しい技術、新しいサービスが次々と生まれています。 当社が企業理念に掲げる“新しい情報価値の創造を通じた自由で生き生きとした人間社会の実現”を目指していく上で、インタ

    tsupo
    tsupo 2007/04/03
    ネット上に存在するユーザーが発信するコンテンツを、東京工業大学の奥村学研究室のテキストマイニング技術とリクルートの編集ノウハウを用いてユーザーの声で作られた雑誌感覚のサイトを提供
  • [を] テキストマイニングを使う技術/作る技術

    テキストマイニングを使う技術/作る技術 2006-12-28-3 [書評・感想] テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。 全編具体的で分かりやすい。 ■那須川哲哉 / テキストマイニングを使う技術/作る技術 ―基礎技術と適用事例から導く質と活用法 テキストマイニングというと、ブログや掲示板での特定の何かの評判情報 検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって 来ている。 このはテキストマイニングを支える技術、事例紹介、技術以外の側面 (運用など)はもちろん、「テキストマイニングとは何か」ということ についても初心者にも分かりやすいよう、かなり丁寧に解説されている。 一番重要なポイントが最初の方で述べられてる。これ、大切。 [...]テキストマイニングというものは、あくまで人間が膨大な文書データ を有効活用するた

    tsupo
    tsupo 2006/12/29
    あくまで人間が膨大な文書データを有効活用するためのツールであり、データ内容を解釈して判断を下すのは人間 / 分析目的をしっかり設定しないと役に立つものは得られない
  • [ThinkIT] 第3回:テキストマイニング技術の全貌 (3/3)

    これまでの処理の結果を元にして、トピックス別の集計が可能になる。その結果、「どんなトピックスが何人から寄せられているのか」「全体のどのくらいの割合を示しているのか」を瞬時に把握することができる。 TRUE TELLERでは、単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰することができる。

    tsupo
    tsupo 2006/12/25
    TRUE TELLER / 単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰する / 文章は形態素解析、同義語の統一、統計処理を経て分析が可能になる
  • 1