タグ

NLPとminingに関するYasSoのブックマーク (9)

  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
  • [O] Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文

    Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文 Tweet [日記] なんかあんまり日語の言及が無いですけど、「Opinion mining and sentiment analysis」というサーベイ論文が書籍化されていて、おまけにその内容が無料で閲覧できるようになっています。 - Opinion mining and sentiment analysis (survey) -- http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html Bo Pang and Lillian Lee Foundations and Trends in Information Retrieval 2(1-2), pp. 1–1

  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

  • 統計的にテキスト解析 (Ⅰ)(Ⅱ) - コーパスいぢり

    金明哲先生がご自身の"Jin's Page"で公開されているESTRELAのPDFですが、現在は「統計的にテキスト解析」というシリーズが刊行中です。現在は(Ⅰ)と(Ⅱ)がアップされていて、前者は計量文献学・コーパス言語学・テキストマイニングについての基礎知識で、後者は正規表現などを使ったテキスト処理入門。 あくまで初心者向けの記事ですが、それだけに自分の論文の冒頭部などで言及するのに便利かも。何と言っても、オンラインで無償公開されていることに大きな意味がある。(Ⅲ)の公開が非常に楽しみ。 ・統計的にテキスト解析 (Ⅰ) → http://www1.doshisha.ac.jp/~mjin/R/200803_56.pdf ・統計的にテキスト解析 (Ⅱ) → http://www1.doshisha.ac.jp/~mjin/R/200804_57.pdf

  • Perlで入門テキストマイニング » SlideShare (share powerpoint...

    2. テキストマイニング(1) 評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○? • クラスタリング。グルーピング。 •

    Perlで入門テキストマイニング » SlideShare (share powerpoint...
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • [を] テキストマイニングを使う技術/作る技術

    テキストマイニングを使う技術/作る技術 2006-12-28-3 [書評・感想] テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。 全編具体的で分かりやすい。 ■那須川哲哉 / テキストマイニングを使う技術/作る技術 ―基礎技術と適用事例から導く質と活用法 テキストマイニングというと、ブログや掲示板での特定の何かの評判情報 検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって 来ている。 このはテキストマイニングを支える技術、事例紹介、技術以外の側面 (運用など)はもちろん、「テキストマイニングとは何か」ということ についても初心者にも分かりやすいよう、かなり丁寧に解説されている。 一番重要なポイントが最初の方で述べられてる。これ、大切。 [...]テキストマイニングというものは、あくまで人間が膨大な文書データ を有効活用するた

  • KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア

    概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチュートリアル ヘルプ 質問&エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要(無料)[旧掲示板] よくある質問(FAQ) 開発者が語る公式セミナー & サポート:㈱SCREEN A

    YasSo
    YasSo 2006/12/05
    「KH Coderとは、内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアです」
  • Polaris -

    Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは,外界で観測された現象をキーワード(シンボル)や数値に変換し,そのデータをコンピュータに与えます.コンピュータは,与えられたデータがどのような性質を持つのか計算し,データの中に埋もれている特徴的な事象を見出します.あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが,そういう訳ではありません. 現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません.例えば,「顔が白い」というパターンがマイニングで得られたとき,「顔」「白色」の

  • 1