[B! テキストマイニング] stick23rdのブックマーク

stick23rd id:stick23rd

テキストマイニングに関するstick23rdのブックマーク (18)

単語重要度入門〜テキストをダイエットさせよう〜
第3回のさくさくテキストマイニング勉強会で発表を行った資料です。 TF*IDFについての解説です。 http://atnd.org/events/15873Lire moins
stick23rd 2011/06/06
テキストマイニング

資料

データマイニング
リンク
第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記
というわけで参加してきました。会場は数理システムさんです。第3回さくさくテキストマイニング勉強会 : ATND 入門セッション（AntiBayesian）第三回さくさくテキストマイニング勉強会　入門セッション View more presentations from AntiBayesian 単語重要度入門〜テキストをダイエットさせよう〜（ toilet_lunch ） TF*IDFの話えっ私のテキストマイニング力低すぎ！？例：大量のアンケートの自由回答文から重要な単語を抜き出す例：エビオス嬢についての文章 TF*IDFとは TF（単語の頻度） * IDF（単語が含まれる文書割合の逆数（の対数））直感的ば解釈：ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表しているなんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数
stick23rd 2011/06/05
テキストマイニング

自然言語処理

まとめ
リンク
単語と文字の話 - Preferred Networks Research & Development
4月からPFIで働いてます。海野です。今日は単語の話をします。読み物的な話なので軽く読んでください。テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが
stick23rd 2011/05/30
テキストマイニング

nlp

形態素解析

解説
リンク
第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記
というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201
stick23rd 2011/02/20
nlp

自然言語処理

機械学習

テキストマイニング

資料

チュートリアル
リンク
atpages.jp - このウェブサイトは販売用です！ - atpages リソースおよび情報
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
stick23rd 2011/02/05
R

nlp

テキストマイニング
リンク
Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N
stick23rd 2010/05/24
hadoop

テキストマイニング
リンク
言語情報処理ポータル
IWSLT 2008 (International Workshop on Spoken Language Translation) (2008/10/20-21, Hawai'i, USA) AMTA 2008 (The 8th Biennial Conference of the Association for Machine Translation in the Americas) (2008/10/21-25, Hawai'i, USA) JEITA 知識情報処理技術に関するシンポジウム「先端Web技術は企業を変えるか」 (2008/10/23, ベルサール神保町, 東京) EM NLP 2008 (Conference on Empirical Methods in Natural Language Processing) (2008/10/25-27, Hawai'i, USA
stick23rd 2009/04/28
NLPのまとめサイト

まとめ

テキストマイニング

自然言語処理

science

nlp
リンク
SBM研究会で発表した"私がチャレンジしたSBMデータマイニング"のスライド - Ryoの開発日記 Neo!
SBM研究会で"私がチャレンジしたSBMデータマイニング"という発表を行いましたが、そのスライドを置いておきます。・[2008/7/21 22:43 version final] ・http://www.slideshare.net/rawwell/sbm-presentation #リンク切れしていたので、どなたかがSlideshareにアップしたものにリンクw Change Logs ・2010/8/23 リンク切れを解決・2008/7/21 22:43 version final　　初版の2倍以上にスライドを増やした。また、"個人による高性能データマイニング"の話を追加した。・2008/7/16 23:45 version 1.1　　TF-IDFの説明が間違っているとの指摘を受け、説明部分を修正・2008/7/12 23:53 version 1　　公開 SBM研究会の体験記
stick23rd 2008/08/20
テキストマイニング

セマンティック

ツール

チュートリアル

まとめ

機械学習

自然言語処理

資料
リンク
専門用語（キーワード）自動抽出サービス「言選Web」
このページでは文章中から専門用語（キーワード）を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです！このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。次のいずれかで専門用語（キーワード）を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定入力ボックス下のチェックボックスから和文、英文を選択。専門用語（キーワード）抽出ボタンをクリックしばらくすると専門用語（キーワード）が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの
stick23rd 2007/11/07
Sierとして、システムを作るときのクラス図の参考に

形態素解析

テキストマイニング

自然言語処理

web
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
stick23rd 2007/10/23
マイニング

まとめ

テキストマイニング

自然言語処理

研究関連

weka
リンク
http://naked-tech.com/miku/index.php?entry=entry070628-001049
stick23rd 2007/09/28
java

テキストマイニング

マイニング
リンク
自然言語処理研究室 - 長岡技術科学大学電気系自然言語処理研究室
ようこそ！長岡技術科学大学電気系自然言語処理研究室へようこそ。本研究室では、自然言語処理とテキストマイニングに関する様々な研究を行っています。最近の研究室国際会議に２件採録されました(9/4) 今年11月にフィリピンのセブ島で開催される自然言語処理に関する国際会議 PACLIC 22に本研究室から２件の論文が採録されましたのでご報告します。 Extracting Troubles from Daily Reports based on Syntactic Pieces [ 国際会議#08PACLIC-kakimoto ] Generating Story Reviews Using Phrases Expressing Emotion [ 国際会議#08PACLIC-ota ] オープンハウスを開催しました(8/25-29) 今年度もオープンハウスを開催して、「人工無
stick23rd 2007/09/27
マイニング

テキストマイニング

困ったとき
リンク
tf-idf - Wikipedia
情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量（数値）である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング（英語版）における重み係数（英語版）にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究
stick23rd 2007/09/27
テキストマイニング

マイニング
リンク
文書クラスタリングの基礎
文書クラスタリングの基礎大西祥代，廣安知之，三木光範 ISDL Report No. 20070913004 2007年 4月 24日 Abstract 文書クラスタリングでは，文書の定義，クラスタリングに用いる類似度の定義，クラスタリング手法などに特徴的な点がある．そこで本報告ではそれらをまとめ，文書クラスタリングに対する理解を深める． 1 はじめに知的システムデザイン研究室では，ISDLレポートと呼ばれる研究報告を現在までに1300本以上Web上に公開している．多くのレポートが存在するが，レポートの分類は行われていないため，クラスタリングにより自動的にレポートのグループ化を行うことを目指している．しかしISDLレポートのような文書に対するクラスタリングではいくつか特徴的な事項があり，それらを考慮する必要がある．そこで本報告では文書クラスタリングに関する特徴点をまと
stick23rd 2007/09/27
テキストマイニング

マイニング
リンク
[ThinkIT] 第3回：テキストマイニング技術の全貌 (1/3)
第3回の今回は、これまでとは話の内容を転換して、テキストマイニングの技術的な内容について言及していきたい。テキストマイニングを支える技術には、「自然言語処理技術」と「データマイニング技術」がある。実は自然文のテキストデータは、そのままの状態では分析することができない。そのため、「自然言語処理技術」の形態素解析や構文解析といった処理を行い、単語の出現の有無などを表現するために定量的なデータに変換する。「データマイニング技術」としては、同時に出現する単語間の関連性を見る「アソシエーション分析」、テキスト間の類似性からグループ化するのに利用される「クラスター分析」などがある。では実際に、野村総合研究所（NRI）が自社開発したテキストマイニングツール「TRUE TELLER」における処理を参考にして、具体的なテキストデータ処理の流れを見ていこう。まず、図1のチャートを見ていただきたい。ここ
stick23rd 2007/09/27
テキストマイニング

まとめ

マイニング

自然言語処理
リンク
＠IT ブログに書かれたユーザーの本音を探る！
「テキスト情報から「次の一手」を決めるマーケットの本音を探索～『なずき』による感性分析を主軸とした新たなテキストマイニング　～」株式会社エヌ・ティ・ティ･データ法人ビジネス推進部なずき推進室商品企画・営業チームリーダ尾崎哲夫氏尾崎氏は、近年、インターネットの一般家庭への浸透によって、ブログに代表されるCGM（Consumer Generated Media）と呼ばれるテキストデータが増加、そのデータの活用が注目されていることに触れ、定性的なテキストデータは、分析に大変な労力を要する場合が多いものの、分析者の仮説を超える思いがけない回答が得られる可能性を指摘する。従来、テキストマイニング手法としては、次の2つがあったという。単語分析・・・文中から単語単位で切り出す方法係り受け分析・・・文中から単語と単語の係り受けを切り出す方法例えば、「住宅購入の目的は何ですか」と
stick23rd 2007/09/26
マイニング

テキストマイニング
リンク
講義用テキスト
学生諸君へ講義用補助テキスト『 Excel で学ぶ多変量データ処理入門』ご利用の皆様へ！ Excelで学ぶ多変量データ処理入門太成学院大学　経営学部教授　坂　元　保　秀　著本書で取り扱っている各章のＥｘｃｅｌ演習問題のMS−Excel用Work Sheetは，以下のファイルで提供しております．適宜，ダウンロードしてご利用ください．
stick23rd 2007/09/26
テキストマイニング

マイニング
リンク
http://svrrd2.niad.ac.jp/faculty/nozawa/Research/memo/2003-0703.TextMiningGlossary.html
stick23rd 2007/09/26
テキストマイニング

マイニング
リンク
1