タグ

Text Miningに関するayaniimi213のブックマーク (6)

  • テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) - シリコンの谷のゾンビ

    テキスト分類課題などでは,文書をTF-IDF重み付けしたbag-of-wordsで表現することが多い.これをベースラインにするため,さくっとこの処理をしたい.卒論やM1のときは,この処理をわざわざ手で書いたのだが,バグが出たら大変だし,なにより面倒くさい. 論文では,最近流行りのLuceneを使っている人もいるけれど,WekaのStringToWordVectorもなかなか高性能.TFIDF重みづけまでの処理をやってみる.Luceneの方が汎用性があるから便利そうなんだけれど,とりあえずテキスト分類課題に使いたいので. 前提知識 かなり自分用メモ(+α)なので,説明不足な部分があります.あと,基的にCUIベースで話を進めます.最後の方に気がついたのですが,GUIとずれがありますね.そこらへんは,まぁ,適当に. Wekaについては,日語情報があるにはあるのですが最近更新されていないので,

    テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) - シリコンの谷のゾンビ
  • SimpleStyle 第24回:いまどんなキーワードに興味がある~自分の頭と相談する『brainCloud』 | ライフハッカー・ジャパン

    ■自分と対話する 自分がいまなにを考えているのか、それはもう、自分で書いたり目にした文章に聞くのがいちばん、というのが、タグクラウドシステムです。 タグクラウドは、提案としてはとてもおもしろいと思いますが、いくつか不満なところもあります。 ひとつめは、あまりにもありきたりな言葉の羅列の場合、ありきたりすぎて刺激を受けない、ということ。ライフハックとか、iPhoneとかってのは、それだけ単体で見ると、かなり見慣れた一般語に見えます。鮮魚店でライフハック、などであれば、それはなにか新しい結びつきに思えますが、そういうとっぴな結びつきは稀です。おいしい魚のべ方とかって、いいライフハックになると思います。いまちょうど秋刀魚が旬でおいしいですし。 ふたつめは、表現力です。クラウドというからには、もうちょっとクラウドっぽく表現したいものです。 ■タグクラウド ひとつめの問題を解決するためには、たぶん

    SimpleStyle 第24回:いまどんなキーワードに興味がある~自分の頭と相談する『brainCloud』 | ライフハッカー・ジャパン
  • http://www.oxfordjournals.org/help/moved/

  • 専門用語(キーワード)自動抽出サービス 「言選Web」

    このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです! このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。 次のいずれかで専門用語(キーワード)を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定 文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定 入力ボックス下のチェックボックスから和文、英文を選択。 専門用語(キーワード)抽出ボタンをクリック しばらくすると専門用語(キーワード)が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの

  • 企業内検索の入門版「ConceptBase Search Lite 1.1」発売

    ジャストシステムは、企業内検索エンジン「ConceptBase Search」を低価格化し、中小規模向けに提供する「ConceptBase Search Lite 1.1」を11月30日から販売する。 ConseptBase Searchは、フレーズ検索や類似文書検索など、ATOKや一太郎で培った日語処理技術をベースにした検索技術が特徴。複数Webサーバーの同時検索やRDB内のテキスト検索、Lotus Notesの検索などにも、オプションで対応している。 同製品は、長年培われたConseptBase Searchのエンジンを採用しており、先日発表された新エンジン搭載の「ConseptBase Enterprise Search 1.3」とはラインナップが異なるが、マイグレーションが可能となっている。 製品ラインナップは、登録可能文書数無制限の「ConseptBase Search Lit

    企業内検索の入門版「ConceptBase Search Lite 1.1」発売
  • 理工学研究所 国際交流・公開研究セミナー

    Abstract: As the progress of information society, searching for a relevant information from the web pages or library computer becomes more crucial in our everyday life. The most widely used searching method at this time is the searching by some key words in the internet or library. However, since the reservoir of information grows so rapidly as the progress of information technology, the searching

  • 1