satojkovicのブックマーク / 2005年10月12日

私のブックマーク: テキストマイニング

私のブックマークテキストマイニング 1.はじめにインターネットやイントラネットにおいて増え続けている膨大な情報の中から有用な知識を発見するテキストマイニングが注目されている．テキストマイニングは情報抽出，テキスト分類，要約などの自然言語処理と情報検索やデータマイニング，機械学習の組み合わせで実現される．すでに人工知能学会においても，本学会誌2001年3月号の特集においてテキストマイニングが取り上げられているので，記憶に新しい読者の方も多いことであろう．本報では，その中の論文のひとつである「テキストマイニング-事例紹介」の付録であるリンク集を中心に，テキストマイニングの研究や活用に有用と思われるWebページを紹介する． 2.理論編テキストマイニングという言葉はよく耳にするが，具体的にどういう技術を指すのかがはっきりしない方には，テキストマイニングに関する解説がWebからも取得できるので参

satojkovic 2005/10/12

リンク

KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア

概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。プログラミング不要、マウス操作で本格的な分析安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介（スクリーンショット）スクリーンショット集［旧ページ：言葉・文書・可視化・他］ KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチュートリアルヘルプ質問＆エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要（無料）［旧掲示板］よくある質問（FAQ）開発者が語る公式セミナー & サポート：㈱SCREEN A

satojkovic 2005/10/12

リンク

My Life Between Silicon Valley and Japan - Web 2.0時代を生きる英語嫌いの若い人たちへの英語勉強法リスニング編

いい時代になったものだと思う。米国出張に行ってべらぼうに高いコンファレンス費用を支払わなくても、IT産業の超一流の人たちのまさに「肉声」を、居ながらにして聴くことができるのだから。IT Conversations http://www.itconversations.com/index.html というサイトがある。「Web 2.0/次の10年/Open Source/Google/Longtailみたいなネット関連の最新動向について」記事や論考を読むだけでなく、耳も慣らしたいという人は、以下のものを聴くといい。試しに10個、選んでみた。時期が少し古いものも混ぜてあるけれど、内容がより当たり前になっている分だけ、そういうものは純粋に英語の勉強としていいかもしれない。中にはTranscriptがついているものもある(例、Tim O'Reillyのスピーチ)。「Software 2005」で

satojkovic 2005/10/12

リンク

かずひこ空間 - Linux Conference 2005 全文検索 BOF

全文検索システムの開発者とユーザが集まり、各システムの紹介やデモなどを交えながら、全文検索システムに関することをみんなで話しましょう。日頃全文検索システムを使っていて感じていることや、やりたいと思っていること、あるいはこの機会に開発者に直接聞いてみたいと思っていることなど、なんでも OK です。全文検索に興味のある方はぜひご参加ください。発表者竹迫良範さん (Namazu Project) 発表資料平林幹雄さん (Hyper Estraier開発者) 発表資料西田雄也さん・高尾宏治さん (Rast開発者) 発表資料大沢和宏さん (検索サイト運営者) 発表資料かずひこ (コーディネータ) 発表資料 YappoLogs 要求に見合った選定をきちんとする事が大事です。開発メモいいところは互いにどんどん取り入れるとともに、プロジェクトの目的に応じた独自性を進化させていくというの

satojkovic 2005/10/12

リンク

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

satojkovic 2005/10/12

[TF/IDF]

形態素解析

リンク

未来のいつか/hyoshiokの日記 - オープンソースの開発で飯を食う

リナ飯（Linuxで飯を食う）とかオプ飯（オープンソースで飯を食う）とかとオープンソースのボランティア活動はまったく直交している。独立した事象であるとわたしは思う。生活のためにコードを書く人は昔も今も明日もいるだろうし、趣味でコードを書く人も、（コードを書きたいから書く人も）、昔も今も明日もいるだろう。プロもいればアマチュアもいる。それによって金銭的な報酬を受けている人もいれば受けていない人もいる。金銭的な報酬ではなくコミュニティからの尊敬を受けている人もいれば受けていない人もいる。自己の満足度を金銭的報酬以外のものに求める人もいればそうでない人もいる。お金だけですべてを語るのは間違いである。もちろんそう思う。しかしオープンソースソフトウェアの開発と言うだけで過度に自己実現のためにコードを書く人が多数だと言うような言説はいかがかと思う。ソフトウェアの多くは趣味で自分のためにだけ書かれた

satojkovic 2005/10/12

opensource

リンク

特許文書を読みやすくする専用解析技術、NTTデータが開発

難解な特許文書を読みやすいように表示します──NTTデータは、自然言語処理技術を活用し、特許文書を解析して視覚的に表示したり、類似特許検索のためのキーワードを抽出することができる新技術を開発した。企業が知的財産を重視する流れが加速し、特許出願件数は年間40万件以上に増加している。他社特許権の侵害などを防ぐため、出願済み特許の調査業務も重要になってきている。だが特許文書はあいまい性を排除するため、独特の言い回しを多用した回りくどい文章で発明の内容を説明している。文章を解読し、内容を正確に理解するには専門家でも時間がかかるのが実情だ。 NTTデータが開発した新技術は、「パターンマッチング」技術を応用した。同技術は特定の品詞や表記などの「形態素」をパターン化し、パターンに適合した文字列を文書から抽出するなどして文書を解析する。新技術では、特許文書独特の表現形式をパターン化することで構造解析