タグ

ブックマーク / blog.livedoor.jp/tak_tak0 (3)

  • 自然言語処理、情報検索、テキストマイニング系の研究をする上で調べておく情報源 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 Text REtrieval Conference (TREC) 2008年現在、以下のトラックが開催されてます。 ・ブログ (Blog Track) - ブロゴスフィアにおける情報検索 ・エンタープライズ (Enterprise Track) - 組織(企業)内の情報に関する検索 ・生医学情報 (TREC Genomics Track) - 生物医学情報の検索。遺伝子配列の検索に加え、研究論文、報告などの文献情報検索 ・法情報 (Legal Track) - 弁護士等の法分野の専門家の情報要求に応える検索 ・大量検

    自然言語処理、情報検索、テキストマイニング系の研究をする上で調べておく情報源 : 研究開発
  • blog記事の本文抽出 : 研究開発

    主にblogですが、広告やその他内容に関係ないところを全て削除して文だけを取得したいと思うことは多くあります。 そういう場合にどのような方法があるか Webstemmerはhtmlファイルの形式、定型パターンから文を抜き出すようです。 しかしながら、製作者が言っているとおり、もっと簡単に抜き出す方法があったりします。 < !-- google_ad_section_start --> ...文... < !-- google_ad_section_end --> という指定がしてある所だけを抽出してAdSenseの内容を決める機能が有るので、それを適用しているblogであれば楽に文のEntryFullTextが出来るよね。 実はこれはかなり有効な方法で、これだけでかなりカバーできたりします。 しかしながら、対応してないblogも多いです。 さて、わたくしは現在どういう風に対応してる

    blog記事の本文抽出 : 研究開発
  • 自然言語処理テキストマイニング情報検索 業界で有名な研究室、研究者 : 研究開発

    自然言語処理+知能システム系の勉強をしたいなら、 このあたりに行くといいでしょう。 東京工業大学 奥村研究室 平成15年度未踏開発ソフトウェア創造事業blogページの自動収集と監視に基づくテキストマイニング http://shooti.jp/ に繋がるわけです 東大のコミュニティではよく「石塚研」「中川研」「辻井研」という言葉を聞きます。 石塚研究室 石塚研は知能システムを応用したアプリケーションの開発などに興味があるようです 中川研究室 機械学習勉強会やっています 辻井研究室そのメンバーでは 岡野原大輔 氏は、 この岡野原氏です。 国立情報学研究所 NIIには、国内の、特に情報検索系の研究者の3分の1はいるらしいです。 大向一輝氏はコンテンツ、インタフェースレベルの研究者ですが.... 株式会社グルコース という会社も経営しています 筑波大学 宇津呂研究室 紹介の中にははっきり書いていな

    自然言語処理テキストマイニング情報検索 業界で有名な研究室、研究者 : 研究開発
  • 1