タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

nlpと研究に関するhagurin_Lv1のブックマーク (7)

  • テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録

    WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー

    テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
  • 藤井敦

    お知らせ 当研究室の苅米志帆乃さんが情報処理学会50周年記念第72回全国大会で学生奨励賞を受賞しました 当研究室の佐々木智君がDEIM2010で学生奨励賞を受賞しました 当研究室の井上結衣さんがDEIM2010で学生奨励賞を受賞しました 藤井敦は東京工業大学に移籍しました  2009年9月1日 私の研究室で一緒に研究をしたいという,意欲ある学生を募集しています 入試情報 研究内容やプロジェクトについては,こちらのページをご覧下さい 当研究室の苅米志帆乃さんがWebDBf2009学生奨励賞と企業賞(サイボウズ賞)を受賞しました 当研究室の苅米志帆乃さんがIPA未踏ユースに採択されました 平成20年度 山下記念研究賞を受賞しました 当研究室の苅米志帆乃さんが情報処理学会第70回全国大会で学生奨励賞を受賞しました インターネットコンファレンス2007で論文賞を受賞しました 統計的機械翻訳の講習会

  • Satoshi Sato

    佐藤理史 / Satoshi Sato 名古屋大学大学院工学研究科 電子情報システム専攻 Graduate School of Engineering, Nagoya University 研究内容 自然言語処理や人工知能技術を用いて、情報を自動的に編集することを実現する技術(「情報の自動編集」)について研究を行っています。ここで、編集とは、人間が情報を有効に使いこなすための知的作業全般を指します。編集の主な目的は、「情報を使いやすくする」ことであり、これは、おおよそ「探しやすくする」ことと「わかりやすくすること」から構成されると考えます。 (WITプロジェクト) 自動編集を実現するためには、新しい技術が必要となります。テキスト情報の自動編集には、テキストを自在に変形する「言い換え」が不可欠です。このような言い換えを機械的に実現する方法について研究しています。また、日語の平易度の規

  • Yo Ehara

  • エブログ JavaScript で形態素解析もどき

    JavaScript形態素解析もどき JavaScript形態素解析のようなものを。 totonの日記 - すべての漢字を取り出す正規表現 「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌 これらの記事を参考にして JavaScript で漢字、ひらがな、カタカナ、英数字に区切ることをしています。 ただ、文字コード的にちゃんとできるのか、よくわかりません。Seesaa はShift_jis なのでおかしくなる場合もあるかも知れないです。 下のテキストエリアに文章を入力して解析ボタンを押すと解析結果が表示されます。解析というか、単純に改行で区切っているだけですが。 サンプルは青空文庫の太宰治 走れメロスの冒頭部分。 メロスは激怒した。必ず、かの邪智暴虐(じゃちぼうぎゃく)の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。笛

    エブログ JavaScript で形態素解析もどき
  • 単語親密度に関する文献紹介 - moguranosenshi

  • Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

    概要 記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日Wikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる

  • 1