タグ

nlpに関するtodeskingのブックマーク (9)

  • ExtractUniqueBlock - コンテンツ抽出(本文抽出) Perl モジュール

    コンテンツ抽出(文抽出) Perl モジュール ExtractUniqueBlock の配布ページです。追加した方がよい機能、修正した方がよい機能などがありましたら、お気軽にご連絡ください。最終的には CPAN での配布を予定しております。 ダウンロード 最新版(0.01) ExtractUniqueBlock_beta_0.01.zip ExtractUniqueBlock_beta_0.01.zip に含まれるファイルは以下の通りです。 ExtractUniqueBlock.pm コンテンツ抽出(文抽出) Perl モジュール ExtractUniqueBlock 体 asahi_rss.pl asahi.com の RSS を取得してコンテンツ抽出(文抽出)を行うサンプル local_directory.pl ローカルの HTML 群からコンテンツ抽出(文抽出)を行うサンプ

  • 自然言語生成 - Wikipedia

    自然言語生成(しぜんげんごせいせい、英: Natural language generation)とは、自然言語処理の一種で知識ベースや論理形式などの機械表現系から自然言語を生成することを言う。 自然言語理解の逆と言われることもある。自然言語理解が入力文を明確化して機械表現言語を生成するのに対して、自然言語生成は概念を如何にして言葉で表すかについて判断を必要とする。 概要[編集] テキスト生成プロセスには、たとえば決まり文句の一覧から選ばれた言葉を接続用テキストで繋げるといった単純な処理もある。これは例えば、占い機械やパーソナライズされたビジネスレターのような領域では十分な文章を生成する。しかし洗練された自然言語生成システムでは、決まり文句の繰り返しに見えない自然な文章を生成するため、情報の統合と計画のフェーズを必要とする。典型的なフェーズは次の通りである。 コンテンツ決定 言及する価値が

  • SourceForge.JP: Project Info - NAIST Japanese Dictionary

    最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース

    SourceForge.JP: Project Info - NAIST Japanese Dictionary
    todesking
    todesking 2009/05/26
    NAIST辞書
  • ”専門用語(キーワード)自動抽出システム”関連文献リスト

    ”専門用語(キーワード)自動抽出システム”のプロジェクト関連文献 前田朗, 中川裕志. 東京大学OPAC Plus "言選Web : 関連学術用語による日語文献情報への簡易ナビゲーションシステム, 第72回情報処理学会全国大会 デモセッション [論文PDF]全国大会講演論文集の頁等は追って記入、[ポスター](パワーポイント)、 [プレゼン資料](パワーポイント) 王玉馨・小島浩之・中川裕志・前田朗 : "中文版“言選Web”的評価与分析", 第三届文学与信息技术国际研讨会 论文集. [編者不明] 東京. [第三届文学与信息技术国际研讨会], 2007-03, [東京], 2007. pp.39-44. 小島浩之 : "人文科学研究と自然言語処理 総論にかえて", 漢字文献情報処理研究 第6号 pp.92-95, 2005.10 PDF 前田朗 : "キーワード自動抽出システム「言選W

  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

  • Project Gutenberg のテキストデータから本文を抽出する - 木曜不足

    Project Gutenberg は小説や詩、論文、教養書、演説原稿などなどなど、著作権切れあるいは著作権のないテキストの一大データベース。主にはやはり英語だが、他の諸言語のデータもそこそこある。 このテキストはまるっと自由に使えるので、文章解析などをやるには宝の山。 だけど、肝心のテキストの前後にヘッダやフッタや、とにかく様々な情報がくっついているのが、かなり難。 ある程度書式を決めといてくれれば良かったのに*1、誰もが自由気まま勝手に制作していて、めっちゃフリーダムでアナーキーなことになっている。 区切りのフォーマットがそもそもファイルによってバラバラだし。 そんな区切りもあればいい方で、なんの区切りもなく「誰がスキャンしました」だの「間違ってるかもしれないからチェックしてね!」だの書いてあったり、最悪の場合、それが文と空行1つしかあいてないという。 しかたなくそのまま解析したりな

    Project Gutenberg のテキストデータから本文を抽出する - 木曜不足
    todesking
    todesking 2008/11/19
    Project Gutenberg、本文抽出するrubyコード
  • Information Retrieval

    年度の授業はこちらです。 以下は前年度までの授業内容 インターネットと計算機の発達によって available になった世界中の情報資源のうちの多数を占めるテキストデータの扱いについて説明します。第1に、言語情報資源の扱い方、統計などについての基礎を説明します。第2に、情報検索のシステム、モデル、評価方法などについて説明します。これらのトピックの発展である情報抽出や言語横断型の情報検索などについても説明していくつもりです。 内容 はじめに テキストについて この講義で使う数学的知識 文字コード系.....付録pptファイル 使用言語の推定 言語の統計.....付録pptファイル 言語資源.....付録pptファイル ターム抽出 タームの分布モデル.....付録ppファイル 構造化文書 情報検索 情報要求.....付録pptファイル インデクシング.....付録pptファイル 質問の構

    todesking
    todesking 2008/09/10
    文書検索の基礎
  • 形態素解析ツールの品詞体系

    ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。 いわゆる形容動詞は名詞の形容動詞語幹として含まれ、 形容詞には含まれない。Juman の指示詞という カテゴリは「連体詞」に含まれている。 判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

  • パピョプパパピポポポパポMeCabポポピピペポンパプププ*1 - fubaはてな

    他消火が伊露露モナコMeCab55二時へホンがツクる ピャじゃなかった!なおした ニーズ "ヨッピーさんがしゃべってる言葉の変換系はまだできないんですか" "youpyさんのtwitterをフィードで読んでイラッとして自動翻訳書いてたけど10分ぐらいでアホかと思ってやめた" 実装 最新版のMeCabがピプピョプです。 % wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-ipadic-2.7.0-20070801.tar.gz % tar vxzf mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801 % wget http://fuba.moaningnerds.org/src/papyopu/conv.pl % perl conv.pl

    パピョプパパピポポポパポMeCabポポピピペポンパプププ*1 - fubaはてな
  • 1