タグ

corpusに関するkat0usiのブックマーク (25)

  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • [Baiduコーパスダウンロード広場] ブログ・掲示板時間軸コーパスを公開 | Baidu Japan Blog

    こんにちは、プロダクト事業部の水野貴明、萩原正人&マーケティング部の上之山奈津希です。 Baiduは、自然言語処理に興味を持たれていたり、学んでいたり、研究されている方や、おもしろいものを作ってみたいエンジニアの方の研究や非商用のサービス開発などのに活用いただくため、「Baidu コーパスダウンロード広場」を開設し、「Baidu ブログ・掲示板時間軸コーパス」を公開いたしました。 Baidu ブログ・掲示板時間軸コーパス Baidu ブログ・掲示板時間軸コーパスは、Baiduがクロールしたウェブデータから、掲示板の書き込みおよびブログの文を、書き込まれた正確な時間とともに抽出し時系列に並べたデータを元にして作成したユニークでほかにはない(※)コーパスです。掲示板が普及した2000年1月~2010年7月の期間に対して、各1ヶ月ごとにスライスし、Nグラム(1グラム~3グラム)の統計を計算して

  • Wikipediaから作成したN-gramデータを公開しました - nokunoの日記

    id:toilet_lunch さんに先を越された感がありますが、Wikipediaから作成したN-gramデータを公開しました。Downloads - nokuno - Project Hosting on Google Code処理方法については先日の日記を御覧下さい。Wikipediaによるテキストマイニング入門 - nokunoの日記

  • GSK2010-B 甲南大学 こどもコーパス

    こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。教育研究活動に限り利用可能である。詳細は、付属のマニュアルを参照のこと。

  • PC

    日経コンピュータ 勝村幸博の「今日も誰かが狙われる」 高校入試出願のメール不達は必然 Gmailガイドラインの誤解を解く 2024.03.01

    PC
    kat0usi
    kat0usi 2010/02/17
    普及したIMEの特性の影響もあるけどね > コーパスがその言語の「正しい縮図」
  • http://www.kecl.ntt.co.jp/icl/lirg/links-j.php

  • メンバー

  • コーパス紹介 - コーパス日本語学のための情報館

    はじめに 現在、日国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日語用例・コロケーション抽出システム『茶漉』によ

    コーパス紹介 - コーパス日本語学のための情報館
  • Automatically Constructed Case Frames

    Webから自動構築した大規模格フレーム βバージョン Webテキストから自動構築した大規模格フレームを公開いたします。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものです。この格フレームは、Web上の約5億文の日語テキストから自動的に構築しており、約5万用言からなるものです。以下のアドレスから格フレームを検索することができます。 格フレーム検索 注意点:今回公開するのはβ版のため、検索条件によってはアクセス速度が非常に遅くなる場合があります。近日中にシステムを更新し正式公開する予定です。また、格フレームをダウンロードして利用したい方は別途ご連絡ください。 この格フレームに関するご意見、ご質問は nl-resource あっと nlp.kuee.kyoto-u.ac.jp 宛にお願いいたします。 参考文献 Daisuke Kawahara and Sadao Kur

  • yohasebe.com

    Yoichiro Hasebe Professor The Faculty of Global Communications Doshisha University Projects Monadic Chat TED Corpus Search Engine RSyntaxTree jReadability.net Other Projects (Github) Academic Data Curriculum Vitae Publications Presentations Interests Cognitive Linguistics Natural/Artificial Language Design Corpus Linguistics Educational Technology Contact yohasebe@gmail.com Yoichiro HASEBE Faculty

    kat0usi
    kat0usi 2009/03/14
    wikipedia -> text
  • IPADIC(IPA辞書)とはなにものか?

    ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

    IPADIC(IPA辞書)とはなにものか?
  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

  • NAIST Japanese Dictionary Wiki - NAIST Japanese Dictionary - OSDN

    最近の更新 (Recent Changes)2008-03-09FrontPage 最新リリース情報naist-jdic (for ChaSen) (NAIST-jdic-0.4.3)2008-07-07 14:48naist-jdic (for MeCab) (mecab-naist-jdic-0.6.3b-20111013)2011-10-13 17:31naist-jdic with &quot;ChaSen for Windows&quot; (ChaSen-2.4.2-1-NAIST-jdic-sjis-0.3.0)2008-03-09 10:52 Wikiガイド(Guide)Wikiの文法 リンクの種類と文法 ブロックプロセッサ 拡張文法 サイドバー プロジェクトWikiでの広告設定 サイドバー (Side Bar)このサイドバーについて このサイドバーの編集 NAIST-jd

    NAIST Japanese Dictionary Wiki - NAIST Japanese Dictionary - OSDN
  • Public Morphologically Tagged Corpus

    形態素解析済みコーパスの公開 形態素解析済みのコーパスを公開します。 コーパスは、ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。 データのフォーマットは国立国語研究所で公開している全文検索システム『ひまわり』に準拠しています。 利用者の皆様は、データをダウンロードし、『ひまわり』をパソコンにインストールすれば、 単語単位での例文検索 基形での例文検索 品詞による検索結果の絞り込み といった作業を簡単に行うことができます。 動作環境 データを利用するのに必要な環境は以下の通りです。 パソコン Windows, Linux, Mac OS X などのパソコンでデータをお使いになれます。 下記の『ひまわり』が動作する環境のパソコンであれば大丈夫です。 全文検索システム『ひまわり』 国立国語研究所の『ひまわり』のサイトからプログラ

  • 独立行政法人 情報通信研究機構 知識創成コミュニケーション研究センター 自然言語グループ メンバー 和泉絵美 プロジェクトデータ

    kat0usi
    kat0usi 2009/03/09
    語数は述べ200万語にのぼり,話し言葉の学習者コーパスとしては世界最大規模
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

    kat0usi
    kat0usi 2009/03/06
    シソーラス 関連語
  • ゲームレビュー

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

  • IDEA * IDEA

    ドットインストール代表のライフハックブログ

    IDEA * IDEA