タグ

コーパスに関するshokou5のブックマーク (5)

  • CasualConc

    CasualConc は macOS 用のコンコーダンサー(コーパス分析ソフト)です。最初のバージョンは高度な研究に耐えるものでもなく、簡単に使えるという意味で CasualConc と名付けました。 機能としては kwic、単語クラスター分析、共起分析、単語頻度表作成などがあります。現在のバージョン (3.0 以降) は、十分実用・研究に耐えうる程度にはなっていると思います。 これ以外にも、いろいろなアプリケーションを作ってます。このページの下の方か、左のその他のアプリケーションのリンクをたどってください。 CasualTranscriber をお探しの方はこちらへ。 まだまだ対処しきれていない問題も多く残っているので、バグの報告をお願いします。 テキストファイルフォーマット:プレインテキストファイル (.txt) で、ASCII もしくは UTF-8 でエンコードされているものが基

    CasualConc
    shokou5
    shokou5 2016/10/28
    “CasualConc は Mac OS X 用のコンコーダンサー(コーパス分析ソフト)です…機能としては kwic,単語クラスター分析,共起分析,単語頻度表作成などがあります”
  • 今井新悟研究室 リンク

    言語資源サイト コーパス 日語コーパス 音声コーパス 英語コーパス 日語学習者コーパス 自然言語処理 辞書 形態素解析 構文解析 意味解析・格フレーム・コロケーション・語彙ネットワーク 検索・解析用ツール 音声認識・合成・対話 音声認識エンジン 音声認識・分析・合成・対話ツール 日教育・学習ツール ホームへ戻る

  • 国立国語研究所の言語コーパス整備計画KOTONOHA

    Page Top語コーパスの問題点は何か 日語コーパスの最大の問題点は、日語の全体をバランスよく反映したコーパスがないことです。例えば、新聞社の中には過去の記事を全文データベースとして有償で公開しているところがあり、その総量は数億語にのぼります。しかし、新聞記事だけでは、たとえ対象を書き言葉だけに限るとしても、日語の全体像を把握することはできません。雑誌記事の日語は新聞記事とはどこかで明らかに異なっていますし、文学作品の日語については言うまでもありません。小説などの文学作品については「青空文庫」関係者の努力によって、数多くの作品が万人に利用可能な形で公開されています。しかし、これらはいずれも著作権が消滅した作品ですから、少なくとも50年以上昔の日語です。 現代日語書き言葉の全体を把握するためのコーパスには、私たちの生きているこの時代に生産され、流通している「現代」日

  • 新聞記事文庫 - 神戸大学付属図書館

    サイトのデータ作成には、平成16-23,25,27,28,30,令和4年度 科学研究費補助金(研究成果公開促進費)の 補助をいただいています。(データベース名:戦前期新聞経済記事文庫データベース) 【課題番号 168059,178055,188054,198039,208033,218033,228028,238025,258024,15HP8020,16HP8019,18HP8012,22HP8012】 ※ 事業は平成26年度に公益財団法人図書館振興財団の振興助成事業の補助をいただきました。 ※ 事業は日学術振興会の「人文学・社会科学データインフラストラクチャー強化事業」令和5~9年度に採択されています。

    shokou5
    shokou5 2012/02/02
    明治末~戦前期の 新聞記事データベース (HTML 化).これは すごい.
  • http://www.gsk.or.jp/catalog.html

  • 1