タグ

コーパスに関するmasuiのブックマーク (2)

  • Index of /jawiki/

    ../ 20240220/ 01-Apr-2024 09:27 - 20240301/ 20-Apr-2024 09:28 - 20240320/ 01-May-2024 09:26 - 20240401/ 20-May-2024 09:28 - 20240420/ 20-Jun-2024 09:27 - 20240501/ 07-May-2024 04:57 - 20240601/ 10-Jun-2024 21:14 - 20240620/ 22-Jun-2024 10:00 - latest/ 22-Jun-2024 10:00 -

    masui
    masui 2007/08/14
    Wikipedia日本語版のデータ全体。コーパスとして有用。
  • 国立国語研究所が大規模コーパスを試験公開 - @IT

    2007/05/28 「風景」と「光景」の意味や使い方の違いは? そんな疑問に答えるためには、用例辞典が役立つ。しかし、文例が少なかったり具体的な使い分けの方法が分からなかったりといったことも少なくない。こうした問題に役立つのは物の文例を集めた実例集だ。人々が実際にどのように言葉を使っているのかを、その言語の母語話者が話したり書いたりした文例を集めることで解明する。 そうした文例集は言語学や情報処理の研究者の間では「コーパス」(corpus)と呼ばれている。コーパスを用いれば、例えば「風景」は、ほかの語彙と結びついて「心象風景」「研修風景」「風景鑑賞」などの合成語を作るのに対して、「光景」のほうは、「日常的光景」「歴史的光景」といった「的」を伴う3例をのぞいて合成語をほとんど作らないという違いが、すぐに分かる。 品詞情報や係り受けといった文法情報を付加することで、言語研究や辞書編纂といっ

    masui
    masui 2007/05/29
    1000万語分のデータのインターネット上での試験公開。大変結構な試みですネ
  • 1