サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
pj.ninjal.ac.jp
データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日本語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20
国立国語研究所コーパス開発センターでは、 日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。 English 国立国語研究所
ホーム 日本語歴史コーパス(CHJ) 概要 概要 INTRODUCTION to CHJ 『日本語歴史コーパス』は、デジタル時代における日本語史研究の基礎資料として開発を進めているコーパスです。全てのテキストに読み・品詞などの形態論情報が付与されているため、従来の紙の総索引の代わりになるだけでなく、より高度な検索や集計が行えます。 公開中の内容については、以下の各ページをご覧ください。 『日本語歴史コーパス』の構築は、以下のプロジェクトの成果の一部です。 国立国語研究所共同研究プロジェクト「通時コーパスの設計」 国立国語研究所共同研究プロジェクト「通時コーパスの構築と日本語史研究の新展開」 JSPS科研費 JP15H01883「日本語歴史コーパスの多層的拡張による精密化とその活用」 形態論情報 『日本語歴史コーパス』は、通時的な分析を可能とするため、『現代日本語書き言葉均衡コーパス』をはじ
国立国語研究所コーパス開発センターでは、 日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。 English 国立国語研究所 分類語彙表とは,「語を意味によって分類・整理したシソーラス (類義語集) 」です。昭和39年 (1964年) に出版された初版『分類語彙表』 (現在は絶版) は,現代日本語の本格的なシソーラスとして幅広く活用されてきました。その後,収録語数を増やした『分類語彙表 −増補改訂版−』が刊行されましたが,研究開発用にそのデータベース版を用意しました。 本データベース版は,書籍版の『分類語彙表 −増補改訂版−』の元となったデータを加工したものです。データベースソフトに取り込めるようCSV形式になっています。レコード総数は,101,070件です (この中には,見出しの併記を分割してできたレコード及び分類項目内の意味的区切りを示すレコ
1 特 集 「研究開発における情報利用と著作権」 コーパス構築と著作権保護 Copyright protection and corpus development 前川 喜久雄 国立国語研究所言語資源研究系 Kikuo Maekawa Dept. Corpus Studies. National Institute for JapaneseLanguageand Linguistics kikuo@ninjal.ac.jp Keywords: language corpus, balanced corpus, speech and language analysis, copyright 1. は じ め に 筆者の専門は音声学であるが、 10 年ほど前に音声自動 認識のための大規模な話し言葉コーパスである『日本語 話し言葉コーパス』 の構築に携わる機会があり[前川 04]、 それを契機と
「ごろごろ」「しんなり」などの言葉は,一般に「擬音語・擬態語」または,「擬声語・擬態語」とも呼ばれていますが,これらはそれぞれどう違うのでしょうか。また,日本語の「擬音語・擬態語」にはどんな種類があるでしょうか。「擬音語・擬態語」の呼び名や分類のし方については,これまで多くの研究者がいろいろな名前をつけたり,分類したりしてきましたが,ここでは,金田一(1978)によるものを紹介します。 金田一は,「擬音語・擬態語」を,その意味から細かく5つに分類して,以下のような名前をつけました。 まず,音を表すもののうち,人間や動物の声を表す「擬声語」と,自然界の音や物音を表す「擬音語」に分けました。次に,音ではなく何かの動きや様子を表すもののうち,無生物の状態を表すものを「擬態語」,生物の状態を表すものを「擬容語」とし,そして最後に人の心理状態や痛みなどの感覚を表すものを「擬情語」としました。以下がそ
国立国語研究所 このページの内容は,平成21年9月末までのものです。今後の更新はありません。 「外来語」言い換え提案 ── 分かりにくい外来語を分かりやすくするための言葉遣いの工夫 ── 国立国語研究所「外来語」委員会 この委員会は,公共性の高い場で使われている分かりにくい「外来語」について,言葉遣いを工夫し提案することを目的として,活動が行われました。(平成14年8月〜平成18年6月) 「外来語」言い換え提案 第1回〜第4回 総集編(平成18年3月) 「外来語」言い換え提案は,第1回(平成15年4月),第2回(平成15年11月),第3回(平成16年10月),第4回(平成18年3月)の4回に分けて発表してきました。総集編は4回分全体をまとめ直したものです。各回の発表を別々に御覧になる場合は,「外来語」言い換え提案第1回〜第4回各回別の発表(PDF形式)をご利用ください。 「外来語」言い換え
「病院の言葉」の分かりにくさには,いくつかの類型があります。 各類型を代表できる言葉57語を取り上げ,分かりやすく表現する具体的な工夫について,検討しました。
(類型A)日常語で言い換える [関連] 病理検査(びょうりけんさ)・病理診断(びょうりしんだん)(類型B) 病理(びょうり)(類型B) 組織診断(そしきしんだん)(類型A) 細胞診(さいぼうしん)・細胞診断(さいぼうしんだん)(類型A) 確定診断(かくていしんだん)(類型B) まずこれだけは 患部の一部を切り取って,顕微鏡などで調べる検査 少し詳しく 「患部の一部をメスや針などで取って,顕微鏡などで調べる検査です。病気を正確に診断することができます。この検査の結果によって,診断をはっきり決めます」 時間をかけてじっくりと 「患部の組織の一部を,麻酔をしてからメスや針などで切り取って,顕微鏡などで調べる検査です。この検査によって,病気を正確に診断することができます。例えば,がんの診断の場合,まず,画像検査や内視鏡検査を行って,病気がどこにあり,どんな様子かを推定します。その結果,がんである疑
(類型B-(2))もう一歩踏み込んで明確に説明する [関連] 既往症(きおうしょう)(類型B) まずこれだけは 病歴 これまでにかかった病気 これまでかかったことのある病気や手術などの診療の記録 少し詳しく 「これまでかかった病気の記録のことです。現在の病気の診断や治療法の選択に重要な手掛かりとなります。『既往症』とも言います」 時間をかけてじっくりと 「これまでかかった病気の履歴のことです。大きな病気だけでなく,薬の副作用,アレルギー,交通事故,出産経験,健康状態なども含まれます。今かかっている病気の診断に役に立ちますし,患者さんの体質を確認し,治療法の向き不向きを判断するための重要な手掛かりにもなります」 こんな誤解がある 虫垂炎など,軽かったと感じている病気は,既往歴には含まれないと誤解している患者がいる(8.1%)。特に,「大きな病気をしたことはありますか?」と聞くと,大きな病気か
国立国語研究所は,国民の言語生活の実態をとらえ,そこに問題が生じていれば,改善に向けてどのような工夫を行えばよいか,提案しています。 医療の分野では,患者中心の医療の考え方が広まり,医療者は十分に説明をし,患者は説明を理解し納得した上で,自らの医療を選ぶことが求められています。ところが,医療者の説明に出てくる言葉が分かりにくいことが,患者の理解と判断の障害になっています。 この問題を改善するために,国立国語研究所は「病院の言葉」委員会を設置し,「病院の言葉」の分かりにくさの原因を探り,分かりやすく伝えるための工夫を,医療者に対して提案しました。 病院の言葉の分かりにくさには,いくつかの類型があります。各類型を代表できる言葉57語を取り上げ,分かりやすく伝える例を,詳しく示しました。 まえがき Ⅰ.「病院の言葉」を分かりやすくする提案を行う目的 Ⅱ.「病院の言葉」を分かりやすくする工夫の類型
国立国語研究所コーパス開発センターでは、 日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。 English 国立国語研究所 現在まで公開されてきた言語資源データを学術研究・教育利用を目的として公開します。語彙表・語彙調査ごとに公開ファイルの形式は異なりますが、テキスト、エクセル、PDFの3種類のいずれかとなっています。今後は、現在未公開のものも順次公開していく予定です。 以下よりダウンロードしてご利用ください。 ※エクセルの各表は初期状態では、ワークシートが保護されていますが、「ツール」→「保護」→「シート保護の解除」で解除できます。
人の年の数を表すとき,「○○歳」とも「○○才」とも書きますが,違いはありますか。 回答 公用文では「才」を用いず「歳」を用いるように,と勧めている自治体もみられます。これには,相応の理由が考えられます。そもそも漢字「才」には「歳」と同じ意味があるわけではありません。しかも「才」と「歳」が完全な「通用」の関係にあるものではなく,あくまで年齢を書き表す場合にだけ,代用が広まっているのです。ですから「歳」とするところをすべて「才」としても通じる,とはなりません。「才費」や「才末助け合い」としたら,間違っていると誰だれしも直すでしょう。 あるとき,テレビの生放送の関係者から質問を受けました。身の上相談のような番組で,電話で参加する人の話の要点を,司会者がその場でホワイトボードに書きあげていくのです。関係者に年齢を添えるのに,「○○才」としたら,視聴者から「○○歳」とすべきだ,と意見をいただいた,と
みなさまからの「ことば(国語・日本語・言語)」に関する疑問に,研究と社会をつなぐ情報として回答します。 現在は,一部,旧『国語研の窓』「ことばQ&A」を分野別に掲載しています。順次内容の更新をします。 2015年5月19日 更新 01. 数字「0」の読み方 02. 「おぼえる」の漢字表記 03. 「くださる」と「いただく」 04. 「大きい」「高い」「強い」 05. 縦書きの数字 06. 語源や由来の説 07. 「歳」と「才」の違い 08. 申し訳ございません 09. 「御遠慮ください」 10. 「全然おいしい」 11. 原稿用紙の使い方 12. 「謹啓」の結語 13. 「ぼおる・そおす」 14. 「七夕」 15. 「受付する」の是非 16. 「御社」「御校」 17. 五十音順 18. 「こんにちは」 19. 「元旦」 20. 「了解しました。」は敬意表現にならないか。 21. 「コンセン
(類型A)日常語で言い換える [関連] 治癒(ちゆ)(類型B) 増悪(ぞうあく)(類型A) まずこれだけは 症状が落ち着いて安定した状態 少し詳しく 「症状が一時的に軽くなったり,消えたりした状態です。このまま治る可能性もあります。場合によっては再発するかもしれません」 時間をかけてじっくりと 「病気の症状が一時的に軽くなったり,消えたりした状態です。このまま再発しないで,完全に治る可能性もあります。しかし,場合によっては再発する可能性もまだあるかもしれません。再発しないようによく様子を見ていただく必要があります。ですから,定期的に検査を受けたり,薬を飲んだりしてください」 こんな誤解がある 病気が完全に治った状態だと誤解されやすい。一時的に症状が軽くなったり消えたりしているのであって,治ったわけではないことを,伝える必要がある。 言葉遣いのポイント 一般の人はふだん見聞きしない言葉であり
このコーパスのデータを更新したものを、『日本語歴史コーパス』「明治・大正編Ⅰ雑誌」の一部として、コーパス検索アプリケーション「中納言」で公開しています。「中納言」の利用にはユーザー登録が必要です。(2016/10/26) 『国民之友コーパス』(2014年公開)概要 明治中期の雑誌『国民之友』(民友社刊)の1~36号(1887~1888年刊)全文の形態論情報(単語情報)付きコーパスです。 本文テキストに、文書構造・形態論(単語)・文字・表記に関わる情報がXMLタグによって付与されています。原本画像を参照する機能もあります。 総語数:約101万語 著者数:80人以上 ※このコーパスは国立国語研究所共同研究プロジェクト「通時コーパスの設計」による成果の一部です。 利用方法 『国民之友コーパス』は以下の6つのデータファイルで構成されます。ダウンロードしてお使いください。 ※このコーパスはクリエイテ
BCCWJ語彙表(全体) (Version 1.0 のものです) BCCWJの語彙表(頻度リスト)を公開します。研究、教育目的であれば無償で自由にお使いになれます。 なお、詳しい利用上の注意は解説のファイルをご参照下さい。 解説 : BCCWJ_frequencylist_manual_ver1_0b.pdf(2017-07-12 ファイル名を変更しました) 短単位語彙表データ : BCCWJ_frequencylist_suw_ver1_0.zip 長単位語彙表データ : BCCWJ_frequencylist_luw_ver1_0.zip 長単位語彙表データ(頻度2以上) : BCCWJ_frequencylist_luw2_ver1_0.zip 品詞構成表 : BCCWJ_frequencylist_pos_ver1_0.zip 語種構成表 : BCCWJ_frequencylist
国立国語研究所は,日本語及び日本語教育研究の国際的研究拠点として,海外に拠点を持つ国際会議を誘致し開催しています。今回は,アメリカに拠点を持つ日本語実用言語学国際会議(ICPLJ)を開催します。 日程2014年3月22日(土) - 23日(日) 会場国立国語研究所 東京都立川市緑町10-2 (交通案内) ポスターPDF (109KB) プログラム詳細はこちらをご覧ください 開催の趣旨 日本語実用言語学国際会議(ICPLJ)は,日本語の研究を活性化するとともに,理論的な言語研究と応用的・実用的な研究,ならびに言語教育実践との間の橋渡しの役割を果たすことを目的として1998年に創設され,音韻論,形態論,統語論,意味論,レキシコン,語用論,第二言語習得,バイリンガリズム,日本語教育,心理言語学,社会言語学,談話分析,コンピュータ支援型言語学習(CALL),言語産出などを対象として含みます。今回の
コーパスのつくり方 構築するコーパスの目的や用途により、つくり方はいろいろありますが、ここでは『現代日本語書き言葉均衡コーパス』を例につくり方を紹介します。 1. サンプリングの方法 コーパスに採録するサンプルは無作為に選ばれます。 例えば書籍の場合、1986年から2005年の間に出版された書籍を対象として、そこから無作為に約30,000サンプルを選び出しました。 実際にサンプリング作業を行うと、ある本のあるページのある文字が選ばれます。これをサンプリング点と言います。 コーパスには、サンプリング点を含む2種類のサンプルを格納します。 2. サンプルの作成 1)コーパスに採録する部分を確定します サンプリング点が決まったら、実際に採録するサンプルの範囲を確定します 2)著作権処理を行います 各サンプルについて、著作権処理を行います。使用許諾が得られなかったものは、採録されません。 3. サ
すべてのコンテンツの著作権は,国立国語研究所または原著者にあります。 研究・教育・文化的利用を目的とした非営利の使用を認めます。 ただし, 出典を明記してください。 改変を加えたものを公表しないでください。 再配布を禁止します。 上記以外の利用に関しては事前にご連絡ください。
すべてのコンテンツの著作権は,国立国語研究所または原著者にあります。 研究・教育・文化的利用を目的とした非営利の使用を認めます。 ただし, 出典を明記してください。 改変を加えたものを公表しないでください。 再配布を禁止します。 上記以外の利用に関しては事前にご連絡ください。 首都圏の言語の研究には,方言研究,近代語研究,社会言語学的研究といった,様々な背景のもとで行われてきた蓄積がある。またその中核となる,「東京のことば研究」に関しては,東京出身の研究者による,母語話者としての自らの内省と観察を深く反映させた研究が行われてきていることが,大きな特色である。 そこで私たちは,東京・首都圏の言語研究の第一人者であり,かつ,御自身が東京のことばのネイティブスピーカーでいらっしゃる先生方に,お話しをうかがい,同時に記録させていただく機会を得たいと考え,「東京のことば」研究者インタビューを企画した
2020.06.01 有償版コーパスの契約及び問合せ対応を再開しました。... 2020.04.07 【重要】有償版コーパスの契約及び問合せ対応を一時停止します。再開は6月を予定しています。... 2018.01.17 『日本語話し言葉コーパス』第6刷の受付を開始しました。... 2017.02.15 検索アプリケーション『中納言』での一般公開を開始しました。... 2016.09.01 検索アプリケーション『中納言』での試験公開を開始しました。... 2016.06.22 『日本語話し言葉コーパス』第5刷の受付を開始しました。... 2015.05.27 『日本語話し言葉コーパス』第4刷の受付を開始しました。... 2015.01.16 【重要】CSJの利用申請受付を一時中断いたします。年度内に入手を希望される方は、1月30日(金)【必着】までにお申し込みください。... 2014.02
東日本大震災以来、機構の各機関では、それぞれの立場で復興支援活動を行ってきました。これらは大きな成果を上げましたが、一方で課題も見えてきました。最も大きな課題は、地域文化を総体として捉える視点、つまり、歴史学・文学・民俗学・言語学・アーカイブズ学・博物館学・情報学・環境学などの諸分野が結集した「人間文化」という視点から、地域復興を支援する必要があるということです。そこで機構では、平成24年度に連携研究「大規模災害と人間文化研究」をスタートさせました。 この研究は3つの班で構成されています A 地域文化・環境と復興・再生の研究 災害により失われた人と人のつながりをどう再構築するかをテーマに、方言や祭りによる地域コミュニティの復興・再生に関する活動を行います。この班には2つのプロジェクトがあります。 三陸沿岸地域における環境・文化遺産に配慮した地域復興支援に関する研究 (研究代表者:窪田順平)
このコーパスのデータを更新したものを、『日本語歴史コーパス』「明治・大正編Ⅰ雑誌」の一部として、コーパス検索アプリケーション「中納言」で公開しています。「中納言」の利用にはユーザー登録が必要です。(2016/10/26) 『明六雑誌コーパス』(2012年公開)概要 明治初期の学術啓蒙雑誌『明六雑誌』(1874~1875年,明六社刊)全文の形態論情報(単語情報)付きコーパスです。 記事・引用・文字に関わる情報のほか、文の境界や単語の情報がタグ付けされています。 対象は『明六雑誌』全号の全文です。 総語数:約18万語 著者数:16人 ※ 『明六雑誌コーパス』の詳しい説明は、プロジェクト報告書内の、次の二つの文書を御覧ください。 ・ 『明六雑誌コーパス』の仕様(pdf) ・ 『明六雑誌コーパス』の語彙量(pdf) 利用方法 『明六雑誌コーパス』は、3種類の形式で公開します。以下よりダウンロードし
概要 国立国語研究所コーパス開発センターでは、現代日本語の書き言葉が整備されていく過程をとらえることのできる、近代語のコーパス構築を行っています。これまでに、『太陽コーパス』『近代女性雑誌コーパス』『明六雑誌コーパス』『国民之友コーパス』の四点を公開しました。今後も、コーパス構築と公開を進めていく予定です。近代語のコーパス構築の考え方については、報告書をご参照ください。 これらのコーパスのデータを更新したものを、『日本語歴史コーパス』「明治・大正編Ⅰ雑誌」の一部として、コーパス検索アプリケーション「中納言」で公開しています。「中納言」の利用にはユーザー登録が必要です。(2016/10/26) コンテンツ 太陽コーパス 近代女性雑誌コーパス 明六雑誌コーパス 国民之友コーパス 「近代語コーパス」報告書 利用方法 問い合わせ先 近代語のコーパスについてのお問い合わせは、下記アドレスまで電子メー
次のページ
このページを最初にブックマークしてみませんか?
『pj.ninjal.ac.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く