全文検索システム『ひまわり』 本ページは,『毎日新聞記事データ集』を利用する方法へ移動しました。 1 秒後に 全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法 に移動します。 (移動しない場合は、上のリンクをクリックしてください。)
全文検索システム『ひまわり』 本ページは,『毎日新聞記事データ集』を利用する方法へ移動しました。 1 秒後に 全文検索システム『ひまわり』/『毎日新聞記事データ集』を利用する方法 に移動します。 (移動しない場合は、上のリンクをクリックしてください。)
Option 複合動詞 形容詞 Webデータに基づく サ変動詞用例データベース (開発版) 部分一致検索します(例1:探索,例2:索)。サ変名詞の部分だけを入力してください。 部分一致 完全一致 前方一致 後方一致 「サ変名詞+する」タイプの動詞,および,その用例を検索することができます(例:「探索する」) 読み,表記を同時に検索します。 表示される格要素が少ない場合,連体修飾要素を一覧したいなどの場合は,Optionを調節してください。 新着情報 2014-04-15: 一部の環境で用例が文字化けする不具合を修正しました。 2013-02-05: 公開を開始しました。 更新情報(2013-02-05), Tweet ©2012-2017 Masaya YAMAGUCHI このサイトについて 使用条件 文書など
Option 複合動詞 形容詞 Webデータに基づく サ変動詞用例データベース (開発版) 部分一致検索します(例1:探索,例2:索)。サ変名詞の部分だけを入力してください。 部分一致 完全一致 前方一致 後方一致 「サ変名詞+する」タイプの動詞,および,その用例を検索することができます(例:「探索する」) 読み,表記を同時に検索します。 表示される格要素が少ない場合,連体修飾要素を一覧したいなどの場合は,Optionを調節してください。 新着情報 2014-04-15: 一部の環境で用例が文字化けする不具合を修正しました。 2013-02-05: 公開を開始しました。 更新情報(2013-02-05), Tweet ©2012-2017 Masaya YAMAGUCHI このサイトについて 使用条件 文書など
概要† 『表記統合辞書』は,言語研究・自然言語処理用に開発された,同語判別のための基礎データです。 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)で開発された形態素解析システム『茶筌』付属の電子化辞書『IPADIC 』ver.2.4.4 に対応しています。 『表記統合辞書』は無償でご利用いただけます。 著作権及び使用条件をあらかじめご確認の上,ご利用ください。 「ver.1.0 のダウンロード」のページからダウンロードしてください。 『表記統合辞書』の利用例としては,『茶筌』で形態素解析した結果に対して,同語判別を行う,ということが挙げられます。例えば,『茶筌』の解析結果(『IPADIC』 ver.2.4.4 を利用した場合)では,「組み立てる」と「組立てる」は表記上の違いにより,別語となりますが,『表記統合辞書』を使うことにより,同じ語であると判断することが
概要† 語種辞書『かたりぐさ』*1は,独立行政法人国立国語研究所 研究開発部門 第一領域によって作成された,言語研究,自然言語処理用の語種情報データです。 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)より公開されている形態素解析システム『茶筌(ChaSen)』付属の電子化辞書『IPADIC』バージョン2.4.4(2001年3月)に対応しています。 『かたりぐさ』は無償でご利用いただけます。 著作権・使用条件に関する情報をあらかじめご確認の上,お使いください。 配布ページでは,利用状況を調べるためのアンケートを行っています。ご協力いただければ幸いです。 語種(ごしゅ)とは,一般的に,語の出自(ある言語の中でどのようにしてその語が使われるようになったか)を指します。 日本語の語種は,多くの場合,「和語」「漢語」「外来語」と,これらのうちの2種以上が結合した「混種
『えだまめ』はフォルダに分類したファイルから『ひまわり』で利用できるデータを作るためのソフトウェアです。 『ひまわり』は言語研究のための高速な全文検索システムですが、『ひまわり』用のデータを作成することは必ずしも容易ではありませんでした。そこで、誰にでも『ひまわり』用データを作ることができるように作成したのが『えだまめ』です。 検索対象のテキストファイルを用意すれば、簡単に『ひまわり』用データを作り、研究に生かすことができます。パソコンに詳しくない人にも扱いやすいように配慮して作られていますので、ぜひお試しください。 以下のページでは、『えだまめ』を使って『ひまわり』用のデータを作成し、実際に検索できるようにするまでを順を追って説明します。 ↑
『えだまめ』とは† 『えだまめ』はフォルダに分類したファイル(テキスト・XML・HTML)から『ひまわり』で利用できるデータ(XMLファイル)を作るためのソフトウェアです。 『ひまわり』は言語研究のための高速な全文検索システムですが、『ひまわり』用のデータを作成することは必ずしも容易ではありませんでした。そこで、誰にでも『ひまわり』用データを作ることができるように作成したのが『えだまめ』です。 検索対象のテキストファイルを用意すれば、簡単に『ひまわり』用データを作り、研究に活かすことができます。パソコンに詳しくない人にも扱いやすいように配慮して作られていますので、ぜひお試しください。 『えだまめ』を使ってテキストファイルを変換後『ひまわり』で検索すると、次のような形で利用できるようになります。 上の図の検索結果のうち、「タイトル」はファイル名、「パス」はファイルが入っていたフォルダ名になり
『青空文庫』パッケージの概要† 本パッケージは,『青空文庫』の作品(16429作品)を『ひまわり』用にインポートしたデータです。また,「作家別作品一覧拡充版」や作品に含まれる文字数などの情報を取り込んでいます。 ↑ 収録データの内容† サイト:『青空文庫』 収録作品,および,関連データ 「作家別作品一覧拡充版」(2024-04-01時点のデータを使用。リンク先は現在のものなので注意)から次の条件を満たす16429作品 著作権が切れていること XHTML 版が存在し,かつ,『青空文庫』サイトから配布されていること 『ひまわり』用にインポートできること なお,底本が複数ある作品は,「文字遣い種別」が新字,新仮名の作品を優先しました 「作家別作品一覧拡充版」から作品,著者などに関する情報を取り込んでいます。 ただし,分類番号が空欄の場合は,「青空文庫 分野別リスト」(https://yozora
1.はじめに† 『ひまわり』の検索用データの作成方法について説明します。 ここでは,タグ付けされていないテキストに書誌情報をタグ付けした簡単な XML 文書を作成します。 ↑ 2.用意するもの† 『ひまわり』(ver.1.6以降)のインストール 検索対象のテキスト テキストエディタ Windows の場合: サクラエディタ,秀丸エディタ macOS の場合: mi なお,上記以外のエディタをお使いの方は,次の条件のファイルを作成できるエディタをご用意ください。お使いのエディタで作成できない場合は,文字コード変換プログラムを利用して,文字コードと改行コードを変換してください。 文字コード: Unicode (UTF-16 BOM 付き) 改行コード: LF simpledoc.zip ... ダウンロードしておいてください。 ↑ 次に書誌情報として,「著者」と「タイトル」を付与することにしま
利用者マニュアル 全文検索システム『ひまわり』 利用者マニュアル ver.1.3 (公開:2007-04-11公開,更新:2009-07-07,2011-02-16,2011-07-01) 山口昌也(大学共同利用機関法人 人間文化研究機構 国立国語研究所)
『ひまわり』とは† 『ひまわり』は,言語研究用に設計された全文検索システムで,次の機能を持っています。 XML 文書から特定の文字列を高速に全文検索する機能 (Unicode に対応) 検索結果の KWIC (KeyWord In Context) 表示,および,資料に適した形で閲覧する機能 『ひまわり』を使うことにより,『太陽コーパス』,『日本語話し言葉コーパス』,『分類語彙表』などの既存の言語資料や,自分で作成した XML 文書を検索することができるようになります。なお,『ひまわり』は Java 言語で記述されており,Windows, Linux, macOS などさまざまな OS 上で動作します。 ダウンロード† ご意見・ご感想をダウンロードのページのアンケートフォームからお寄せください。 最新の情報は,Blueskyでもお知らせします。 ビデオチュートリアルを用意しています。『ひま
Webデータに基づく複合動詞用例データベース 概要† 日本語複合動詞リストは,複合動詞用例データベースに登録されている複合動詞の一覧です。主として,語彙的複合動詞を収録しています。 本リストを利用する際は,次のことにご注意ください。 複合動詞用例データベースは機械的に作成しており,誤りを含みます。「収録データ」のページを必ずお読み下さい。 複合動詞研究の資料として作成しているため,収録基準は広めに取ってあります(例:語構成が不明なものも収録しています)。 ↑ ダウンロード† 日本語複合動詞リスト (ver.1.3, 2013-07-04,履歴) 3757 語を収録 クリエイティブ・コモンズライセンスに基づき配布します。非営利目的での使用,複製,再配布,修正は自由です。ただし,再配布の際は,著作権・ライセンスの表示をお願いします。また,営利目的で使用する際は,ご相談ください。 A List
Option マニュアル サ変動詞 形容詞 Webデータに基づく 複合動詞用例データベース (開発版) このデータベースは,複合動詞研究用の基礎データの提供を目的に機械的に構築されています。詳しくは,解説・関連資料をご覧ください。 読み(ひらがな)で検索します(例:さがしだす) 読み 表記 複合動詞を検索することができます(例:「さがしだす」) 複合動詞を構成する動詞で検索することもできます(例:「さがす」) 読み,表記での検索ができます。デフォルトは,「読み」検索です。 表示される格要素が少ない場合は,Optionを調節してください。 新着情報 2014-04-15: 一部の環境で用例が文字化けする不具合を修正しました。 2013-09-17: 姉妹版の「Webデータに基づく形容詞用例データベース」を公開しました。 2013-07-04: 複合動詞リストを更新しました。変更点は,「出現数
Option マニュアル サ変動詞 形容詞 Webデータに基づく 複合動詞用例データベース (開発版) このデータベースは,複合動詞研究用の基礎データの提供を目的に機械的に構築されています。詳しくは,解説・関連資料をご覧ください。 読み(ひらがな)で検索します(例:さがしだす) 読み 表記 複合動詞を検索することができます(例:「さがしだす」) 複合動詞を構成する動詞で検索することもできます(例:「さがす」) 読み,表記での検索ができます。デフォルトは,「読み」検索です。 表示される格要素が少ない場合は,Optionを調節してください。 新着情報 2014-04-15: 一部の環境で用例が文字化けする不具合を修正しました。 2013-09-17: 姉妹版の「Webデータに基づく形容詞用例データベース」を公開しました。 2013-07-04: 複合動詞リストを更新しました。変更点は,「出現数
このページでは,国立国語研究所で開発されたコーパス,辞書,ソフトウェアなどの言語資源を公開しています。 新着情報 ... 履歴† 2024-04-01:全文検索システム『ひまわり』用の『青空文庫』パッケージを更新しました。 2024-03-15: FishWatchr (ver.1.0 rev02,履歴)を公開しました。 2023-10-25: 『ひまわり』ver.1.7.4を公開しました。 2023-01-31:全文検索システム『ひまわり』を用いた『日本語学習者作文コーパス』の利用を公開しました。 2023-01-07: FishWatchr Mini (ver.2.1,履歴)を更新しました。 2022-12-19:全文検索システム『ひまわり』を用いた『小中高大生による日本語絵描写ストーリーライティングコーパス』の利用を公開しました。 2022-12-15:全文検索システム『ひまわり』の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く