並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 85件

新着順 人気順

コーパスの検索結果41 - 80 件 / 85件

  • 学術/TOEIC/ビジネス英文の9割を理解する単語リストを7クリックで学習する3つの表(その3)

    Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷

      学術/TOEIC/ビジネス英文の9割を理解する単語リストを7クリックで学習する3つの表(その3)
    • ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita

      ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT)MachineLearningDeepLearningword2vecbertELMo 自己紹介 単語の分散表現について簡単にまとめました。 自己紹介:Pythonでデータ分析とかNLPとか異常検知とかしてます。 質問やツッコミなど有りましたらぜひコメント下さい! モチベーション 自然言語をコンピュータに認識させるために数値化する必要が有ります。 「文の数値表現」と「単語の数値表現」があり、今回は後者にフォーカスして紹介します。 後者のうち、1単語を低い(数百程度の)次元のベクトルで表現したものを「分散表現」といいます。 分散表現にすることで以下の効果があります。 省計算量 省メモリ 意味をエンコード可 手法によっては文脈をエンコード可(多義語を理解させられる) 用語説明 : 「自然言

        ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita
      • 例文買取センター

        買取成立した例文(基本的に平日の買取業務は朝の9時台です) (買取成立日:5月5日)【支障をきたす】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【支障が出る】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【グローバル】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【インターナショナル】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【ハッカー】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【クラッカー】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【改良の余地】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【改善の余地】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日

        • 【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし

          みなさんこんにちは!FOLIOアドベントカレンダーの8日目の記事です! 昨日は弊社の顧客基盤部でバックエンドエンジニアをされているmsawadyさんによる記事でした! 8日目の本記事は、FOLIO金融戦略部でコンテンツの編集&執筆をおこなっています設楽がお届けします。 この記事の目的・初心者向けに、Pythonを使ったデータ分析(自然言語処理)の初歩の初歩を伝える記事。 読者対象・Python初心者。データ分析初心者 ・アンケートとか顧客の声を分析してみたいと考えている人 私ですが、普段は弊社サービスを使って頂いているユーザー様向けに、投資や資産運用に関するいろいろな記事を執筆、編集しているという、データ分析とかプログラミングとは全然関係ない業務をおこなっています。 今回は、お客様から回答頂いているアンケートを使い、サービスがもっと良くなるためのヒントや、お客様がどういう点に困っていたり悩

            【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし
          • OSCAR

            Open Source Project on Multilingual Resources for Machine Learning The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. The project focuses specifically in providing large quantities of unannotated raw data that is commonly use

              OSCAR
            • 「Go Toトラベル」という英語では使われない表現が日本で使われるのはなぜですか - ことばの疑問 - ことば研究館

              2020年の流行語のひとつに「Go Toトラベル」があります。これは英語では使われない表現だと聞いたのですが、そうなのでしょうか。そうだとすれば、どうしてそのような言い方が日本語として使われるのでしょうか。 「Go Toトラベルキャンペーン」が話題になっています。ここではどうして、「英語では使われないのでは」という質問の出るような表現が生まれ、また受け入れられているのか、その背景を、日英語対照研究の観点から考えてみたいと思います。 「Go To トラベルキャンペーン」は、「Go To キャンペーン」の1つで、ほかに「Go To イートキャンペーン」、「Go To イベントキャンペーン」などがあります。これを英語の表現として考えた場合、go to eat  ならto は不定詞のto、go to  events なら前置詞のto です。用法は違いますが、同じto だからということで、まとめてG

                「Go Toトラベル」という英語では使われない表現が日本で使われるのはなぜですか - ことばの疑問 - ことば研究館
              • ねこでもわかるWord2Vec入門 - Qiita

                モチベーション 初めまして、pyaNottyと申します。初投稿です。 最近、MeCabやらkerasやらに触れる機会があり、せっかくなので何か自然言語処理にチャレンジしたいなと思いました。自然言語処理、とくにLSTMなどを用いた文章生成なんかでは、Word2Vecによる分散表現が利用されることが多いと聞きます。今回は、LSTMモデルに食わせることができる単語の分散表現を、Word2Vecで作ってみようと思います。 ねこ並みの知能しか持ち合わせていない筆者でも、なんとかできるくらい簡単です。 Word2Vecとは 単語をベクトルに変換するためのモデルのことです。 何か文章を使ってLSTMモデルとかを訓練する場合、生の文字列をモデルに食わせることはできません。ですので、文章を何らかの数値表現に変換する必要があります。例えば、「これはペンです」という文章の場合、['これは', 'ペン', 'です

                  ねこでもわかるWord2Vec入門 - Qiita
                • 株式会社レトリバ

                  2021.3.15 レトリバと国立国語研究所の共同研究成果 「日本語話し言葉コーパス(CSJ)を用いた日本語話し言葉BERT」を公開 コールセンターの音声認識結果を使用した対話要約などの精度向上に貢献 株式会社レトリバ(本社:東京都新宿区、代表取締役 河原一哉、以下レトリバ)は、このたび大学共同利用機関法人人間文化研究機構国立国語研究所(以下国語研)との共同研究成果の「日本語話し言葉コーパス(Corpus of Spontaneous Japanese、以下CSJ) ※1 を用いた 日本語話し言葉BERT」※2を新たに公開します。 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれる事前学習モデルが盛んに研究されています。 日本語では、WikipediaデータやSNSデータを事前学習

                    株式会社レトリバ
                  • データベース | 中俣尚己Webサイト

                    『文法コロケーションハンドブックE』 これは何ですか? 2014年の『日本語教育のための文法コロケーションハンドブック』と同じスタイルで、様々な中上級の文法項目をコーパスのデータをもとに記述していくスタイルです。最大の特徴は、中俣の執筆した教材を使ってコーパスの使い方を学んだ大学院生の手によって記述されているということです。(全項目、中俣が監修しています。)まずはPDF版にて公開。今後、他の形態での拡大も視野に入れています。 利用方法 以下より最新版のPDFをダウンロードしてください。 文法コロケーションハンドブックE Ver.2024.4 日本語話題別会話コーパス: J-TOCC 『日本語話題別会話コーパス:J-TOCC』の概要 『日本語話題別会話コーパス:J-TOCC』は話題を固定し、各話題について等しい時間の、親しい大学生どうしの1対1会話を録音、文字化したコーパスです。15話題につ

                    • デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催

                      デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催AIのビジネス活用・企業におけるDX/UX・LINEの最新AI技術など、全12セッションをオンラインで配信 LINE株式会社 AIカンパニー(本社:東京都新宿区、カンパニーCEO:砂金 信一郎)は、LINEのAI事業「LINE CLOVA」に関するカンファレンス『LINE AI DAY 2021』を7月15日(木)に開催しましたので、お知らせいたします。 イベント公式ページ:https://clova.line.me/lineaiday2021/ 「LINE AI DAY 2021」は、「これからのあたりまえ」となるデジタル化社会の未来を描くカンファレンスです。 本カンファレンスでは、各業界の最前線で「これからのあたりまえ」の実現に向けて取り組むキーパーソンが多数登壇し、AIのビジネス活用

                        デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催
                      • The NLP Index

                        Red teaming is a common strategy for identifying weaknesses in generative language models (LMs), where adversarial prompts are produced that trigger an LM to generate unsafe responses. Red teaming is instrumental for both model alignment and evaluation, but is labor-intensive and difficult to scale when done by humans. In this paper, we present Gradient-Based Red Teaming (GBRT), a red teaming meth

                          The NLP Index
                        • 【日本初】日本語を買い取ってくれる「例文買取センター」を正式リリース

                          株式会社セラーバンク(本社:神奈川県川崎市、代表取締役社長:但見雄)は、日本語を学びながら日本語を売ることが出来るサービス「例文買取センター」(URL:https://reibuncnt.jp)の提供を開始しました。 例文買取センターの概要 例文買取センターは、みんなで考えた例文を日本語の勉強をしている多くの人に役立つものにするサービスです。 「例文を考える」→「メールで送る」→「Amazonギフト券が届く」という非常にシンプルな流れとなっています。 日本語を学びながら、日本語を売ることが出来ます。 例文買取センターの買い取り基準 「他の例文の内容と重複していない」「ちゃんとした文章になっている」という2つの条件を満たしていれば基本的には買い取るようにしています。 複数の方から上限を超える買取依頼があった場合は「長めの例文」「読者の役に立ちそうな例文」を優先しています。 また、買取依頼前に

                            【日本初】日本語を買い取ってくれる「例文買取センター」を正式リリース
                          • 自然言語処理の必須知識!Word2Vec とは?

                            Word2Vec とは Word2Vec は自然言語を数ベクトルで表現する手法の一つです。中でも、Word2Vec は単語をベクトルで表現する手法です。下図はそのイメージです。 テキストにベクトル表現を対応づける より正確には、Word2Vec は Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Space, ベクトル空間における単語の表現の効率的推定, https://arxiv.org/abs/1301.3781) で発表した一連の手法です。 モデルとして CBoW 、Skip-Gram の二種類、最適化戦略として階層的ソフトマックス、負例サンプリングの二種類を含みます(この記事では詳しい説明を省略します)。 「単語がベクトル空間で表現される」というのはイメージが湧きにくいかもしれ

                            • テキストマイニングのサンプルデータを自力で準備する - Qiita

                              ※実際に試した方から「Yahoo!ショッピングの商品レビューが全て取得できているわけではないらしい」「期待したよりも取得できるデータが少ない」といった感想をもらっています。きちんと確認できていませんが、APIの仕様なのかもしれません。(2020/10/24追記) 概要 最近テキストマイニングの勉強を始めたのだが、いい感じのサンプルデータが手に入らず苦労した。自分と同じ悩みを抱えている人もいるかもしれないので、自力でサンプルデータを準備するまでの試行錯誤を記事にする。 なお、私は職場でアンケートの自由記述(感想とか要望とか)を分析することが多いので、なるべく似た形式のデータを手に入れるのが目標。 手段の検討 青空文庫 テキストマイニングの本でもよく見かける青空文庫は、著作権の消滅した文学作品などを掲載したWebサイト。ただ、アンケートデータには似ていないので今回は見送り。 メリット 簡単にか

                                テキストマイニングのサンプルデータを自力で準備する - Qiita
                              • GitHub - megagonlabs/ebe-dataset: Evidence-based Explanation Dataset (AACL-IJCNLP 2020)

                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                  GitHub - megagonlabs/ebe-dataset: Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
                                • Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understa

                                  Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                                    Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understa
                                  • Experiments_on_RCQA

                                    東北大 乾・鈴木研究室が公開している解答可能性付き読解データセットを利用し、既に公開されている利用可能な日本語BERTモデルとNICTが公開する2つの日本語BERTモデルの比較実験を行いました。解答可能性付き読解データセットに含まれる56,651件の質問・解答・文書の組に対して付与された「文書の読解によって質問に答えることができるかどうか」のスコアが2以上の事例から正解を抽出し、それ以外の事例は正解無しとして、与えられた質問に対して文書中から回答となる単語列の特定を行い、参考文献と同様に正解との完全一致の割合(EM)と正解の単語列に対する再現率と精度から求められるF1スコアの平均(F1)の2つの評価尺度で結果を比較しました。(ただし、訓練・開発・テストの分割等、実験設定の詳細は必ずしも参考文献とは一致していません) NICTが公開するモデルとの比較に利用したBERT事前学習モデルは下記の6

                                    • 言語処理100本ノックでPythonに入門 - Qiita

                                      この記事は、C言語は少しわかるけどPythonはほぼ知らない状態で、Pythonによる自然言語処理を始めたい人向けです。自然言語処理の入門として名高い言語処理100本ノック2015の第1章を解けるようになる最短ルートを目指しています。 (4/8 追記 2020年版も第1章は同じです) 100本ノックの解答例自体はこのQiitaでも既に多くの記事がありますが、解説はさほど充実しておらずPython初学者には大変かと思い、本記事を執筆いたしました。 Pythonは公式のドキュメントがかなり親切で、チュートリアルを読めば自力で勉強できるとは思いますが、本記事では100本ノックを解くのに必要な事項だけ触っていきたいと思います。 インストール 頑張りましょう。MacOSなら$ brew install python3、Ubuntuなら$ sudo apt install python3.7 pyth

                                        言語処理100本ノックでPythonに入門 - Qiita
                                      • Shinnosuke Takamichi (高道 慎之介) - jvs_music

                                        This corpus consists of multi-speaker singing-voice data. The specification is as follows. 100 singers (their reading voices are stored in the JVS corpus.) Each singer sung 2 songs; A Japanese child-song "katatsumuri" as a common song (raw.wav). Also included: The edited version whose pitch and tempo are modified for each singer. The edited version whose pitch and tempo are unified among singers.

                                          Shinnosuke Takamichi (高道 慎之介) - jvs_music
                                        • 研究者向け マルチモーダルデータベース ログインページ

                                          マルチモーダルデータベース配布についてのQ&A Q:どんなデータが配布されているの? 東北イタコ、ずんだもん、四国めたん、九州そら、中国うさぎがITAコーパスおよびROHAN4600を読み上げたデータになります。 口の動きの画像データ、口の動きの座標をまとめたデータ、音声データ、音声の境界などが入ったラベルデータがあります。 Q:利用用途は? 研究目的、著作権法30条の4の利用範囲でお願いします。 読唇の研究、音声合成の研究、音声認識の研究、リップシンクの研究、その他の研究にお役立てください。 観賞用としてダウンロードするのはNGとなります。 研究の範囲内で機械学習などでできあがった音声などを公開する分には問題ありません。 依拠性・類似性がある形でソフトウェアとして配布したい場合はSSS合同会社にお問い合わせください。(各所に調整が必要になりますので) Q:注意点は? 話者の画像の掲載は絶

                                          • 言語資源開発センター

                                            Information ⇒ 詳細はこちら ◇ 2023/03/31 更新 2023/03/31 ● BCCWJ文字表・表記表公開のお知らせ 「現代日本語書き言葉均衡コーパス」の文字頻度表と短単位の表記一覧表を公開しました。 2023/03/30 ● 中納言へのコーパスの追加及びシステム更新のお知らせ 中納言に「昭和・平成書き言葉コーパス」(SHC)を追加したほか、システムを更新しました。 2023/03/24 ● 現代語用UniDic更新のお知らせ 現代語用のUniDic v2023.3(書き言葉用、話し言葉用)を公開しました。 2023/03/04 ● サーバ更新に伴うサービス停止のお知らせ 以下の期間中は、「中納言」がご利用できません。 2023年3月24日(金)9:00~3月27日(月)10:00 [日本時間] 2022/12/08 ● 年末年始休業に伴うサービス停止のお知らせ(12

                                            • Excelに整理した「アンケート自由記述」を分析しよう!(その1) ~様々な可視化を自動に~ - Qiita

                                              20211130:Word-cloud記述に誤りあり、修正。 はじめに 過去の記事で、テキスト(自然言語)の分析や可視化を紹介しました。分析の手順としてはザっと以下のような内容です。 自由記述であれ何であれ、テキスト(自然言語)をガサっとtxtテキストファイルに放り込む。 「。」でセンテンスに分割。 形態素分析。 WordCloud、出現語カウントグラフ、共起ネットワーク…等を描画 アンケート等で得た結果を全般として把握したい場合は、上記の方法でいいですが、User単位で表形式でまとめられた形式は崩さず、満足度等の情報があればそれらも活かして分析を進めたいですね。 自然言語処理は様々なサイトで紹介されていますが、なぜか不思議とテキストデータを取り込んで…というものばかり。 表形式のデータを取り込み、データフレーム化して自然言語処理を進めたいということで、やってみましたという記事です。 所定

                                                Excelに整理した「アンケート自由記述」を分析しよう!(その1) ~様々な可視化を自動に~ - Qiita
                                              • 学術/TOEIC/ビジネス英文の9割を理解する単語リストを7クリックで学習する3つの表(その2)

                                                Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷

                                                  学術/TOEIC/ビジネス英文の9割を理解する単語リストを7クリックで学習する3つの表(その2)
                                                • Japanese Wiki Corpus

                                                  © A. C. Yu  —  Generated from the Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles which is translated by the National Institute of Information and Communications Technology (NICT) from Japanese sentences on Wikipedia, used under CC BY-SA.

                                                    Japanese Wiki Corpus
                                                  • NINJAL-LWP for BCCWJ (NLB)

                                                    ■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日本語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプ

                                                    • UD_Japanese-GSD

                                                      Description This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0. The Japanese UD treebank contains the sentences from Google Universal Dependency Treebanks v2.0 (legacy): https://github.com/ryanmcd/uni-dep-tb. First, Google UDT v2.0 was converted to UD-style with bu

                                                      • Tkrzw-Dict: 統合英和辞書プロジェクト

                                                        Tkrzw-Dict: 統合英和辞書プロジェクト 概要 統合英和辞書プロジェクトは、オープンなデータを使って英和辞書を作り、それを元に様々なアプリケーションを作るプロジェクトです。現在、以下のアプリケーションが利用可能です。 オンライン辞書検索システム Chrome拡張の辞書検索機能 オンライン連想英単語帳: 初級編3600語、上級編9600語 オンライン語彙力年齢診断 Kindle用電子辞書: 英和辞書、和英辞書 辞書データの元となるオープンなデータとは、WordNet、日本語WordNet、Wiktionary英語版、Wiktionary日本語版、Wikipedia英語版、Wikipedia日本語版、EDict2、田中コーパス、Wikipedia日英京都関連文書対訳コーパス、Japanese-English Subtitle Corpus、CCAligned、Open American

                                                        • 録音室の反響音、いろんな人にアドバイスいただいて対策成功しました!

                                                          Yちゃん @y_chan_dev MMVC試しててわかったんだけどあみたろさんのITAコーパス反響音が結構残っているらしい 多分、例のデモの音がちょっと響いているのもその影響かもしれない 2022-04-03 00:29:36 Yちゃん @y_chan_dev というわけでですね、以前OV2L Evolving Summitでデモをした、VOICEVOXを利用した小春音アミ音声合成モデルに関して、第4回中高生情報学研究コンテストに出しました(大したものではないんですが) onsite.gakkai-web.net/ipsj/poster/#:… これに合わせて、アミちゃんに軽く大阪弁を喋らせるデモを作ったので公開します pic.twitter.com/vTe8158TA8 2022-02-22 18:21:12

                                                            録音室の反響音、いろんな人にアドバイスいただいて対策成功しました!
                                                          • GitHub - fchollet/ARC: The Abstraction and Reasoning Corpus

                                                            This repository contains the ARC task data, as well as a browser-based interface for humans to try their hand at solving the tasks manually. "ARC can be seen as a general artificial intelligence benchmark, as a program synthesis benchmark, or as a psychometric intelligence test. It is targeted at both humans and artificially intelligent systems that aim at emulating a human-like form of general fl

                                                              GitHub - fchollet/ARC: The Abstraction and Reasoning Corpus
                                                            • gensimのコーパス操作 - 機械学習・自然言語処理の勉強メモ

                                                              コーパスを作るときの操作をまとめる。 from gensim import corpora doclist = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system'], ['eps', 'user', 'interface'], ['system', 'human', 'system', 'eps'], ['user','time'], ['trees', 'user'], ['graph', 'trees'], ['graph', 'minors', 'minors','trees'], ['graph', 'minors', 'survey']] dic = corpora.Dictionary(doclist) print dic.token2id # {u'minors': 10,

                                                                gensimのコーパス操作 - 機械学習・自然言語処理の勉強メモ
                                                              • 特集 : コーパスを通して話し言葉をながめる - ことばの波止場 - ことば研究館

                                                                西尾実 初代所長によるあいさつ (国立国語研究所創立10周年祝賀式、1959年3月6日、学士会館) コーパスで話し言葉を縦と横につなぐ 「会話コーパス」プロジェクト 国立国語研究所ではこれまで様々なコーパス(言葉のデータベース)を公開してきました。図1は、コーパス開発センターを中心に公開しているコーパスの一覧です。共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」(「会話コーパス」プロジェクト)が始まった当時、グレーで記したコーパスしかありませんでした。書き言葉のコーパス(上の段)は、小説や新聞、雑誌、行政白書など多様なジャンルのテキストをバランスよく収めた『現代日本語書き言葉均衡コーパス』(BCCWJ)や、奈良時代から大正時代までの書き言葉を対象とする『日本語歴史コーパス』(CHJ、構築中)など、とても充実していますが、話し言葉のコーパス(下の段)は、一人の人が話

                                                                  特集 : コーパスを通して話し言葉をながめる - ことばの波止場 - ことば研究館
                                                                • word2vecを簡単に試してみる - Qiita

                                                                  word2vecとは? 言語モデルをもとに、単語をベクトル化して計算できるようにしたもの 学習させる言語モデルは自分で指定できる(例:NARUTOの世界観でモデルを作成するなど) 環境 mac os x jupyter notebook python 3.8.2 学習済み日本語モデルを使う 今回は日本語版wikipediaをもとにした学習済みモデルを使用する http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ ダウンロードしたファイルを解凍する "entity_vector.model.bin"を実行環境と同じディレクトリに移動させる モデルをロードする import gensim word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('./entity

                                                                    word2vecを簡単に試してみる - Qiita
                                                                  • [PDF]書誌データ・青空文庫・点字データを用いた 振り仮名注釈付き日本語コーパスの構築(情報処理学会研究報告)

                                                                    • レシピ用語の定義とその自動認識のためのタグ付与コーパスの構築

                                                                      自然言語処理において,単語認識(形態素解析や品詞推定など)の次に実用化可能な課題は,ある課題において重要な用語の認識であろう.この際の重要な用語は,一般に単語列であり,多くの応用においてそれらに種別がある.一般的な例は,新聞記事における情報抽出を主たる目的とした固有表現であり,人名や組織名,金額などの 7 つか 8 つの種別(固有表現クラス)が定義されている.この重要な用語の定義は,自然言語処理の課題に大きく依存する.我々はこの課題をレシピ(調理手順の文章)に対する用語抽出として,レシピ中に出現する重要な用語を定義し,実際にコーパスに対してアノテーションし,実用的な精度の自動認識器を構築する過程について述べる.その応用として,単純なキーワード照合を超える知的な検索や,映像と言語表現のマッチングによるシンボルグラウンディングを想定している.このような背景の下,本論文では,レシピ用語タグセット

                                                                      • TEC-JL コーパス - Qiita

                                                                        概要 TEC-JL コーパス について紹介します。 3行まとめ 日本語学習者の文法誤り訂正システムのための評価コーパスです。 (手書きの作文ではなく)キーボードから入力した作文に、最小限の訂正で文法的に正しい文になるよう、文法誤り訂正情報を付与しています。 大幅な訂正も許容して、文法的に正しくかつ流暢な文にするようなコーパスを現在作成中です。 いきさつ 自分の所属する都立大システムデザイン学部情報科学科(およびその前身の情報通信システムコース)では、研究室配属は4年生ですが、3年生の後期に「研究室インターンシップ」として研究室に仮配属され、(研究室ごとにそれぞれ異なる)研究を体験できる、というシステムがあり、それの一環として研究をしたい(学部3年生で論文を書いてみたい)という学生に対しては、半年間研究をして論文を書いてもらい、3月の言語処理学会年次大会で発表する、ということをしています。

                                                                          TEC-JL コーパス - Qiita
                                                                        • 自然言語処理を理解しよう Seq2SeqからTransFormer(Attention)まで - Qiita

                                                                          本書は時系列データを別の時系列データに変換するSeq2Seqについて、RNN、LSTMからAttentionまで説明します。また、Attentionを用いた最新の様々な自然言語モデルのベースとなっているTransFormerについても説明します。(CNNの基礎を理解している前提で記載しています。まだ理解していない方は別冊のCNNの基礎を先に読んでください) Seq2Seqを基礎から理解するために、本書では以下の順番で説明を行います。最初に時系列データを扱うシンプルな構造であるRNN(Recurrent Neural Network)からはじめ、RNNを性能改善したLSTM(Long Shot Term Memory)、Encoder-Decoderモデル、そして本書の目的であるSeq2Seqの順に説明を行います。さらにSeq2Seq に劇的な進化を起こすディープラーニングにおける重要なアー

                                                                            自然言語処理を理解しよう Seq2SeqからTransFormer(Attention)まで - Qiita
                                                                          • SNOW D18:日本語感情表現辞書

                                                                            (感情リスト)安らぎ、楽しさ親しみ、尊敬・尊さ、感謝、気持ちが良い、誇らしい、感動、喜び、悲しさ、寂しさ不満、切なさ、苦しさ、不安、憂鬱、辛さ、好き、嫌悪、恥ずかしい、焦り、驚き、怒り、幸福感、恨み、恐れ(恐縮等の意味で)、恐怖、悔しさ、祝う気持ち、困惑、きまずさ、興奮、悩み、願望、失望、あわれみ、見下し、謝罪、ためらい、不快、怠さ、あきれ、心配、緊張、妬み、憎い、残念、情けない、穏やか

                                                                              SNOW D18:日本語感情表現辞書
                                                                            • ヤフー知恵袋掲載の質問とベストアンサー情報を収集できる無料ツール、FAX番号付き法人名簿やヤフー知恵袋データ情報の自動収集ならシルクスクリプト

                                                                              WEB上に掲載されているYahoo!知恵袋の質問とベストアンサーのデータ情報をCSV形式(EXCELで読み込み可能)で保存し、リスト作成するソフトです。 保存される情報は、質問内容、ベストアンサー、質問日時、ベストアンサー回答日時、閲覧数、回答数などをリスト化します。 データの出力例はこちら Yahoo!知恵袋サイトの仕様上、製品版では分類毎にデータを取得できる件数は最大1000件(10件×100ページ)までとなっています。 より多くの件数を取得した場合は、キーワードの変更やデータ出力順を変更してご利用ください。 製品版ファイルに含まれる「yhc_csv.exe」というファイルを実行してください。 実行して起動した画面のタイトル部分(Yahoo!知恵袋情報取得ソフト と表示されている箇所)を右クリックしますと、 上記左画像のメニュー一覧が表示されます。(※当ページよりダウンロードした体験版

                                                                                ヤフー知恵袋掲載の質問とベストアンサー情報を収集できる無料ツール、FAX番号付き法人名簿やヤフー知恵袋データ情報の自動収集ならシルクスクリプト
                                                                              • 青空文庫振り仮名注釈付き音声コーパスの公開について | NDLラボ

                                                                                2024年02月07日 NDLラボ公式GitHub上に、青空文庫振り仮名注釈付き音声コーパスを公開しました。 このデータセットは、 青空文庫で公開されている著作権保護期間が満了した作品のテキストデータと、視覚障害者情報総合ネットワーク「サピエ」(社会福祉法人日本点字図書館がシステムを管理し、全国視覚障害者情報提供施設協会が運営)が視覚障害者に提供している音声デイジーデータとを照合して構築した、単語とその読みの情報に関するデータセットです。 青空文庫振り仮名注釈付き音声コーパス https://github.com/ndl-lab/hurigana-speech-corpus-aozora このデータセットは大量のデータを必要とする機械学習等への利用を想定したもので、2021年9月に公開した「振り仮名注釈コーパス(青空文庫コーパス)」が点字データを利用して作成したデータセットであるのに対し、

                                                                                • シン・ゴジラ/全台詞 I - From the Planet with LOVE

                                                                                  シン・ゴジラ / 全台詞 1 TOHO1 2 TOHO2 3 TOHO PICTURES| 4 MAIN TITLE 5 EITIN 6 Persecution of the masses (1172) / 上陸 7 ゴジラ上陸 /「ゴジラ」/ 進化|22 EM20_CH_alterna_03 / 報告 8 11174_rhythm+melody_demo / 対峙|23 EM20_CH_alterna_04 / 共闘 9 Early morning from Tokyo (short) / 報道1|24 宇宙大戦争 /「宇宙大戦争」/ ヤシオリ作戦 10 11174_light_edit_demo 索敵|25 Under a Burning Sky / 特殊建機第1小隊 11 EM20_rhythm_GZM / 組織結成|26 Under a Burning Sky / 特殊建機第2・3

                                                                                    シン・ゴジラ/全台詞 I - From the Planet with LOVE