タグ

日本語に関するymym3412のブックマーク (12)

  • 形態論(言語学)の教科書・概説書を書きましたので少しだけ補足と宣伝 - 誰がログ

    はじめに どういう特徴があるか どのような教科書か レベル 練習問題 言語(データ) 文献 訳語 おわりに おまけ はじめに 乙黒亮さんと共著で『形態論の諸相 6つの現象と2つの理論』というを書きました。刊行は10月10日でもう少し先ですが、Amazonほかで予約もできるような段階ですので先に少し宣伝しておきます。 以下のくろしお出版のページに詳細な情報が載っていて、書影の下にある「サンプルページを見る」から「まえがき」「目次」と各章の冒頭部分を読むことができます。 形態論の諸相 6つの現象と2つの理論|くろしお出版WEB Amazonのページはこちら この記事では書には直接は書かれていない私個人の見解などについて少し補足のようなものを書いてみます。重要なところはあとで個人サイトの方にまとめなおすかもしれません。 どういう特徴があるか 言語学の形態論という研究領域の教科書です。教科書と

    形態論(言語学)の教科書・概説書を書きましたので少しだけ補足と宣伝 - 誰がログ
  • サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK

    サイバーエージェントは6月13日、75億パラメータの日語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。 VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか?」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。 一方で「VLMのほとんどは英語のデータを中心に学習しており、日文化の理解や日語での会話に強いVLMは少ない状況」とサイバーエージェントは説明する。このような背景から同社は日語に強いVLMを公開。日語大規模言語モデルで合成して作ったデータセットをメインに学習させたという

    サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK
  • 自然な日本語ダミーテキストを生成するWebアプリを作りました

    こんな感じの文章を自動生成できます。 二人の男女を一様に観察していました。私は仕方なしに立って、再び封の中へ、自分の左右前後を見廻して母の頭は陛下の病と父の病と父の病とを結び付けて考えるのが変に気味が悪かったのです。固よりそこにはまるで解りませんけれど、おそらくそんな意味じゃないでしょう。私の考えは行き詰まればいつでも両方が同時に奥さんのいる事をとうから自覚していました。先生の附近で盗難に罹ったものが、僻んだ私の眼を擦りました。それでも鷹揚に育った私は、もっと海の中で遊んでいられるか、宅へ帰って卓に向った時、両親の死に断えた私の卒業する前に、また一種の弛みができても、決して強い言葉で説明しました。 モチベーション 同じようなツール・サービスはいくつも公開されていますが、ほとんどが以下の 3 つの方式を採用しており、個人的にはあまり満足できていませんでした。 短い定型文の繰り返し: 一種の

    自然な日本語ダミーテキストを生成するWebアプリを作りました
  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
  • Elasticsearchで日本語のサジェストの機能を実装する

    サジェストは、優れた検索エクスペリエンスにおける重要な要素です。一方で、この機能は一部の言語では実装が難しい場合があり、日語もそのような言語の1つです。このブログでは、日語のサジェスト機能を実装する際の課題と、Elasticsearchを使用してこれらの課題を克服する方法をご紹介します。 日語のサジェストの特徴次の図にはGoogleの日語サジェスト候補を表示しています。この例では、キーワードは「日」です。 日語のサジェスト機能の実装が英語よりも困難であることには、いくつかの要因があります。 単語の区切りがわかりにくいサジェストの機能を実装するには、単語を分割するためのアナライザーが必要です。英語を含む大半のヨーロッパ言語では、単語がホワイトスペースで区切られるため、容易に文章を単語に分割できます。しかし、日語では個々の単語をホワイトスペースで分割することはありません。そのため

    Elasticsearchで日本語のサジェストの機能を実装する
  • Wikipediaを用いた日本語の固有表現抽出データセットの公開

    Wikipediaを用いた日語の固有表現抽出データセットの公開

    Wikipediaを用いた日本語の固有表現抽出データセットの公開
  • ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB

    BERT日語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。 多言語pretrainedモデルには日語も含まれていますので日語のタスクに多言語pretrainedモデルを利用することも可能ですが、基単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基単位とし、日語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日

  • 大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita

    はじめに 以前、日語のBERT事前学習済モデルの紹介記事を投稿しましたストックマークの森長です。 前回の記事を多くの皆様に読んでいただき、大変ありがたく思っております。 そこで、今回はBERTに続いて、ELMoの日語学習済モデルを公開いたします。 ELMoとは ELMoは双方向LSTMを用いて学習させた言語モデルです。 ELMoによって、文脈を考慮した単語分散表現(単語ベクトル)を獲得できます。 自然言語処理では、文脈を考慮した単語ベクトルを用いることで、語義の曖昧性解消が見込めます。 例えば、以下の「人気」という単語のように、文脈によって意味が異なる単語でも、ELMoでは文脈を考慮して文脈ごとの「人気」の単語ベクトルを獲得可能です。 あのキャラクターは人気がある。 この道路は、夜に人気がなくて、危ない。 ELMoの単語ベクトルの具体的な利用方法としては、ELMoで獲得した単語ベクトル

    大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita
  • 【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita

    記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 記事は、日語のデータセットを紹介いたします。日語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日語のテキストデータセットを含みます。 機械学習に使える日語のデータセットポータル DATA GO JP: 日政府のデータカタログサイト。日政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ

    【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita
  • 日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク

    最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日の自然言語処理界隈では、文分散表現モデルであるBERTの日語を含む多言語モデルが公開になったばかりなので、日語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 言語資源に関しては、2019年6

    日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク
  • “忖度”を理解できなかった外国人が腑に落ちた「説明」とは

    30年のキャリアを誇る経営戦略コンサルタント。情報分析や業界分析に強く、未来予測やイノベーション分野が得意領域。一方で雑学にも強く、経済エンタテナーとして各方面に寄稿。経済クイズ『戦略思考トレーニング』シリーズは20万部を超えるベストセラー。マスコミ関係者の地下クイズ集団『夜会』のメンバーとしても活躍。 今週もナナメに考えた 鈴木貴博 経済誌をにぎわすニュースや日常的な経済への疑問。そのときどきのトピックスについて経済の専門知識を縦軸に、社会常識を横軸において、ナナメにその意味を考えてみる。 バックナンバー一覧 先日、ビジネスで来日したアメリカ人に「忖度」の意味について聞かれたとき、筆者はどのようにそれを説明し、納得してもらったか(写真はイメージです) 「忖度」ってどういうこと? 意味がわからず怒り出すアメリカ人 外国人にうまく理解してもらえない日語というものがある。ビジネスで来日した

    “忖度”を理解できなかった外国人が腑に落ちた「説明」とは
  • 【matplotlib】日本語の設定 - keisukeのブログ

    Matplotlibで日語を出力するのにかなり手間取ったのでメモ。 Windows, Python3を想定しています。 問題の説明 import matplotlib.pyplot as plt plt.figure() plt.xlabel('豆腐 - tofu') plt.title('豆腐 - TOFU') 日語が文字化けして「□□」となってしまっています。日語表示したいですね。 解決への道のり matplotlibの設定ファイルの場所を探す 日語に対応したフォントのダウンロード matplotlibの設定ファイルを書き換える フォントのキャッシュの削除 matplotlibの設定ファイルの場所を探す import matplotlib matplotlib.matplotlib_fname() を実行してみてください。 あなたのmatplotlibが現在参照している設定ファ

    【matplotlib】日本語の設定 - keisukeのブログ
    ymym3412
    ymym3412 2017/04/11
    “fontList.cache”を削除しないと反映されない
  • 1