サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
www.megagon.ai
このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました. (改変の結
Universal Dependenciesのもとで日本語文法に根ざした直感的な統語解析を可能にしたい。GiNZAが目指してきた自然言語処理のゴールにまた一歩近づきました。2020年8月16日にリリースした「GiNZA version 4.0」ですが、日本語の公式サポートが始まったspaCy version 2.3を土台とし、機能と性能を隅々までブラッシュアップしています。これまで以上に日本語の分析が容易になったGiNZA v4の文節APIについて詳しく解説します。 GiNZAでできること NLP(自然言語処理)技術は人が日常的に使う言葉を機械的に分析するための一連の解析処理に用いる技術の総称です。この「一連の解析処理」という部分が非常に重要で、例えば日本語の書き言葉の文であれば、最初に単語を区切ってからそれらを文節にまとめて係り受け関係を解釈する、という流れになります。英語の文の場合、単
このページを最初にブックマークしてみませんか?
『Megagon Labs』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く