タグ

研究と日本語に関するkutakutatriangleのブックマーク (5)

  • Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.

    Metaの「Llama 2」をベースとした商用利用可能な日語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日語LLM「ELYZA-japanese-Llama-2-7b」を一般公開 性能は「GPT-3.5 (text-davinci-003)」に匹敵、日語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開 既に社内では、130億、700億パラメータのモデルの開発も進行中 はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。 この度ELYZAは、Metaの「Llama 2」をベースに、日語による追加事前学習を行なった日語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

    Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.
  • 日本語指示データ・日本語擬似レビューの公開 - Megagon Labs | リクルート AI研究機関

    このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日語表現の変更といった改変を行いました. (改変の結

  • 京大の博論を元にした本が東大紀要の書評でフルボッコされてる件

    の大学、特に文系の学問に対する風当たりが厳しい昨今、文系の学者達は自分たちの存在意義を示そうと必死だ。大学で行われている文系の研究は、どう役に立つかはともかく、それ自体研究としてちゃんとしたものなんだ!ということは前提となっているし、みんなそう信じている。文系の先生達は決してSTAP細胞のようなデタラメをやっているのではないと。 だが、それは当か? 証拠はあるのか? 最先端の研究は専門家でさえ評価が難しい。たとえばアインシュタイン。一般・特殊相対性理論を作ったけど、時代の先を行き過ぎていて正当な評価がされなかったそうで、ノーベル賞は他の業績に対して与えられた。文系の研究も基的には同じで、研究の良し悪しを判断できる人は極少数だ。だから、知らないうちにトンデモない研究がはびこっていて、それに社会的評価が伴っていても、ほとんどの人にはわからない。専門家が厳正に評価してくれていることを信じ

    京大の博論を元にした本が東大紀要の書評でフルボッコされてる件
  • みんな日本語の学術言語としての重要性を過小評価しすぎ

    この件. https://togetter.com/li/1274544 査読論文持ってないひとが責められるのはまあわかる(査読なし論文でも優れた論文というのは有り得るし,そういうのも業績として認められるべきではあろうが,このご時世ではまあ査読論文は持っといた方がいいよな……).でも英語論文を持ってないことが責められる理由になるのは当に理解できない. 何度も繰り返すけど,フランスでもドイツでもロシアでもスペインでも,そしてたぶん中国韓国でも,文系の研究業績の大半は自国語だから! 文系の研究業績が自国語で積み上げられるのは,世界標準だから! (インドやサハラ以南のアフリカ諸国のように長いこと西欧の植民地になってたり言語の数が多すぎたりして大学教育英語でやっている国や,ツバルやナウルみたいに小さすぎて自国語のアカデミアが成立しない国を除く.そういう国がうらやましいと言うならもう何も言えな

    みんな日本語の学術言語としての重要性を過小評価しすぎ
  • 人文系の文献の取り扱いとか業績についてちょっとだけ - dlitの殴り書き

    追記(2018/10/09 20:40ごろ) 記事の公開後だいぶ経ってから思い出したのですが,下記の記事で「まず査読付き論文誌を探す」ことを推奨していたり具体的な雑誌名を挙げていることに気付きました。これこそ良い具体例だったのに最初に示さなかったのはもったいなかったというか,早い段階で読んでいただいた方々には申し訳ないです。言語学・日語学の中でも「日語を対象にした文章研究」というやや狭いトピックですが,著書,論文集や紀要論文との付き合い方についても書いてあるので興味のある方はどうぞ。 dlit.hatenadiary.com はじめに 私の専門は言語学(日語)で研究・教育関係で他の人文社会系や理工系の研究・文化の一部に触れることがあるぐらいなのだけれど(あとアカデミックライティングに関わっている関係で他分野について調べることもある),その狭い範囲ですらいろいろな違いがあってとても「人

    人文系の文献の取り扱いとか業績についてちょっとだけ - dlitの殴り書き
  • 1