タグ

言語に関するpoginのブックマーク (75)

  • 言語モデルの物理学 - ジョイジョイジョイ

    言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。物の物理学でも空気抵抗や摩擦があると、「鉄球は

    言語モデルの物理学 - ジョイジョイジョイ
  • 速習・数学的対象の存在論 - Sokratesさんの備忘録ないし雑記帳

    ランキング参加中その他 「虚数が存在するのかどうか」という話が某 SNS で盛り上がっては盛り下がるのを繰り返している.この件についてはだいぶ以前に次のような記事を書いた. sokrates7chaos.hatenablog.com 今現在読むと微妙に一般的な言葉遣いと違うような言葉遣いをしてしまっている*1.が,「実数の存在を受け入れているなら,虚数の存在を受け入れなければならない(虚数の存在を受け入れらないならば実数の存在も拒否しなければならない)」という主旨はわかるようになっていると思う. さて,上のようなことを書いといたらこういう話がおさまるかなと思っていたらそうでもないようで,数学的対象の存在論(という数学の哲学の一分野)について素人目に見ても混乱をしていたり,「それは過去にすでに破綻が指摘されている立場ですね」という話をしたりする人がかえって増えたように思う.そこで,数学的対象

    速習・数学的対象の存在論 - Sokratesさんの備忘録ないし雑記帳
  • Arend

    Arend Arend is a theorem prover based on Homotopy Type Theory. It natively supports higher inductive types and a version of cubical syntax. IntelliJ Arend is a plugin for IntelliJ IDEA that turns it into a full-fledged IDE for the Arend language. Arend Features IntelliJ Arend Features

    Arend
  • 「カタカナの起源は新羅」? 専門家はこんなふうに考える

    yhkondo @yhkondo なぜか今になって2013年のニュースの「カタカナの起源は新羅」という話が蒸し返されて、ネットで批判されています。専門家が誰も発言していないようなので、ちょっと書いてみます。(私は、若い頃はずっと訓点語研究をしていて、学会の委員もやっていたので、一応かなりの専門家です。) 2019-04-30 12:08:43 yhkondo @yhkondo この話題の、東大寺の華厳経が、新羅写経であることは、他の専門家(山信吉・藤幸夫氏など)も認めているので大丈夫だと思います。そして、書き込まれた角筆文字(細いとがった物を紙に押し当てて描く文字)も、その言語的特徴から、新羅語と見なせます(日語では説明できない部分があります) 2019-04-30 12:08:43 yhkondo @yhkondo 全体として、新羅で作られ、加点された写が日に渡り、東大寺に所蔵

    「カタカナの起源は新羅」? 専門家はこんなふうに考える
  • 書いたな、俺の前で、外国地名の日本語表記の話題を!

    anond:20180309230912 元増田よ。英語の国名はあくまで「英語読み」に過ぎないのであって、日語読みが現地語に寄せてるものまで英語でジャッジしようとするのはどうよ。 ウクライナ → ウクレイン ウクライナ語ではУкраїнаと綴って「ウクライーナ」と読むので日語読みは現地語に忠実です。何でもかんでも英語読みを基準にすんのやめろ。っていうか英語ならユークレインだろ。 スイス → スウィツァーランド スイスには4つの公用語があるけど、そのうちフランス語ではSuisseと呼ぶので日語の「スイス」はむしろ現地語に近いぞ(4つの公用語のうち1つに基づく呼び方を採用しているのは中立的ではないのでは? という異論はあってよい。ちなみにスイスでは4言語で国名を併記するけど、切手とかで4言語を併記するスペースがないときにはラテン語の「ヘルウェティア」を使う。日もヘルベチアって呼ぶべきな

    書いたな、俺の前で、外国地名の日本語表記の話題を!
  • 10年以上日本に住んだ外国人が語る日本語の美しい「解離」とは?

    に住んで10年以上になるというブロガーのマルコ・ジァンコッティ氏は、そのことを海外の人に話すと、尊敬と困惑が入り交じった顔をされるとのこと。なぜなら、日語は不可解で、その習得は日で暮らす上で避けては通れない苦行だと考えられているからです。しかし、そんな日語こそこの国の最大の魅力だと語るジァンコッティ氏が、「The Beautiful Dissociation of the Japanese Language(日語の美しい解離)」と題したブログ記事で、多言語話者ならではの目線で日語のユニークな特性を解説しました。 The Beautiful Dissociation of the Japanese Language - Aether Mug https://aethermug.com/posts/the-beautiful-dissociation-of-the-japanes

    10年以上日本に住んだ外国人が語る日本語の美しい「解離」とは?
  • 言語発達に問題がある子どもは脳の決まった部位に異常があることが判明

    多くの先行研究を分析した新たな研究により、発達性言語障害を持つ子どもたちは、脳の特定の部位に異常があることが確認されました。この発見は、言語障害の診断と治療の両方を改善する可能性があるとされています。 The neuroanatomy of developmental language disorder: a systematic review and meta-analysis | Nature Human Behaviour https://www.nature.com/articles/s41562-024-01843-6 Abnormal brain structure identified in children with developmental language problems https://medicalxpress.com/news/2024-03-abnormal

    言語発達に問題がある子どもは脳の決まった部位に異常があることが判明
  • これから流行る言語 | 雑記帳

    新言語にできることはまだあるかい なんとかWIMPS 最近(1ヶ月くらい前)、こんな記事が出ました: 新しいプログラミング言語が出てこない(新しく出てた言語を追記) – きしだのHatena Kotlin, TypeScript, Rust, Swift以降にみんなが話題にするような新しい言語が出てこない、それはなぜか、みたいな趣旨です。客観的に見れば「新しい言語は常に出続けている」わけですが、「みんなが話題にするような」というのが多分曲者なんでしょうね。 例え話をすると、新しい若木は常に生えてきているんだけど、大木に成長するには時間がかかるので、大木にしか興味のない人には「この8年間で新しい大木は登場していない」と判断してしまうのかもしれません。 まあ私としても、Web (HTTP) APIを書く言語とか、JSON色付け係が使う言語はもう出揃ってしまったのかもしれないという気はしなくもな

  • LTS版「Linux」カーネルのサポートが短縮へ--背景にメンテナーの苦悩

    現地時間9月19日からスペインのビルバオで開催されていた「Open Source Summit Europe」で、Linuxカーネル開発者であり、LWN.netの編集責任者を務めているJonathan Corbet氏が、Linuxカーネル関連の新しい点や今後の動きについて発表した。 ここではその中から、今後の大きな変更点の1つを紹介したい。それは、Linuxカーネルの長期サポート(LTS)が6年から2年に短縮されるということだ。 LinuxカーネルのLTS版には現在のところ、6.1と5.15、5.10、5.4、4.19、4.14の6つがある。これまでであれば、4.14は2024年1月にサポートが終了し、別のカーネルが追加されていた。しかし今後は、4.14とその次の2つのバージョンのサポートが終了しても、別のカーネルがそれに取って代わることはない。 なぜだろうか。Corbet氏は単純なことだ

    LTS版「Linux」カーネルのサポートが短縮へ--背景にメンテナーの苦悩
  • 認知科学者ダグラス・ホフスタッターが説く「それでも私たちが外国語を学ぶべき理由」 | AI翻訳は人類を「悲劇のシナリオ」へ導く

    AI翻訳が進化するなか、ピュリッツァー賞受賞の認知科学者ダグラス・ホフスタッターが「手遅れになる前に外国語を学びなさい」と題したエッセイを米誌に寄稿した。自身も苦労して数ヵ国語を習得したホフスタッターが恐れる、「私たちがAIに屈したときに失うもの」とは──。 つたない中国語でスピーチ 私にとって人工知能AI)の最も恐ろしい脅威は、いわゆるシンギュラリティ──人類を凌駕する知能の爆発的な暴走が起こる可能性だ。現在のAI技術水準は破滅的なシナリオを予感させる。 エベレスト登頂に強い憧れを抱く人のなかには、準備に何年もかけ、莫大な資金を費やす人がいる。あなたも同類だろうか? それとも、むしろヘリコプターでエベレストの頂上に降り立ち、絶景を堪能するほうだろうか? では、外国語というエベレストに登る場合はどうだろう? 最近、自分の人生に起きた2つの小さなエピソードがきっかけで、私はこの問題につい

    認知科学者ダグラス・ホフスタッターが説く「それでも私たちが外国語を学ぶべき理由」 | AI翻訳は人類を「悲劇のシナリオ」へ導く
  • 母語が“英語じゃない研究者”のデメリットはどのくらいある? 900人以上の科学者を調査

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 科学分野において、英語を母語としないことによる不利益は、論文の読み書きの困難さから国際会議への参加率の低下までさまざまな問題が知られている。しかし、英語を母語としない研究者のキャリア形成における言語障壁の影響を具体的に定量化した研究は、ほとんど存在しない。 この研究では、言語的・経済的背景の異なる8カ国(バングラデシュ、ボリビア、イギリス、日、ネパール、ナイジェリア、スペインウクライナ)の環境科学者908人を対象に調査を行い、5つの科学活動(論文の読解、執筆、出版、普及、学会参加)を英語で行うために必要な労力を比較した。 調査の結果、英

    母語が“英語じゃない研究者”のデメリットはどのくらいある? 900人以上の科学者を調査
  • 議論を形式論理化することの重要性について - 言語装置hisaket公開記憶域

    前置き 以降、「定理」や「証明」のような語はすべて数理論理学における意味だと思ってもらって問題ないはずです。 また、この文章は理解を容易にするための具体例などが欠如しています。時間があれば加筆したい所ですが期待はしないでください。 議論について 議論とは、つまりは複数の人同士が互いに定理とその証明を主張をし合うような活動のことです(強い主張)。 相手の主張が間違っている、すなわち定理が公理から導出不可能であれば、それがなぜ正しくないかを説明すること(反論)、 すなわち相手の主張する命題の証明において推論規則を誤って適用している箇所を提示することで、その証明と結論を修正する手助けをすることができます。 すなわち議論とは、複数の人間というheuristicな計算機を用いて、並列処理的に証明を探索する作業と見なせるということです。 さらには一般に、議論の参加者全員が同一の公理を共有しているとは限

    議論を形式論理化することの重要性について - 言語装置hisaket公開記憶域
  • メンタルレキシコンとは?わかりやすく解説・心理学との関係 英語学習への効果とは? - ポリグロットライフ | 言語まなび∞ラボ

    はじめに 今回はメンタルレキシコンについてわかりやすく解説していきます。メンタルレキシコンとは、どのような意味や性質を持ち、学ぶ意義は何なのかを考えていきます。心理学との関係や英語学習及び語彙学習への効果についても考えていきます。メンタルレキシコンを正しく理解して、正しい効率的な語彙学習をぜひ取り入れてみてください。 ↓↓第二言語習得研究に基づく英語学習動画をアップしていきます。 www.youtube.com メンタルレキシコンとは? メンタルレキシコンの意味 メンタルレキシコンの性質 メンタルレキシコンを学ぶ意義 メンタルレキシコン内の語彙知識モデル 階層的ネットワークモデル 活性化拡散モデル 母国語のメンタルレキシコン 子供の語彙の増加 即時マッピング 第二言語学習への示唆 バイリンガルの語彙発達 バイリンガルの言語的特徴 バイリンガルレキシコン メンタルレキシコンと心理学 二重符号

    メンタルレキシコンとは?わかりやすく解説・心理学との関係 英語学習への効果とは? - ポリグロットライフ | 言語まなび∞ラボ
  • エンジニアのためのChatGPTプラグイン3選+1 - きしだのHatena

    前のブログでも紹介したのだけど、ChatGPTプラグインのローリングアウトが始まって使えるようになっていて、結局みんな使うのはこの3つくらいかなーとなったので、まとめておきます。 前のブログはこれ。 Bardも世の中のサービスぜんぶGoogle製と思ってるらしい - きしだのHatena 同時に使えるのは3つまでのようだけど、他のプラグインはアメリカ不動産情報など日からは使いづらかったり、作ってみたレベルだったりなので、結局この3つに落ち着くかなーという気がします。 WebPilot これは手放せなくなります。Web記事を読み込んでくれるプラグイン。 ChatGPTには「この記事を要約して」しか入力しなくなりそう。 このエントリを要約してもらっています。 大規模言語モデルの「脳波」が反応してる部分を壊すとどうなるか試した - きしだのHatena ※ 追記 15:21 ぼくのところには

    エンジニアのためのChatGPTプラグイン3選+1 - きしだのHatena
  • Mojoは「C言語のように速いPython」なのか - k0kubun's blog

    LLVMやSwiftを作ったChris LattnerがCEOをやっている会社が、Pythonの使用感とC言語並の性能を併せ持つ言語としてMojoをアナウンスした。 まだ手元で試せる状態でリリースされてはいないが、最大35000倍Pythonより速いという。 Mojo🔥 combines the usability of Python with the performance of C, unlocking unparalleled programmability of AI hardware and extensibility of AI models. Also, it's up to 35000x faster than Python 🤯 and … deploys 🏎 pic.twitter.com/tjT09U4F80— Modular (@Modular_AI) May

    Mojoは「C言語のように速いPython」なのか - k0kubun's blog
  • 間違いを避ける方法 - 超ウィザード級ハッカーのたのしみ

    ChatGPT が出てきて、平均値なものに価値がなくなって、外れ値に価値があるか、人の役割はノイズを与えるだとか言われているのを聞くが、そんなことはないと思っている。間違い方は無数にあるが、正しいのやり方はほんの少ししかない。なにかをするときには、無数の選択肢の中から、正しいものを選び取っていかないと、ゴールにたどり着かない。ChatGPT だってプロンプトとして与えられるものは無数にあるが、求める答えが得られるプロンプトはわずかだ。正しい答えを素早く得る能力の価値は ChatGPT があっても変わらない。 もちろん人間なので、たまに道から逸れるだろう。外乱もある。でも、その場合も都度都度修正していけば、目的地にたどり着ける。 ChatGPT の画期的なところは即座にフィードバックを与えて修正ができることだ。 だが、修正がなしに一発で決める方が、何度もフィードバックを繰り返すより、速い。仕

    間違いを避ける方法 - 超ウィザード級ハッカーのたのしみ
  • Prompt Engineering Guide – Nextra

    Prompt Engineering Guide プロンプトエンジニアリングは、言語モデル(LMs)を効率的に使用するためのプロンプトを開発および最適化する比較的新しい学問分野です。プロンプトエンジニアリングのスキルを身につけることで、大規模言語モデル(LLMs)の能力と限界をより理解することができます。 研究者は、プロンプトエンジニアリングを使用して、質問応答や算術推論などの一般的なおよび複雑なタスクのLLMsの能力を向上させます。開発者は、LLMsやその他のツールとのインタフェースとなる強固で効果的なプロンプテクニックを設計するためにプロンプトエンジニアリングを使用します。 プロンプトエンジニアリングは、プロンプトの設計と開発に限らず、LLMsとのインタラクションおよび開発に役立つ幅広いスキルと技術を含みます。これは、LLMsとインタフェースすること、ビルドすること、能力を理解すること

  • 大講座_pdf.indd

    1 uni- mono- unity, uniform monotone, monopoly 2 bi-, bis- di-, dis- bicycle, bissextile dioxide, disulfide 3 ter-, tri- tri- tertiary, trivial tripod, richotomy 4 quadri- quadra- tetra- quadruped, quadruple tetrapod, tetrachord 5 quinque- -qui- penta quintet, quinquennial Pentecost, pentagon 6 sex-, sexa- hexa- sextant hexagone 7 septi-, -tem- hepta- September, septentrion heptarchy 8 octo-, octa

  • はじめての自然言語処理 類似文書検索の手法と精度比較 | オブジェクトの広場

    自然言語処理とは、人間が自然に使っている英語や日語などの言語をコンピュータで処理する技術です。自然言語処理でできることには機械翻訳、要約生成、感情分析などがありますが、今回は比較的シンプルな例として類似文書検索に焦点を当ててみたいと思います。類似文書検索はテーマとしては真新しいものではありませんが、記事では単語の分散表現を用いる手法や Watson Discovery も含めた各種の類似文書検索手法について、日語データに対して精度比較試験をした結果を紹介します。複数の手法を同一の日語データで比較した記事はあまり見ないので面白いのではないでしょうか。 1. 始めに 記事では類似文書検索の各手法について、単語の分散表現を用いる手法や Watson Discovery も含めて精度比較試験をした結果を紹介します。まず各手法の概要を紹介しますが、ここでは数学的な細かい説明などは省くので概

    はじめての自然言語処理 類似文書検索の手法と精度比較 | オブジェクトの広場
  • 「言語化能力」を鍛えたいなら “これ” を減らして “アウトプット” を増やしなさい - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習

    どんなに素晴らしい感性をもっていても、人に伝えられなければ物づくりはうまくいきません。自分の考えを言語化することが大切です。 今回は、言語化がクリエイティブを強化する理由を説明しましょう。「感性には自信があるけれど、言語化はちょっと苦手……」という方には、言語化能力を鍛えるコツもお伝えします。 言語化でデザインをロジカルに 映像・アートディレクターでデザイン会社「LIGHT THE WAY」代表の西澤岳彦氏は、感覚的な部分も、しっかりと言語化してクライアントに提案するのだとか。そうすることでクライアントはデザインをロジカルにとらえることができ、主観的な感性のバラツキに惑わされることがなくなるからです。 少し大げさに言えばと前置きしつつ、「クリエイティブのすべてに理由がある」と西澤氏は言います。なぜこのカラーなのか、なぜこうした構成なのかをひとつひとつ説明することで、クライアントが制作者と近

    「言語化能力」を鍛えたいなら “これ” を減らして “アウトプット” を増やしなさい - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習