タグ

2023年3月5日のブックマーク (6件)

  • Linuxにおけるデバイスファイルの仕組み

    Linuxにおけるデバイスファイルはデバイスをファイルという概念を通して扱えるようにしたものです。デバイスファイルは通常のファイルと同様に読み書きを行うことができます。しかし実際には、その読み書きはデバイスドライバを通じてデバイスの制御に変換されます。 この記事では、デバイスファイルへの読み書きがどのようにデバイスの制御に変換されるのかを説明します。デバイスファイルはデバイスドライバとファイルの2つのコンポーネントに依存したものであるので、最初にデバイスドライバ、次にファイルについて説明し、最後にデバイスファイルがどのようにデバイスドライバと結び付けられるかを解説します。 この記事の内容は主に詳解 Linuxカーネル 第3版及びhttps://github.com/torvalds/linux/tree/v6.1によります。 目次 デバイスドライバ デバイスドライバの実例 read_wri

    Linuxにおけるデバイスファイルの仕組み
  • Extremal combinatorics - Wikipedia

  • フリーで使える日本語の主な大規模言語モデル(LLM)まとめ

    ありがとうございます! 実は私人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。 来年3月の言語処理学会年次大会(NLP2023)での続報をお待ちください!このモデルに関する論文が公開される予定です(一応それを待ってからこの記事にも掲載します)。 (私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 )

    フリーで使える日本語の主な大規模言語モデル(LLM)まとめ
  • ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog

    1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習 せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアーキテクチャの工夫 5 学習したGPTのアウトプット例 5.1 失敗モデルたちの作品集 5.2 完成モデルの出力例 5.3 少しFine-tuningした結果 6. 最後に 6.1 採用メッセージ 6.2 ABEJAで学習したGPTモデルの今後について 1. はじめに こんにちは、ABEJAの服部です。昨日、ABEJAが主催しているABEJA SIX2022でも発表がありましたが、NVIDIA社の

    ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog
  • Online Label Smoothingの実装と評価 - Qiita

    はじめに 過学習防止効果があるとされるLabel Smoothingだが、これに改良を加えたというOnline Label Smoothingの論文を見つけたので、tf.kerasで実装して評価して見た。 Online Label Smoothingとは まず、Label Smoothingについて簡単に説明する。 画像分類のタスクにおいては、正解のラベルとしてOne Hotのベクトルを使用する。これは正解のクラスに対応する値だけが1.0でその他は0.0となったもの。 これは当然の様に思えるが、このまま学習させると「過学習を招く」、及び「モデルが自信を持ちすぎてしまう」といった問題があるとして、Inceptionモデルの論文で提案されたのが、Label Smoothingである。 具体的には、学習時のラベルとして「正解のクラスの値は少し割り引いて、減らした値は全てのクラスに均等に分割して加

    Online Label Smoothingの実装と評価 - Qiita
  • Deep Learningにおける知識の蒸留 | Code Craft House

    ここ数年のDeep Learningの発展は目覚ましく、急速に実用化が進んでいます。タスクによっては人間に匹敵する精度に達しているものもあり、システムの一部品としてデプロイする場面も増えてくると思います。そこで問題になるのが計算機資源の制約です。学習時には大量の学習データを用意し、GPUなどの計算資源で数時間や数日かかるような学習をしますが、推論時には限られたメモリや計算資源のもとで動作させる必要があります。リアルタイムに大量の入力データを捌く必要があったり、スマートフォンやエッジデバイスなどで動作させる場合には、この制約はさらに強くなります。 深くて大きいモデルの方が精度が出るが、実用を考えると軽量なモデルにする必要がある。こういった場面で最近よく使われる手法として、 知識の蒸留 (Knowledge Distillation) と呼ばれる方法があります。これは、(典型的には)大きくて複