nikkie-ftnextのブックマーク (998)

  • アウトプットってインプットだなと思う関連 - 漫画皇国

    僕は、商業漫画を描いたり同人漫画を描いたりブログを書いたりウェブラジオに参加したり、SNSでも発言が多く、それ以外に会社の仕事もゴリゴリやっているため、「アウトプットが多い」という評価を人から受けることがあります。 でも、個人的な感覚では、そのほとんどはアウトプットではなくインプットとしてやっている感覚があって、特にこのブログなんかはほぼ完全にインプットとしてやっていると思います。 つまり、何かに関する考えをまとめるて書くということは自分にとってのインプットの側面があります。なぜなら、外部の刺激を受けたことについて、自分の中で考えを整理することは、自分の中にその考えを定着させるというプロセスのひとつであると感じているからです。なので、ここで文章として書いたからこそ、それをインプットとすることができ、他でやる何かのアウトプットに転用をできていたりします。 そういう認識なので、僕自身は色んなア

    アウトプットってインプットだなと思う関連 - 漫画皇国
  • paizaのランクA相当の練習問題をbashで解く - arterminalのブログ

    課題 解決策 入力 データ正規化 総和計算の準備(1) 総和計算の準備(2) 総和計算の準備(3) 総和を求める 日付情報を付加する 最大値を持つ区間を集約 不要な情報を上書き カウントと解答の抽出 スクリプト全体像 所感 課題 paizaで公開されている以下の練習問題をbashで解いてみたい。 https://paiza.jp/works/mondai/a_rank_skillcheck_archive/max_range_large 解決策 入力 5 3 1 2 3 2 1 以降は説明のしやすさから上記が入力されることを想定する。 データ正規化 # 入力 5 3 1 2 3 2 1 # 処理 awk ' NR==1 { n = $1; k = $2; } NR==2 { for (i = 1; i <= k; i++) { print; } } ' # 出力 1 2 3 2 1 1 2

    paizaのランクA相当の練習問題をbashで解く - arterminalのブログ
  • アノテーションの研究事例からLayerXにおける改善案を考える - LayerX エンジニアブログ

    こんにちは! LayerXで機械学習エンジニアをしている伊藤 (@sbrf248) です。直近はOCRモデルの学習・評価に使うデータセット周りの改善に取り組んでいます。 今回は、データセット作成におけるアノテーションに注目し、関連する研究分野や、LayerXにおける改善にどう繋げられそうかを紹介したいと思います。 アノテーションに関する研究分野 アノテーションは、機械学習に利用する教師付きデータの正解ラベルを人間が付与する作業を指します。 高い精度のモデルを作るためには高品質かつ大量のデータセットが用意できると理想ですが、人間が作業する以上一定の時間的・金銭的コストは必要になるため、品質を高めつつ効率を上げるための工夫が必要になります。 アノテーション品質・効率を高めるための研究分野は、大きくサンプリングと品質管理と効率化の2つに分けられます。 以下では、それぞれについての代表的な手法や最

    アノテーションの研究事例からLayerXにおける改善案を考える - LayerX エンジニアブログ
  • 自信を持って pytest を活用するためのノウハウが凝縮された「テスト駆動 Python 第2版」を読んだ - kakakakakku blog

    「テスト駆動 Python 第2版」を読んだ📕 仕事で pytest を使ってて,もっと自信を持って書けるようになりたいな〜と思っていたら書を見つけてさっそく読んでみた.pytest の機能・記法・設定・Tips などの理解が深まって当に読んで良かった❗️フィクスチャ・パラメータ化・モック・プラグイン活用など,今まで何となく書いてたところを自信を持って書けるようになって,仕事で pytest を書くのが楽しくなった🦄 テスト駆動Python 第2版 作者:Brian Okken翔泳社Amazon もちろん pytest の公式ドキュメントを読むべきだし,書の内容の多くは公式ドキュメントにも載っているとは思うけど,書の翻訳はとても読みやすく,pytest の全体像をサッと把握できて,また Cards というサンプルアプリケーションを題材に実際に pytest を試しながら読み進め

    自信を持って pytest を活用するためのノウハウが凝縮された「テスト駆動 Python 第2版」を読んだ - kakakakakku blog
  • 映画『かがみの孤城』舞台挨拶 内容書き起こし(2024/03/30) - arterminalのブログ

    注意事項 イベント情報 舞台挨拶 はじめに 映画祭 演者のその後 QA.1 QA.2 QA.3 プレゼント争奪じゃんけん おわりに 注意事項 個人的なメモを書き起こしたものです。 細かい言い回し等まで完璧に再現できているものではありません。 また内容に誤りを含む可能性があります。 ご了承ください。 致命的な誤りがありましたら修正しますのでご指摘をお願いします。 イベント情報 【イベント名】 『かがみの孤城』「閉城の日」イベント 【日時】2024/03/30(土)17:00の回 上映終了後 【会場】新宿ピカデリー 【登壇】原恵一監督、新垣弘隆プロデューサー 舞台挨拶 原=原監督の発言です。 新=新垣プロデューサーの発言です。 各見出しは公式のものではありません。 はじめに 原:初めて来てくれた人ありがとう。久しぶりの人もありがとう。 新:今日は自由に写真を撮ってくれてOKです。 新:(新宿ピ

    映画『かがみの孤城』舞台挨拶 内容書き起こし(2024/03/30) - arterminalのブログ
  • Python: PyTorch で Apple Silicon GPU を使ってみる - CUBE SUGAR CONTAINER

    PyTorch v1.12 以降では、macOS において Apple Silicon あるいは AMDGPU を使ったアクセラレーションが可能になっているらしい。 バックエンドの名称は Metal Performance Shaders (MPS) という。 意外と簡単に使えるようなので、今回は手元の Mac で試してみた。 使った環境は次のとおり。 GPU が 19 コアの Apple M2 Pro を積んだ Mac mini を使用している。 $ sw_vers ProductName: macOS ProductVersion: 14.4.1 BuildVersion: 23E224 $ sysctl machdep.cpu.brand_string machdep.cpu.brand_string: Apple M2 Pro $ pip list | grep -i tor

    Python: PyTorch で Apple Silicon GPU を使ってみる - CUBE SUGAR CONTAINER
  • 続・ムダな仕事を増やしてませんか? ~ MLの実行パイプラインでworker間の重複作業をなくす ~ - エムスリーテックブログ

    DALL-E作成の「worker間で重複タスクを確認しながら作業を進める」イメージ図です こんにちは。AI機械学習チーム(以下AIチーム)の池嶋(@mski_iksm)です。 仕事で、誰か一人がやればいい作業を、気がついたら同僚と同じタイミングでやっていた、という経験はありませんか? せっかく頑張って作った機能が実は被っていてムダになってしまった。。。というのは誰もが悲しいものです。 そうならないように作業チケットを切るなどしてタスクを中央管理する方法もありますが、もっとゆるくやりたいこともあるかと思います。 そういうときは一言「この作業私がやりますね!」と声掛けをすれば済みますね。 以前のブログで、私たちはgokartを使ったMLパイプラインの効率化について掘り下げました。 具体的には、「すでに完了したタスクをスキップする」と「タスクの実行順序をできるだけランダムにする」という2つの戦

    続・ムダな仕事を増やしてませんか? ~ MLの実行パイプラインでworker間の重複作業をなくす ~ - エムスリーテックブログ
  • Stability AIが公開している「stable-code-instruct-3b」にPythonスクリプトを書いてもらいました。 - パソコン関連もろもろ

    はじめに「stable-code-3b」という大規模言語モデルは以前から公開されていました。 今回「instruct」モデルが新たに公開されたので使ってみました。 私の認識が間違えていなかったら「instruct」モデルは質問に答えてくれるモデルです。 通常の大規模言語モデルは最初の数単語を渡して続きを書いてくれます。そのモデルに追加学習して質問や指示に答えてくれるようにしたのが「instruct」モデルです。質問文(または指示文)を理解して返答する必要があるので通常モデルよりやや複雑だと思います。 その他に会話ができる「chat」モデルというのもあったりします。たぶん会話の内容を記憶しながら質問に答えてくれる(チャットする)モデルだと思います。 ほとんどの大規模言語モデルは「〇〇b」という単語が後ろについています。今回の場合は「3b」です。この「b」はビリオン(10億)を表していて、この

  • 世界の春日プロジェクトで出た英会話チャンクビンゴ一覧が勉強になる - VTRyo Blog

    オードリー春日が一年間かかさず英語の勉強をした成果が放送されました。 www.nhk.jp 最初は語彙力も文法もバラバラだったところから、実際に渡米して面倒なハンバーガー注文ができるようになっています。 その前に、日で観光客にインタビューして「これまで学んできたチャンクを使ってこい」というロケ。 このときに使われていたチャンクが雑談とかで使えそうなので文字起こししてみることにしました。 Kasuga's Chunk Bingo 〜でつながっている文章の訳は、春日がロケしていた文脈で解釈しています。※勝手に訳してるのでニュアンスに違いがあったら遠慮なく指摘してほしいです。 Is this your first time in Japan? 日ははじめてですか? Just go straight down this road. この道をまっすぐ行ってください Sounds good. いい

    世界の春日プロジェクトで出た英会話チャンクビンゴ一覧が勉強になる - VTRyo Blog
  • 入社4ヶ月目で73時間かかるバッチ処理を7倍以上高速化した話 - エムスリーテックブログ

    こんにちは。エンジニアリンググループの武井です。 私は現在、デジカルチームに所属し、クラウド電子カルテ、エムスリーデジカルの開発に携わっています。 昨年夏にエムスリーに入社し、早くも半年が経過しました。 digikar.co.jp この記事では、私が入社してから4ヶ月目に取り組んだ、バッチ処理の運用改善について振り返ります。 特に、新しくチームに加わったメンバーとして意識した点に焦点を当ててみたいと思います。 これから新しいチームに参加する方の参考になれば幸いです。 改善したバッチ 現状の正確な理解 現状に馴染む技術選定 自分なりの+αを加える 改善の結果 We're hiring 改善したバッチ 今回の改善対象は、特定の医療機関に紐づく全患者の全カルテをPDFファイルとして出力する、というバッチです。 デジカルのデータを医療機関側にエクスポートする用途で使われています。 移行前のアーキテ

    入社4ヶ月目で73時間かかるバッチ処理を7倍以上高速化した話 - エムスリーテックブログ
  • Jaccard係数に基づく類似文書検索の高速化技法 - LegalOn Technologies Engineering Blog

    こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。 記事では、Jaccard係数に基づく類似文書検索の高速化技法を解説し、契約書検索での実験結果を報告します。 背景と目的 共起に基づく類似文書検索の必要性 契約書検索での注意点 記事の目的 準備 表記 Jaccard係数 Overlap係数との関係 問題設定 線形探索による解法 高速化の方針 Length Filtering Position Filtering 高速化のための要素順序 アルゴリズム 転置索引を使った解法 基的なアイデア Prefix Filteringに基づくトークンの絞り込み 高速化のための要素順序 アルゴリズム 実験 データセット 統計量 Length Filterの検出率に関する結果 検索時間に関する結果 おわりに メンバー募集中!! 背景と目的 共

    Jaccard係数に基づく類似文書検索の高速化技法 - LegalOn Technologies Engineering Blog
  • Pydanticを活用してCSVファイルを型安全に扱う - RevComm Tech Blog

    RevCommでバックエンド開発をしている小門です。 最近、CSVファイルのアップロードを受け付けて処理するバックエンドAPIの機能開発を担いました。 CSVファイルのパース、バリデーションにPydanticが便利でしたので紹介したいと思います。 なお開発言語はPython、コードの動作バージョンは以下です。 Python 3.12 Pydantic: 2.6.0 PythonCSVファイルの取り扱い Pythonでは組み込みモジュールcsvを使うことで基的なCSVファイルの読み取り・書き込みができます。 # persons.csv の例 """ "name","age" "alice",20 "bob",21 """ import csv with open("persons.csv", newline="") as csvfile: reader = csv.DictReader(

    Pydanticを活用してCSVファイルを型安全に扱う - RevComm Tech Blog
  • 「今からでも間に合う」GPTsによる 活用LT会に参加してきた - 天の月

    forkwell.connpass.com こちらのイベントに参加してきたので、会の様子と感想を書いていこうと思います。 会の概要 会の様子 LT1 「人とAIが協調するHuman-in-the-Loopへ」 LT2「GPTsの可能性」 LT3「100人参加ハッカソンから学ぶGPTsの活用方法」 Q&A OpenAIにはセキュリティ面で懸念があるが、どう考えているか? GPTsの作成にはどれくらい時間がかかるのか? 勉強資料のおすすめはあるのか? GPTsを作るテクニックのキャッチアップは? 作成したGPTsをテストする勘所を知りたい 会全体を通した感想 会の概要 以下、イベントページから引用です。 2023年11月6日にユーザーが自然言語でカスタマイズできるGPTsがリリースされ、2024年初頭では既に300万以上のGPTsが作成されています。 そして2024年1月10日にGPT Sro

    「今からでも間に合う」GPTsによる 活用LT会に参加してきた - 天の月
  • 楽天が公開している大規模言語モデル「RakutenAI-7B」に炒飯の作り方を聞いてみた - パソコン関連もろもろ

    はじめに「RakutenAI-7B」「RakutenAI-7B-instruct」「RakutenAI-7B-chat」の3つのモデルが公開されています。 今回は「RakutenAI-7B-instruct」を使ってみました。 huggingface.co 結果実行するたびに異なる答えが返ってきます。 USER: 炒飯の作り方を教えて ASSISTANT: 分量さえ間違えなければ誰でも簡単に作れます。 1. ご飯を油で軽く炒め、塩で味付けする。 2. 卵を油で炒め、薄く炒飯に敷く。 3. キャベツ、ニラなどを炒め、柔らかさを調節し味付けする。 4. 3にご飯と卵、魚介類、ソーセージなどを入れ炒める。 5. ソース や醤油、塩で味付けをする。 お好みで海苔や山芋をかけても良い。 PythonスクリプトPythonから使うのは非常に簡単です。 from transformers import

  • ナレッジグラフを用いたRAGの改善 - Ahogrammer

    RAG(Retrieval Augmented Generation)は大規模言語モデル(LLM)の性能を改善するための手法の1つであり、質問に対する回答を生成する際に、外部知識源から情報を取り込みます。 これにより、LLM 自体で学習できる情報量に制限されることなく、より正確で詳細な回答を生成することができます。 よく使われているRAGでは、外部知識源として検索エンジンにテキストをインデックスしておき、質問に関連するテキストをベクトル検索や全文検索を用いて取得します。しかし、構造化データを扱うことには苦労するため、質問によっては回答が不十分、あるいはまったく回答できないことに繋がります。 これらの問題を克服するために、ナレッジグラフを用いたRAGが構築されることがあります。ナレッジグラフでは、エンティティとその間の関係がグラフ構造で表現されており、単純な検索を用いた場合には回答できないよ

    ナレッジグラフを用いたRAGの改善 - Ahogrammer
  • Pythonのdataclasses.dataclassを使う - 偏った言語信者の垂れ流し

    Pythonのdataclasses.dataclassは普段からたまに使っていますが、良く使っている書き方を人に紹介するためにメモを残します。 dataclasses - データクラス - Python 3.12.2 ドキュメント dictと相互変換するクラス オブジェクトとdictで相互変換するクラスをdataclassで書くことがあります。 asdict 関数が便利です。リストで保持したいメンバー変数は、 field 関数を使って定義すれば、asdictでそのまま対象にできます。 また from_dict メソッドは厳密に実装するなら引数のチェックなどをしてもよいですが、可変長のキーワード引数としてそのままコンストラクタに渡すように書けば、実装はシンプルです。 コード main.py: from dacite import from_dict from dataclasses imp

    Pythonのdataclasses.dataclassを使う - 偏った言語信者の垂れ流し
  • 【読書ノート】機械学習エンジニアのためのTransformers - TadaoYamaokaの開発日記

    書籍「機械学習エンジニアのためのTransformers」を読んだので内容をまとめる。 以下の内容は、ほとんどClaude3 Opusを使用して作成している。 第1章 入門Transformers いる。さらに、Transformer系モデルのGPTとBERTが紹介され、自然言語処理の分類、固有表現認識、質問応答などのタスクにおいて、TransformersライブラリがTransformerモデルを簡単に適用できることが示されている。最後にはHugging Faceのエコシステムが概観されている。 重要なポイント Transformerはエンコーダ・デコーダのフレームワーク、アテンション機構、転移学習を組み合わせている GPTやBERTなどの代表的なモデルが登場し、自然言語処理のベンチマークを更新した Hugging Faceのエコシステムを使うことで、最先端のモデルを簡単に利用できる 理

    【読書ノート】機械学習エンジニアのためのTransformers - TadaoYamaokaの開発日記
  • PythonのマルチスレッドWSGIサーバーの選定 - methaneのブログ

    今までuWSGIをシングルスレッド、マルチプロセスで使っていたのだけれども、昔に比べて外部のAPI呼び出しが増えているのでマルチスレッド化を検討している。 uWSGI uWSGIでマルチスレッドを有効にした時は、各workerスレッドがacceptする形で動作する。スレッド数以上の接続をacceptすることがないので安心。 プロセス内のスレッド間ではmutexで排他されて、同時にacceptを実行するのは1スレッドのみに制限されている。つまりthendering herd問題はプロセス間でしか起こらない。マルチスレッド化でプロセス数はむしろCPUコア数まで減らせるので、thendering herd問題はむしろ今よりも軽減できる。(ちなみにプロセス間でもロックしてthendering herdを許さないオプションもあるけど、プロセス間同期は怖いので使っていなかった。) ただしuWSGIのマ

    PythonのマルチスレッドWSGIサーバーの選定 - methaneのブログ
  • Pythonの io.BytesIO と zipfile.ZipFile の組み合わせ - 何かを書き留める何か

    with文がやってくれるのはどこまでなのか インターネット経由で取得したZIPファイルを手元で加工する、という状況を考える。 たとえば、次のようなコードを書いたとする。 URL は ZIPファイルを取得できるものならば何でもよいが、今回は環境に配慮してローカルに1回だけダウンロードしてhttp.serverで簡易Webサーバを立てることでキャッシュしている。 import io import urllib.request import zipfile URL = "http://localhost:8000/python-3.12.2-embed-amd64.zip" with urllib.request.urlopen(URL) as f: content: bytes = f.read() with zipfile.ZipFile(io.BytesIO(content)) as zf

    Pythonの io.BytesIO と zipfile.ZipFile の組み合わせ - 何かを書き留める何か
  • GitHub Actions に Python のパッケージインストーラー uv を導入する - KAKEHASHI Tech Blog

    こんにちは。 カケハシの Musubi AI在庫管理 チームにて業務委託のエンジニアをさせていただいております takanakahiko と申します。 今回はuvをGitHub Actionsに導入したらとても効果があったので、紹介することができればと思います。 uvとは uvとはPythonのパッケージインストーラー・リゾルバーです。 その最大の特徴はRust言語で開発されており、従来のツールの100倍の速度で動作する点です。 pipやpip-toolsのdrop-in replacementが可能であることも特徴です。 開発をするのはAstralです。 AstralはRuffの開発で有名ですね。 Ruffについては、こちらの記事で紹介しています。 試しに手元で利用する 今回の目的はGitHub Actionsへの導入です。 その前に手元でひととおり使ってみます。 まずは、比較のために通

    GitHub Actions に Python のパッケージインストーラー uv を導入する - KAKEHASHI Tech Blog