タグ

2024年4月27日のブックマーク (39件)

  • ■ - @kyanny's blog

    コロナ以後、自分の生活から隙間時間というものが無くなった。これは自分の精神衛生に悪影響をもたらしていると思う。 仕事が自宅勤務になり、主に通勤時間が無くなったこととダラダラ残業しなくなったことが相まって、可処分時間は増えたはずだが、「使途不明時間」が存在する余地が無くなってしまった。 通勤中の15分。ランチの後の20分。コーヒーを買いにでたついでの5分。そういう細切れの時間に、自分はある種の癒しを感じていたのではないか。 興味深いことに、書くことよりも読むことのほうがダメージを受けているように感じられる。自分にとって書くことの優先度は非常に高く、睡眠時間を削ってでも書かずにはいられない。実際に深夜に書いたりもしているし、そもそも隙間時間では書き切れていなかった(隙間時間に少しずつ書き溜めることもあったが)。 しかし読むことは、特にブログやニュースレターなど、ある程度まとまったボリュームの文

    ■ - @kyanny's blog
    sh19910711
    sh19910711 2024/04/27
    "可処分時間は増えたはずだが、「使途不明時間」が存在する余地が無くなってしまった / 通勤中の15分。ランチの後の20分。コーヒーを買いにでたついでの5分 / 書くことよりも読むことのほうがダメージを受けている" 2021
  • QuickSightでの分析の幅が広がるレベルアウェア計算(LAC)を理解する | DevelopersIO

    データアナリティクス事業コンサルティングチーム・新納(にいの)です。 低コストでシンプルに可視化が行えることが強みのQuickSightですが、「もう少し踏み込んで分析をしたい…」と思う方もいらっしゃるのではないでしょうか。そんな方に朗報のレベルアウェア計算(level-aware calculations - LAC)について解説していきます。 レベルアウェア計算(LAC)を理解する 実際に試してみる前に、まずはレベルアウェア計算について理解することで今回のアップデートの嬉しさを100%フルパワーで享受できるようになります。 レベルアウェア計算とは レベルアウェア計算とは、ウィンドウ関数と集計関数を使う際に関数を適用する粒度を指定できるQuickSightの機能です。集計関数に使えるLAC-A関数とウィンドウ関数に使えるLAC-W関数の二種類あります。LAC-W関数はこれまでLAA(

    QuickSightでの分析の幅が広がるレベルアウェア計算(LAC)を理解する | DevelopersIO
    sh19910711
    sh19910711 2024/04/27
    "ディメンションと違う粒度で集計をさせたい / ウィンドウ関数と集計関数を使う際に関数を適用する粒度を指定できるQuickSightの機能 / Tableauに馴染みのある方であれば「LOD表現に似た概念だな」とピンとくるかも" 2022
  • Reactpyとか言う面白いライブラリ

    こんにちは。だだっこぱんだです。 今まではフロントエンドな人間のつもりでしたがいつの間にか Most used languages の1位がPythonで50%になっていてあれーってなっています。 今回はpythonで面白いライブラリを見つけたので紹介していきます。 Pythonフロントエンドpythonフロントエンドする必要ある?」って思う方がいるかもしれません。 割と需要あります。 今ある中ではGradio, Streamlit が有名ですね。 これらは stable-diffusion-webui で使われたり、AI関係の技術のデモでは毎度お馴染みレベルで使われます。 Gradioのデメリット 拡張性が低い バグが多い システムがわかりづらい(フロントエンドをやっている人間からすると) Gradioはクラス名を変えられなかったり、reactiveじゃなかったりして若干使いづら

    Reactpyとか言う面白いライブラリ
    sh19910711
    sh19910711 2024/04/27
    "ReactPy: pythonでreactのようにフロントエンドを書けるライブラリ / onClickやuseEffectなどの関数は全てサーバー側で実行 / 推論の処理を直接呼び出して返り値を表示することができたり" 2023
  • どうやってPureScriptに慣れたのか - oreshinyaのブログ

    はじめに PureScript Advent Calendar 2017 - Qiitaの1日目の記事が埋まっていなかったので大急ぎで書くことにしました。 元々はRubyJavaScriptなどの動的言語をメインでメシをべているプログラミング的ゆとり世代であった私が、 少なくとも一般論としては学習が大変だと評されているPureScriptを、 (上手いか下手かは別として)普通に書けるようになった要因を記憶の限り辿ってみようと思います。 つまり、この記事は、「最初からPureScriptの勉強のためにやっていた」ということではなく、「たまたまそういう道を通ったけど、 あれがよかったのかもしれない」という回想です。 道のはじまり この道のはじまりはHaskellでした。 特に仕事で使うわけでもなく、関数型言語に興味があったわけでもなく、ただなんとなく暇を持て余していたので暇つぶしとして思い

    どうやってPureScriptに慣れたのか - oreshinyaのブログ
    sh19910711
    sh19910711 2024/04/27
    "Haskell: PureScriptよりも親切なエラーメッセージ + 調査に困らないし、コンパイラが勝手に訓練してくれます / Elm: ブラウザという戦場ではどこでどのように型付けしているのか、という世界観をつかむ" 2017
  • TH3P4G3(85W版)とTeslaP40をUbuntu22.04でセットアップした【外付けGPU】

    sh19910711
    sh19910711 2024/04/27
    "ローカルLLM: 量子化したモデルでも賢いのを使おうとすると平気で何十ギガも食ってくる / Tesla P40: VRAM24GB + ebayやアリエクでは 2〜3マソで買える(中古) / 多分、データセンターの世代交代による引退品が大量に流れ"
  • 【ローカルLLM】大規模言語モデルAIのあまりの遅さについカッとなってノートPCにGPUを追加する

    ChatGPT」が世界を席巻するなか、大規模言語モデル(LLM)について相談を受けるようになりました。企業のAI利用ニーズとしてよくある「独自データにより追加学習させたい」という話しをしていると、手元でも試してみたい衝動にかられ、「ファインチューニング」と呼ばれる追加で学習する手法を手元で動かしてみました。 今回、Pythonなどのプログラムを1行たりとも書いていませんので(笑)、「大規模言語モデル(LLM)に興味はあるけどプログラミングはよくわからない」「ごく普通のパソコンしか持ってない」という人の参考になるかと思い、作業メモを書き残します。 いろいろと迷走しますが、最終的に追加投入した費用は「10万円」です。 LLMやファインチューニングなどを試したいが、コードは書きたくない諸兄へ LLMというと多くの解説記事は「Google Colab」などのクラウドサービスを利用して、Pytho

    【ローカルLLM】大規模言語モデルAIのあまりの遅さについカッとなってノートPCにGPUを追加する
    sh19910711
    sh19910711 2024/04/27
    "ノートパソコンにeGPU Box・外付けGPUをThunderbolt接続 + そこそこの速さでローカルLLMやLoRA ファインチューニングを試す / 追加投入した費用は10万円 / Intel UHD Graphics620: 3BだとLoadに失敗するケース多数" 2023
  • 10万のサークル名を収集して傾向を可視化してみました - ミジンコ組さんの努力の結晶が詰まった本 - このすみろぐ

    みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。 控えめに言ってすごいです。 書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。 まさに、努力の結晶なです。 daphnia.booth.pm 感想を書いていきます。 なぜ10万のサークル名なのか? ノイズとの戦い 正規表現によるサークル名の収集 サークル名の傾向について MeCabによるサークル名の形態素解析 自分のサークル名を考え直してみる さいごに なぜ10万のサークル名なのか? 10万という数字は、仮説を元に導き出された数字です。 年間の土日祝日の数: 120 土日祝日に開催されるイベントの数: 10〜40 小規模、中規模、大規模、超大規模な

    10万のサークル名を収集して傾向を可視化してみました - ミジンコ組さんの努力の結晶が詰まった本 - このすみろぐ
    sh19910711
    sh19910711 2024/04/27
    "Twitterの発言をひたすら収集 / 「サークル名は〇〇です」といった形式のツイート / 単純にサークルで検索をしてしまうと、大学のサークル活動がたくさんヒット / 漢字は一文字に意味を凝縮できる" 2018
  • RVCのモデルを日本語向けに事前学習する - Qiita

    こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 記事では、RVCのモデルで綺麗な日語に変換するための学習テクニックを紹介します。 2023/05/24 追記 続・RVCのモデルを日語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記 これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習

    RVCのモデルを日本語向けに事前学習する - Qiita
    sh19910711
    sh19910711 2024/04/27
    "RVC: 日本語の発音が日本語の上手い英語話者っぽい感じであるのは、事前学習データに由来 / それぞれ英語のデータセットで学習されているため、日本語で追加学習を行うと英語訛りが出てしまいます" 2023
  • Meilisearchを使ってFlutter×Firestoreの全文検索を実現する

    はじめに Firestore は非常に便利で高速な NoSQL データベースですが、一方で検索面があまり得意ではありません。where クエリで単一フィールドもしくは複合フィールド(発行クエリによる)での絞り込みや、文字検索では全文一致・前方一致・後方一致までは何とか実現できますが、SQL の LIKE 検索のような部分一致や、全文検索を Firestore 単体で実現できません。 Google Cloud の公式ドキュメントにも、全文検索についてはサードパーティツールを利用するよう明記されています。 Firestore では、ネイティブ インデックスの作成やドキュメント内のテキスト フィールドの検索をサポートしていません。さらに、コレクション全体をダウンロードして、クライアント側でフィールドを検索することは現実的ではありません。 https://cloud.google.com/fire

    Meilisearchを使ってFlutter×Firestoreの全文検索を実現する
    sh19910711
    sh19910711 2024/04/27
    "Firebase Summit 2022 にて Meilisearch が4つ目の選択肢として追加 / Meilisearch: Algolia にインスパイア + Firebase Extension のおかげで Firestore との面倒な同期処理を行う手間もなく / GUI ツールも公式から mini-dashboard として提供" 2022
  • Streamlitを使ってデータカタログを作ってみた

    sh19910711
    sh19910711 2024/04/27
    "SQLを実行する時にどのテーブルを使うべきか理解するのに苦労 / カタログ型のソフトウェアは高額 + StreamlitがイケてそうだからStreamlitで作ろう / Streamlit in Snowflakeにて、簡単にアプリをデプロイすることもできる"
  • Snowflakeにて大規模なテーブルのクエリ実行時間を高速化するためのマイクロパーティションという選択肢について

    テーブルに対して設定する場合は、複数の日付列を指定するのが良いと記載があります。この場合は日付列はTIMESTAMP型の場合はTO_DATEでキャストすることを推奨されています。 例えば、ファクトテーブルに、多くの離散値(テーブル内のマイクロパーティションの数よりも多く)を含む TIMESTAMP 列 c_timestamp がある場合、タイムスタンプではなく日付に値をキャストすることで、列にクラスタリングキーを定義できます(例: to_date(c_timestamp))。これにより、カーディナリティが合計日数に削減され、より優れたプルーニング結果が通常生成されます。 引用元:クラスタリングキーを選択するための戦略 費用 今回の例では、DATE列に指定した場合は約5クレジット、DATE列を含む4列に指定した場合は22クレジットの消費でした。 自動クラスタリング クラスタリングキーを設定し

    Snowflakeにて大規模なテーブルのクエリ実行時間を高速化するためのマイクロパーティションという選択肢について
    sh19910711
    sh19910711 2024/04/27
    "クラスタ化されたテーブルはSnowflakeが継続的に管理 / レコード数が多く、頻繁に参照され、あまりデータが更新されないようなテーブルに設定 / VARCHAR列に設定する場合は最初の5バイトのみ" 2023
  • 【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO

    Google Cloudデータエンジニアのはんざわです。 現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。 記事では早速この新機能を触ってみたいと思います! BigQuery data canvas とは? BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。 また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメント それでは早速触ってみたいと思います! 注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data

    【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO
    sh19910711
    sh19910711 2024/04/27
    "BigQuery data canvas: DAGで操作できる分析用のインターフェイス / ドキュメントによるとテーブルの検索はdataplexのメタデータと連携 + 積極的に活用するためには、メタデータの整備の重要性が上がってくる"
  • BigQueryからSalesforceへの転送(Reverse ETL)について

    はじめに データエンジニアリング領域で仕事をしているmasaです。 最近、BigQueryからSalesforceへの転送(Reverse ETL)について実装する機会がありいろいろ調べていたのですが、あまりまとまった情報がなかったため自分の経験を記事にすることにしました。 対象読者はETL周りの実装を担当しているデータエンジニア、もしくはSalesforceの改修に責任を負っているRevOpsなどの方々です。 BigQueryからSalesforceへの転送をしたい背景 SalesforceなどのCRM上にある案件・契約データとプロダクトのDBなどにある利用状況データをDWH上で統合・集計して、再度CRMにインポートして使いたいというニーズはSaaS企業等で一定あるのかと思います。 例えば、CRMに再度インポートしたヘルススコアの数値を使ってカスタマーサクセスチームがアプローチ先の優先順

    BigQueryからSalesforceへの転送(Reverse ETL)について
    sh19910711
    sh19910711 2024/04/27
    "CRM上にある案件・契約データとプロダクトのDBなどにある利用状況データをDWH上で統合・集計して、再度CRMにインポートして使いたい / 国産ならtrocco、海外製ならFivetran / HightouchやCensusなど: リバースETLに強み"
  • LightGBMを用いて特徴量を正規化/標準化、対数変換するとscoreが変わるのか検証してみた。 - Qiita

    目次 はじめに データの準備 実験と結果 LightGBMのアルゴリズム:ヒストグラムベースと正規化/標準化の影響 まとめ 記事の対象者 LightGBMを使ってモデルを作成する人 特徴量を正規化/標準化するか悩んでいる人 はじめに ファインディ株式会社、データソリューションチームの山家(@yamayafumiteru)です。 前回は、複数ある特徴量のうち1つを1000倍した結果、木の構造も変わらず、評価指標に影響がないという記事を書きました。 LightGBMだと、1つの特徴量に対して何を掛けたとしても他の特徴量に影響を与えず※1、数値の大小関係で判断している為、変化がないという結果でした。 ※1.Exclusive Feature Bundling という手法により複数の特徴量を1つの束として扱うことがあるが、他の特徴量のサイズにより結果の影響があるかは未検証です。 今回の記事では、

    LightGBMを用いて特徴量を正規化/標準化、対数変換するとscoreが変わるのか検証してみた。 - Qiita
    sh19910711
    sh19910711 2024/04/27
    "LightGBM: 決定木の分割点を決めるのにhistogram-basedのアルゴリズム + 特徴量をビンに離散化 / 対数変換を適用するとデータの分布が変化 / 分布が偏っている場合に正規分布に近づけられたり、外れた数値の影響を低減" 2023
  • 多値分類における階層構造を利用したマルチタスク学習とその解釈性 / Multi-task Learning for solving hierarchical multilabel classification and its interpretability - Speaker Deck

    ■イベント 【Sansan×エムスリー】自然言語処理勉強会(ライブ配信あり) https://sansan.connpass.com/event/125652/ ■登壇概要 タイトル:多値分類における階層構造を利用したマルチタスク学習とその解釈性 登壇者:DSOC R&D Group 奥田裕樹 ▼Sansan Builders Box https://buildersbox.corp-sansan.com/

    多値分類における階層構造を利用したマルチタスク学習とその解釈性 / Multi-task Learning for solving hierarchical multilabel classification and its interpretability - Speaker Deck
    sh19910711
    sh19910711 2024/04/27
    "MTL: ラベルのメタ情報を上手く活用したい + 上位構造を推定することで目的とする下位構造の推定が容易になるのでは / MTL-Stack-Concat: Task-specific Layerの入力をShared Layerの出力に加えて単語ベクトルも連結" 2019
  • PyTorchで学習したモデルをOpenCVで使う (Custom Layer編) - takminの書きっぱなし備忘録 @はてなブログ

    この記事はOpenCV Advent Calendar 2020 18日目の記事です。 はじめに OpenCVにはDNNモジュールという畳み込みニューラルネットワークの機能が実装されています。この機能は推論専用のため、CaffeやTensorflowなどの深層学習ライブラリ上で学習したモデルを読み込んで使用します。DNNモジュールはPyTorchのモデルを直接はサポートしていませんが、ONNXをサポートしているため、PyTorchからONNX経由でモデルを読ませることができます。 参考: takmin.hatenablog.com さて、自分たちで開発をしていると、既存のネットワーク層ではなく、自分たちで独自に開発した層を使いたいという要求が出てくると思います。TensorflowやPyTorchなどほとんどの深層学習ライブラリにはこのようなカスタマイズしたネットワーク層を作成する機能がつ

    PyTorchで学習したモデルをOpenCVで使う (Custom Layer編) - takminの書きっぱなし備忘録 @はてなブログ
    sh19910711
    sh19910711 2024/04/27
    "既存のネットワーク層ではなく、自分たちで独自に開発した層を使いたい / OpenCV: PyTorchのモデルを直接はサポートしていませんが、ONNXをサポートしている / CaffeやTensorflowのモデルを取り込む例 + チュートリアルに解説" 2020
  • 名前をつけてやる - インターネット

    名前は大事だ。 何故大事かというと、名前が付くことによって人々の間である概念や物事について認識し、共通の議題に載せることが出来るからである。 そう、この世の中には実は名前のないもので溢れている。たとえば読者の皆様も、胸に抱いた感情が既存の言葉──つまり、一種の名前でありラベル──で表せそうで表せず、どれも微妙にニュアンスが異なるせいで、他人に上手く伝えられずになんとも言えない気持ちになったことはないだろうか。 それだけに、気の利いた名前を付ける人、抽象的な概念やものごとを定義出来る人というのは重宝がられているように思える。 多くの人々の共通意識としてなんとなく共有されているものの、それを語りうる言葉がない為に見逃されてきたものたち──それらに名前を付けた途端、世界が広がったという例は過去いくつも存在している。 近年だとそれを最も感じたのは「町中華」という概念を知った時である。 ja.wik

    名前をつけてやる - インターネット
    sh19910711
    sh19910711 2024/04/27
    "名前を付けた途端、世界が広がったという例は過去いくつも存在 / 近年だとそれを最も感じたのは「町中華」という概念 / 広大な中華料理店の枠の中からある種の属性を持つ店舗のことを明確に切り分けることに成功" 2022
  • 山口義宏著「マーケティングと年収のリアル」から〜 - ベンチャー役員三界に家なし

    ごきげんよう。 皆さんお久しぶりです。 さて、出張から戻り久しぶりに朝、会社のデスクに行くと物騒なタイトルのが置いてありました。 「マーケティングの仕事年収のリアル」と書いてあります。 大切な友人であり、ブランディング戦略の師匠でもある山口義宏さんの新刊です。 クリアーで中のの表紙が丸見えの封筒で献いただき、不在がちな私のデスクにしばらく鎮座していたようで社員の人たちも私のデスクの前を通って目にしたことでしょう。 もうこの時点で山口さんの戦略勝ちです。 僕はキャリアをプログラマーからスタートさせたエンジニア出身なので、必要にかられてマーケティングを学んだクチです。 自分の会社自体は多彩な事業は抱えているものの、マーケティング支援領域でのお仕事も多く自分自身も長くマーケティングに関連した仕事をしてきましたし、スタッフにも多くのマーケターを抱えています。 今日は普段お世話になっている御

    山口義宏著「マーケティングと年収のリアル」から〜 - ベンチャー役員三界に家なし
    sh19910711
    sh19910711 2024/04/27
    "マーケティングという比較的職業としてフワっとしていたり、玉石混交の領域 / キャリア関連の話は不変の人気コンテンツ / 上へ上へという旅にそれこそ全知全能を投入しなくてはいけない理由は何か" 2018
  • Twilio StudioとDialogflowで作るサーバレス自然言語による自動応答電話(IVR)システム ~Kintoneでの可視化も添えて~ - ワタナベ書店

    タイトル盛りすぎ。 ところで「お前が神を殺したいなら、とあなたは言った」が完結しましたね。 このブログを読んでる各位はもうすでにお読みでしょうが、念の為に言っておきますと、とても面白いので読みましょう。 異世界転生宗教改革ものですよ。陰謀策略政治会話群像劇が好きな人絶対楽しいですよ。 なお、この話が好きな方は不朽のフェーネチカも好きだと思うのでぜひ。 不朽のフェーネチカ (アフタヌーンコミックス) 作者:竹良実発売日: 2018/07/06メディア: Kindle版 まえがき Dialogflow とはGoogle Homeのアプリ作成で使用されている自然言語対話のプラットフォームです。 ただし、Dialogflow はGoogle Homeアプリだけに使うわけではなく、APIを用いて直接自然言語対話をリクエストすることができます。 よって、Google Homeアプリだけでなく、直接スピ

    Twilio StudioとDialogflowで作るサーバレス自然言語による自動応答電話(IVR)システム ~Kintoneでの可視化も添えて~ - ワタナベ書店
    sh19910711
    sh19910711 2024/04/27
    "Twilioの音声認識サービスで相手の音声をテキスト化 + テキストをTwilio FunctionにてDialogflowに送信 / かかってきた電話番号と問い合わせ内容が自動で記録 / 1通話5〜10円くらい" 2018
  • Agents for Amazon Bedrock の "ユーザー入力" を CloudFromation で有効にする

    この内容は執筆時点の2024年4月26日ごろに確認した結果です。きっと、直ぐにもっとスマートな方法が公開されると思います。(してくれ。) HogeHogeAgent: Type: AWS::Bedrock::Agent Properties: AgentName: HogeHogeAgent AgentResourceRoleArn: !Ref AgentRoleArn FoundationModel: anthropic.claude-3-haiku-20240307-v1:0 Instruction: | あなたはユーザーからの質問や要望に対応するエージェントです。 質問には丁寧に回答してください。 AutoPrepare: true ActionGroups: - ActionGroupName: UserInputAction ActionGroupState: ENABLED P

    Agents for Amazon Bedrock の "ユーザー入力" を CloudFromation で有効にする
    sh19910711
    sh19910711 2024/04/27
    "情報が不足している場合、エージェント側からユーザーに質問することを許可するかどうかを指定するフラグ / ドキュメントには必須項目である AgentGroupName に何を設定すべきなのかの記載がありません"
  • グーグルがHadoopにMapReduce特許の利用を許可

    大規模分散処理の技術として知られるMapReduceは、グーグルが検索エンジンの基盤技術として開発したもの。そして同社はMapReduceの特許を1月に取得していました。 グーグルMapReduce特許を取得。Hadoopへの影響は? - Publickey グーグルが特許を保有していることでMapReduceのオープンソース実装であるHadoopに対する影響が心配されていましたが、Apache Foundationの弁護士がグーグルの弁護団から特許の利用許可を得たことを明らかにしました。 予想通りの展開に 4月23日付けでYahoo!のHadoopチームアーキテクトOwen O’Malley氏がメーリングリストに投稿した「Re: License for Google's patent」というメッセージ。この中でApache Foundationの弁護士が、グーグルからの特許利用許可を伝

    グーグルがHadoopにMapReduce特許の利用を許可
    sh19910711
    sh19910711 2024/04/27
    "MapReduce: グーグルが特許を保有 + オープンソース実装であるHadoopに対する影響が心配され / Yahoo!のHadoopチームアーキテクトOwen O’Malley氏がメーリングリストに投稿した「Re: License for Google's patent」というメッセージ" 2010
  • 固有名詞をつけるとき - 詩と創作・思索のひろば

    ソフトウェアエンジニアリングにおいて大切なのは、人間のことをのぞけば名付けだと思っている。言葉がなければ世界は混沌としたままだけど、そこに名前をもたらすことがものごとを切り分け、ひとつの秩序をもった視点をつくる。この秩序は唯一絶対のものではなくて、なんらかの意志によって導かれたものである。ソフトウェアはあくまでも現実の抽象だから、問題をどういう視点で見るか、という軸があるわけだ。そういう意味では人間のことではある。 適切につけられた名前は、そのことによって他のものとの自然な境界を与えられていて、その他の名付けと一貫性を持っている。そういう名前は既存の名付けの体系になじむので、同じ言葉を使う人々のあいだに受けいられれて、共通のコンテキストに追加される。そして次第に暗黙のものになっていく。 たとえばユーザのフォローがあるSNSのようなウェブサービスをつくるときに、QueueとかBrokerみた

    固有名詞をつけるとき - 詩と創作・思索のひろば
    sh19910711
    sh19910711 2024/04/27
    "名前: ものごとを切り分け、ひとつの秩序をもった視点をつくる / Goはやりすぎだけど、定着するだけのパワーがあった / ecspressoみたいに固有名詞でありつつ中身を示唆している名前を考えられたら楽しい"
  • GPTを自作して学習済みパラメータでテキスト生成 - stMind

    2024年の最初のエントリーはGPTです。 GPTモデルを自作して、OpenAIが公開している学習済みのパラメータをロード、テキスト生成までの一連の処理を実行します。 モデル 正確にはGPT2のTransformerブロックを自作します。 アーキテクチャの大部分はGPTと同じですが、以下の変更(pre-norm)が行われています。 LayerNormはAttentionとMLPの前で適用 追加のLayerNormをTransformerブロックの後で適用 Transformerブロックを除くText & Position埋め込みとNext Token生成は、 picoGPTのコードを利用します(解説ブログは GPT in 60 Lines of NumPy | Jay Mody)。 また、以下で紹介するコードはTensorflowを用いて実装しています(picoGPTの諸々のコードがTen

    GPTを自作して学習済みパラメータでテキスト生成 - stMind
    sh19910711
    sh19910711 2024/04/27
    "埋め込みとNext Token生成は、 picoGPTのコードを利用 + 解説ブログは GPT in 60 Lines of NumPy / モデルを実装して学習するのはHW制約などもあって大変 + 公開されているパラメータを使う / 論文の数式やコードの読解力が上がった"
  • SnowflakeネイティブなMLパイプライン

    この記事は Snowflake Advent Calendar 2023 Series 2 の 22日目です。 はじめに SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表されました. Snowpark ML Modeling API (PuPr) Snowpark ML Preprocessing API (PuPr) Snowpark ML Operations API (PrPr) Snowpark Container Services (PrPr) Snowflake FeatureStore (PrPr) Snowflake Cortex (PrPr) Snowflake Notebook (PrPr) とは言うものの,SnowflakeでML実践している事例をあまり聞くことがないので,現状どこまで可能か試してみました. 目指すアーキテクチャ

    SnowflakeネイティブなMLパイプライン
    sh19910711
    sh19910711 2024/04/27
    "SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表 / とは言うものの,SnowflakeでML実践している事例をあまり聞くことがない / 前処理で実施できることが限定的 + ハイパーパラメータの探索が効率的ではなかったりする" 2023
  • Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成する - Qiita

    Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成するDynamoDBslackbotAWSSAMbedrockclaude3 はじめに 前回の記事「Amazon Bedrock+Anthropic Claude 3 SonnetSlackチャットボットを作成する」では、会話履歴を保持しないシンプルなSlackチャットボットを作成しました。 記事では、DynamoDBを使って会話履歴を保持するチャットボットを作成してみました。会話履歴の呼び出しや更新にLangchainのChatMessageHistoryを使うことで、DynamoDBに会話履歴を保存する処理を簡単に実装できました。 デモ動画 チャットボットとの会話履歴 このように、追加の質問に対し、チャットボットは会話履歴を踏まえた回答を生成しました。

    Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成する - Qiita
    sh19910711
    sh19910711 2024/04/27
    "DynamoDBChatMessageHistory (LangChain): DynamoDBに会話履歴を保存 + 会話履歴を踏まえた回答を生成 / ラップのリズムに乗せて説明してください。といったリクエストを送ると、チャットボットがそれに答えてくれます"
  • 初手BQMLのメリデメ

    概要 スタートアップで初めて機械学習を用いた予測システムをデプロイするときにBigQueryMLを採用したので、やったこととメリデメを整理する。 背景・課題 機械学習を用いて需要予測を行うシステムをデプロイしたい 予測システムの導入は初めてなので、現在簡単にデプロイできるような体制はない dbtでデータ基盤を管理している 予測モデルがワークするか確かめられるまでは、リッチなシステム構築は避けたい やったこと BigQueryMLを用いて、学習・モデルデプロイ・予測を行うシステムを組んだ https://cloud.google.com/bigquery/docs/bqml-introduction?hl=ja あらかじめデータ基盤やジョブスケジューリング機能を作れていたので、実装自体は調査含めて4日くらいでできた システム構成 ・データ処理はdbtで管理する。これにより異常データなどが入っ

    初手BQMLのメリデメ
    sh19910711
    sh19910711 2024/04/27
    "BigQuery ML + dbt_ml: 学習結果がvertex aiで自動的に表示されるため、性能指標のモニタリングについてゼロから開発する必要がない + データをBigQuery外に出すことなく、学習・予測が完了 / model_registryでvertex aiを指定"
  • 生きるキューハチ - Living, Loving, Thinking, Again

    北林慎也*1「あの「PC-98」が高値で売られ続けていた その意外な使われ方」http://withnews.jp/article/f0160314001qq000000000000000W00b0901qq000013115A 若い人は「PC-98」を何と訓むのだろうか。 曰く、 さらに時代は下って、ウィンドウズPCの全盛期も過ぎて情報通信の主役がモバイル端末に移りつつある2016年。完全に使命を終えたかに思えたPC-98だが、ネット通販などでは根強いニーズに裏打ちされた高値取引が続く。オークションサイト大手「ヤフオク!」では、「PC-98」カテゴリーで1500件超の出品がある。動作を保証しないジャンク品でさえ数万円で売り出されている。 今もって愛用し続けているのは、一体どういった人たちなのか? PC-98シリーズを専門に扱う修理販売ショップ「PC-98のミシマ」(静岡県伊豆の国市)の店

    生きるキューハチ - Living, Loving, Thinking, Again
    sh19910711
    sh19910711 2024/04/27
    "1995年にウィンドウズ95が出て、みんな浮かれていた / 98にはNECのものだけじゃなくてエプソンが独自に出していた互換機があった / この機械にMS-DOSをインストールすることから私のPC人生が始まった" 2016
  • MLX で Llama2 を動かしてみる

    Appleシリコン上での実行に対応した機械学習ライブラリMLXが公開されました。 今回は公式が公開している"mlx-examples"リポジトリの"llama"を使って、llama2-7b-chatの実行を試してみます。 commit: 3cf436b529ea58d6c0c0a29c0dd799908cd4497d 2023/12/22 検証環境 MacBook Pro Apple M3 Pro メモリ 36GB 公式要件としては、以下の環境が示されています。以下要件を満たしていてもメモリが少ない場合、実行するモデルによっては推論ができない可能性があります。 Using an M series chip (Apple silicon) Using a native Python >= 3.8 macOS >= 13.3 環境構築 まず"mlx-examples"のリポジトリをローカルにク

    MLX で Llama2 を動かしてみる
    sh19910711
    sh19910711 2024/04/27
    "mlx-example: 頻繁に更新が行われており整備が進んでいる / M3 Pro: Prompt processingに0.665秒、Full generationに11.515秒 / iPhone,iPadを始め、2024年発売予定のVision Pro上での活用も視野に入れながらMLXの動向をウォッチしていきたい" 2023
  • AI時代に悩ましくなるカスタマーサービス事情 - Thoughts and Notes from CA

    アメリカ生活とカスタマーサービスは切っても切り離せない。とにかく、細かなオペミスの多いアメリカ。何かあるたびにカスタマーサービスに問い合わせをしないといけない。以前、『アメリカでカスタマーサービスとやりとりする際の十箇条』という記事を公開したが、最近AIの進歩に伴い、事態は益々複雑になっている。何が複雑になったのかというと、そう、なかなか人につながらないのだ。 空の封筒から始まる不毛な日曜の午後 今日、家にAmazonの封筒が届いた。ひょいっと封筒を持ち上げたところ、かなり軽い。かなり小さめのトングを頼んだので、「こんなもんかな?」と思い、封筒を開ける私。中を見て目が点になる。何も入っていないのだ。 思わず、「おいっ!」と突っ込むも、空の封筒も「私はただ届けられただけですので、私に言われましても、、、」とばかりに所在なげに佇むのみ。家族と改めて確認をしたが、送られてきたのは空の封筒のみ。

    AI時代に悩ましくなるカスタマーサービス事情 - Thoughts and Notes from CA
    sh19910711
    sh19910711 2024/04/27
    "なかなか人につながらない: 何としてもコストのかかる人にはつなげないぞという鉄の意思 / 電話を試みる + あぁこれはWebページやChatのフローと一緒のやつだ / 「担当者ださんかい!」とキレ気味に問答するのが良い"
  • 機械学習をやる前に学んでおくべき最低の数学

    機械学習を勉強する前に学んでおくべき最低の数学の範囲について、あれこれ議論されている*1。この手の議論、なかなか不毛である。ライブラリをブラックボックスとして使う分には、数学の知識はほぼ不要。中身を考えながら使うには、大学の学部の微分積分と線形代数と確率・統計の教科書をまずは頑張れと言う自明な話になるからだ。 1. ライブラリの利用に数学はほぼ要らない 当にライブラリ利用者としては、数学の知識をほとんど要求されない。例えばSVMの分類器を構築するのに、プログラマが指定する必要があるのは、分類先と識別のための特徴量が入った学習データと、データの項目間の関係を説明する文、チューニングするのに使えるオプションが幾つかあるぐらいだ。オプションは経験的に精度が良くなるように選ぶ。これはランダムフォレストなどでも同じになる。 ディープラーニングのライブラリ、TensorFlowだと行列形式の乗算と加

    機械学習をやる前に学んでおくべき最低の数学
    sh19910711
    sh19910711 2024/04/27
    "学部の微分積分と線形代数と確率・統計の教科書をまずは頑張れ / 多変量のテイラー展開の証明 + ヘッシアンが半負定符号であることが極大化のための必要条件、負定符号であることが十分条件であることを示せる" 2018
  • 機械学習のお勧め本 - Deutschina's Tech Diary

    100%主観だけど、優勝はこのだね。 Hands-On Machine Learning With Scikit-Learn and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems 作者: Aurelien Geron 出版社/メーカー: Oreilly & Associates Inc 発売日: 2017/04/09 メディア: ペーパーバック この商品を含むブログ (1件) を見る 前の記事でも書いたけど、機械学習関連のを何冊か手を動かしながらやってみて、このが一番しっくり来ました。もちろん、ある程度機械学習に慣れ親しんだ後に出会ったからという多少の「バイアス」がかかった結果というのは否定しません。それでも、機械学習やろうと思っている人の少しでも背中が押せればということで、気に入った

    機械学習のお勧め本 - Deutschina's Tech Diary
    sh19910711
    sh19910711 2024/04/27
    "前の本では最終章手前に出てきたのにもうPipelineとか出てきて + これを最初の頃にやって流れを押さえてある / 別の本を写経しているときに、このグラフの出し方を知りたいんだよ!というイライラがあった" 2018
  • LambdaからIPv6でアクセスできるようにする - backyard of 伊勢的新常識

    AWSでは各種サービスのグローバルIPv4アドレスが有料化されることになり、EC2などで一部無料枠もあるものの、基的にはIPアドレスあたり概ね500〜600円程度の課金額がかかるようになりました。 無償版G Suiteが廃止されるのでAWS SESDockerでメール送受信システムを作ったで作成したシステムでは最終的にLightsailで中継用のIMAP/POP3サーバーを作ることになりましたが、こちらもIPv6オンリーのインスタンスに変更しなければ値上げとなりました。 LightsailをIPv6インスタンスに変更するにあたって、LambdaのコードからIPv6にアクセスが必要となりましたが、そのためにはLambdaVPCアウトバウンド接続の設定が必要となったので、上記のメール受信システムのアップデートに合わせて行った設定の要点をAWS CDKのコードベースで説明します。 要点 L

    LambdaからIPv6でアクセスできるようにする - backyard of 伊勢的新常識
    sh19910711
    sh19910711 2024/04/27
    "AWS: グローバルIPv4アドレスが有料化 + IPアドレスあたり概ね500〜600円程度の課金 / LightsailをIPv6インスタンスに変更するにあたって、LambdaのコードからIPv6にアクセスが必要 / AAAAレコードのみを定義したドメインに接続"
  • いまNN API(TensorFlow Lite)は使えるのか - めがねをかけるんだ

    sh19910711
    sh19910711 2024/04/27
    "NN API: Android 8.1から追加された、モバイル端末上で機械学習の計算処理を実行するためのAPI / 演算を専門とするプロセッサ(e.g. Pixel Visual Core)上で実行したり、それらがない場合はCPUにオフロードしたりする" 2018
  • 拡散モデルと表データ生成①:【論文】TabDDPM

    TabDDPM: Modeling Tabulr Data with Diffusion Models (ICML2023) 拡散モデルを用いて表データ生成を行うTabDDPMの論文を読んだのでその内容をまとめました. 論文のmain paperの部分をまとめています. 図や表はことわりがない限り, 論文からの引用です. TabDDPMはarXiv版とICML版の2つがありますが, ICML版のまとめになります. arXiv版 ICML版 書籍情報 Kotelnikov, A., Baranchuk, D., Rubachev, I., and Babenko, A. TabDDPM: Modelling tabular data with diffusion models. In Krause, A., Brunskill, E., Cho, K., Engel- hardt, B.,

    拡散モデルと表データ生成①:【論文】TabDDPM
    sh19910711
    sh19910711 2024/04/27
    "TabDDPM: 拡散モデルを用いて表データ生成 + 「表データを生成して何がしたいの?」に沿った評価 / 評価: scikit-learnで提供されているMLモデルを用いた結果の平均値 / TVAEとCTABGAN+を上回るパフォーマンス" arXiv:2209.1542
  • Pyserini(Faiss)を使ってお手軽Entity検索をやってみた! - Retrieva TECH BLOG

    こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、Pyseriniという情報検索の研究で使われるPythonライブラリの簡単な使い方、拡張方法について紹介します。 Pyseriniとは Pyseriniを使ってEntityの検索を実施する Entity検索について Pyseriniの準備について Pyseriniを動かす流れ Encodeを行う Indexingを実施する Searcherを作成する Entity検索してみる まとめ Pyseriniとは 近年、Large Language Model(LLM)の流行に伴い、Retrieval-augmented Language Modelのように、情報検索技術の需要は高まっていると思います。 たとえば、LangC

    Pyserini(Faiss)を使ってお手軽Entity検索をやってみた! - Retrieva TECH BLOG
    sh19910711
    sh19910711 2024/04/27
    "Pyserini: Anserini(Luceneベースの情報検索ツール)やFaissのインターフェイス + BM25のような古典的な手法や、Faissを利用したDense Vectorによる検索、 uniCOILやSPLADEといったSparse Vectorによる検索を動かすことができ" 2023
  • RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

    arxiv.org GPT-NeoX等で使われているposition embedding。 そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

    RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録
    sh19910711
    sh19910711 2024/04/27
    "RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023
  • 分散表現とWord2vec|実践的自然言語処理入門 #3 - Liberal Art’s diary

    #1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。 以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現 ・背景(自然言語処理における疎行列の取り扱い問題) 自然言語処理を行う際にBoW的なアプローチ(生起頻度のカウントとtf-idf値での計算のどちらも含みます)を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars

    分散表現とWord2vec|実践的自然言語処理入門 #3 - Liberal Art’s diary
    sh19910711
    sh19910711 2024/04/27
    "BoW: 行列のサイズ自体はとても大きな一方で、ほとんどが0 + 済系の記事にスポーツ系の単語は出てきにくい / 「深層学習による自然言語処理」の3章の記述が非常にわかりやすかった" 2019
  • 機械学習プロジェクトとアノテーション(機械学習名古屋第22回勉強会) - Qiita

    はじめに この資料は機械学習名古屋勉強会のAnnoFabハンズオンの補足説明です。 編はこちらです。 自己紹介 n-kats(中西克典) 来栖川電算で機械学習エンジニア 話の内容 アノテーションと機械学習プロジェクト全体の関係の話を通して、研究者(機械学習エンジニア)視点で思っていることを話します。 結論を先に言うと、 サービス内容・アルゴリズム・アノテーション方法・データは密につながっている バッサリ分けて考えている人が多い気がする、炎上の元なのでやめてほしい 機械学習プロジェクトには研究者以外の努力も大切 丸投げダメ絶対、肝心な仕事を忘れないで 機械学習にばかり目が行き過ぎてもダメ(機械学習楽しいけど) アノテーションをするだけで分かることはたくさんある 素早くたくさん失敗する・上手く行かないところに気付くには、すぐには機械学習をしない選択も お断り 難しい話かも。 結論は言ったので

    機械学習プロジェクトとアノテーション(機械学習名古屋第22回勉強会) - Qiita
    sh19910711
    sh19910711 2024/04/27
    "専門家でなくても分かること・出来ることをちゃんとする / 機械学習が分からなくても出来ることをサボるとプロジェクトが上手く進まない / 「解決方法を探る」の段階でどうアノテーションするかも考える" 2019
  • 実践デバッグ技法 - 世界線航跡蔵

    オライリー・ジャパンから『 実践 デバッグ技法 ―GDB、DDD、Eclipseによるデバッギング 』を頂戴した。 概要 オライリーの『実践xxx』『Mastering xxx』 という技術xxxに少し慣れてきた人が更にステップアップするためのという印象がある。そして、体系的な理論というよりは現場の常識というものを扱っている。 『実践デバッグ技法』は前者の印象には反する。これは当にGDBの使い方と問題の切り分け方を手取り足取り教えてくれるで、まだデバッガが何なのかすら分かっていない人こそ読むべきだ。 一方で後者の印象には合致する。これこそが『 Debug Hacks -デバッグを極めるテクニック&ツール 』で著者のよしおかさんが訴えていた点でもあった。つまり、今までデバッグの技法というものは理論化されそれが普及しているとは言い難い。にもかかわらず、現場では常識である。初心者はどう

    実践デバッグ技法 - 世界線航跡蔵
    sh19910711
    sh19910711 2024/04/27
    "GDBの使い方と問題の切り分け方を手取り足取り教えてくれる本 / 『Debug Hacks』よりはもっと初心者向けで、ユーザーランドのプログラマ向けにデバッグのやり方を教えてくれる / トレーサーやメモリデバッガの話もある" 2009