keijakのブックマーク (1,208)

  • RAGを社内用語に強くするチャンク分割の手法「MoGG」

    株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。記事では、RAGの性能を高めるための「MoGG」という手法について、ざっくり理解します。 この記事は何 この記事は、社内用語が多く含まれるドキュメントでもRAGの性能を高くするための手法「MoGG」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 題 ざっくりサマリー MoGG(Mix-of-Granularity-Graph)は、RAGの精度を上げるための、新しいチャンク分割の手法です。MoGGでは、チャンクとグラフ構造を上手く組み合わせることで、専門用語・社内用語が多いドキュメントでも回答精度を向上させることができます。上海人工知能研究所と北京航空

    RAGを社内用語に強くするチャンク分割の手法「MoGG」
    keijak
    keijak 2024/10/02
  • MITからスピンオフした「Liquid AI」が非トランスフォーマーAIモデル「LFM 1B・3B・40B MoE」をリリース

    OpenAIChatGPTの正式名称「Chat Generative Pre-trained Transformer」にTransformer(トランスフォーマー)という言葉が使われているとおり、記事作成時点でメジャーなAIモデルの多くはGoogleが発表した深層学習モデルであるトランスフォーマーを使用したものです。トランスフォーマーを使わずにGPTを超える基礎モデルを構築することを目標に掲げるAI企業のLiquid AIが、メモリー・フットプリントを最小限に抑えつつ優れたパフォーマンスを示すLiquid Foundation Models(LFM)の最初のシリーズを発表しました。 Liquid Foundation Models: Our First Series of Generative AI Models https://www.liquid.ai/liquid-foundati

    MITからスピンオフした「Liquid AI」が非トランスフォーマーAIモデル「LFM 1B・3B・40B MoE」をリリース
    keijak
    keijak 2024/10/01
  • 言語化能力の言語化 - Konifar's ZATSU

    "言語化能力"とは何なのかちゃんと説明できないので、雑に分解して考えてみる。めちゃくちゃややこしい言い方をすれば、"言語化能力の言語化"である。 考えてみると、自分は "整理しづらいことを整理して人に伝える力" を言語化能力と呼んでいる。 整理しづらいこと 答えが明確で整理しなくても自明なことについて、言語化がどうこうという話にはならない。 たとえば人の感情が絡むことや固まりきっていないチームの価値観など、整理しづらいことが言語化の対象となる。 ここでいう整理しづらいことというのは、答えがないまたは答えを示すのが難しいことと言い換えてもいい。 整理する力 言語化のためには、自分でよく考えて"練"っておく必要がある。 考える元となる情報をインプットする "情報収集力" はもちろん、普段から色々なことを考えてああでもないこうでもないと考える "思考力" も必要。とっ散らかった情報を整理整頓でき

    言語化能力の言語化 - Konifar's ZATSU
    keijak
    keijak 2024/10/01
  • さらなる進化を遂げた「uv」の新機能 | gihyo.jp

    福田(@JunyaFff)です。連載Python Monthly Topicsで2024年3月に公開したRust製のPythonパッケージ管理ツール「uv」を使ってみよう で紹介した「uv」が、さらなる進化を遂げました。今回は、その新機能を紹介します。 はじめに Astral社が開発するRust製の高速なpipの代替ツール「uv」がパッケージマネージャーとして8月にアップデートされました。pipの代替ツールとしてだけでなく、Pythonプロジェクト、コマンドラインツール、単一ファイルスクリプトさらにPython自体を管理できるようになりました。uvは、pipやpipx、venv、poetryやpyenvのような機能を包括していると言え、そしてそのすべてが非常に高速に動作します。 記事では、アップデートした「uv」の新機能を中心に紹介します。 基的な使い方は Rust製のPython

    さらなる進化を遂げた「uv」の新機能 | gihyo.jp
    keijak
    keijak 2024/10/01
  • なっとく! 並行処理プログラミング | 翔泳社

    逐次処理の鳥籠から飛び立ち、スケールアウトを目指す すべての開発者のために 書は Kirill Bobrov, "Grokking Concurrency", Manning Publishing, 2023 の邦訳です。 現代的なアプリにふさわしい高パフォーマンスのコードを書くためには、並行処理の理解が不可欠です。Webアプリ、IoTシステム、ビッグデータ処理など、並行処理はあらゆる局面で活用されていますが、そこには初学者が中心的に学ぶ「逐次実行を前提にしたプログラム」ではどうしても理解できない複雑な概念や特徴があります。それらをきちんと押さえることで、暴走せずにパフォーマンスを高める並行処理を手に入れることができるのです。 書ではその核となる概念が徹底的に説明されており、楽しくわかりやすい文章と興味深いイラストで、洞察力に富んだ例や、独自のプロジェクトに適用できる詳細なテクニックが

    なっとく! 並行処理プログラミング | 翔泳社
    keijak
    keijak 2024/09/29
  • RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究 | AIDB

    記事では、Microsoftの研究者たちが行った、LLMを外部情報で強化する必要がある質問に関する調査結果を紹介します。研究者たちは、ユーザーからの質問を4つの難易度に分け、それぞれの難易度に合った解決方法を提案してい […] The post RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究 first appeared on AIDB.

    RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究 | AIDB
    keijak
    keijak 2024/09/28
  • Llama 3.2 の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Llama 3.2: Revolutionizing edge AI and vision with open, customizable models 1. Llama 3.2「Llama 3.2 11B・90B」は、チャートやグラフを含むドキュメントレベルの理解、画像キャプション、自然言語の説明に基づいて画像内のオブジェクトの方向を正確に特定するなど、画像推論のユースケースをサポートします。 「Llama 3.2 1B・3B」は、多言語テキスト生成とツール呼び出し機能に非常に優れています。これらのモデルにより、開発者は、データがデバイスから外に出ることのない強力なプライバシーを備えた、パーソナライズされたオンデバイスエージェントアプリケーションを構築できます。 2. モデル評価「Llama 3.2 11B・90B」の視覚モデルは、画像

    Llama 3.2 の概要|npaka
    keijak
    keijak 2024/09/28
  • レイ・ダリオ氏: 中国の不動産バブル崩壊は日本のバブル崩壊より酷い | グローバルマクロ・リサーチ・インスティテュート

    世界最大のヘッジファンドBridgewater創業者のレイ・ダリオ氏がBloombergのインタビューで、不動産バブルが崩壊している中国経済について語っている。 中国不動産バブル崩壊 ダリオ氏は次のように切り出している。 中国では今深刻な問題が生じている。 中国経済は絶賛バブル崩壊中である。その始まりである不動産ディベロッパー恒大集団の実質破綻がニュースになったのはいつのことだったか。2021年である。 恒大集団の倒産危機と中国不動産バブル崩壊懸念まとめ (2021/9/17) ジョージ・ソロス氏、中国版リーマンショックによるバブル崩壊を警告 (2021/9/15) それからもう3年が経っているが、中国のバブル崩壊はまだ終わっていない。上海総合指数のチャートは次のようになっている。 日の読者にどれだけ知られているか分からないが、中国の株価は3年間落ち続けているのである。 バブル崩壊は終

    keijak
    keijak 2024/09/27
  • 《追記》フレンチという一生モノの沼を薦めたい

    (追記) こんな文章が、思ったよりもバズってびっくりしたので、ツイッターで「フレンチ自作沼(アカウント名は@French_jisaku)」というアカウントを作成しました。 フレンチ自作界隈の人がいたらフォローしてもらえると嬉しいです。 以下でいただいたコメントの一部に返信していきます。 おおよそ素晴らしいことが書いてあるけど③だけ解像度が低い気が…というのも、料理というのは基的には科学と同じで味に再現性を持たせる必要があり、そのためには分量を正しく理解し守る必要がある(この分量の正確さをレシピなしでも把握できているのがプロ)。その上で、③では"短時間だとミスった時のリカバリができず"とあるけど、正確な分量を計って料理をすれば大きな失敗はなく連鎖的に料理が崩壊することはまずあり得ない。短時間の作業でのミスとして、例えばイタリアンならカルボナーラの卵に火を通し過ぎる等の失敗はあるかもしれない

    《追記》フレンチという一生モノの沼を薦めたい
    keijak
    keijak 2024/09/27
  • 継続的に価値あるサービスを提供するために意思決定者が押さえておくべきコストの話 - 猫型の蓄音機は 1 分間に 45 回にゃあと鳴く

    社内で書いた内容から、一般化できる話だけを抜き出して書いた記事です。 TL;DR 意思決定者は、 仕様が複雑になればなるだけ、指数関数的かつ継続的にコストがかかることを理解する必要がある。 ユーザーの要求や利便性について優先順位をつける必要がある。 それらを揃えた上で「いっちゃんいいバランスで顧客要望に応える」必要がある。 コストについて サービスあるいは機能の一生 サービスあるいは機能は以下のライフサイクルを辿る 初回リリース以前 初回リリース以後、クローズ以前 クローズ 実は一番コストがかかるのが「初回リリース以後、クローズ以前」の部分。なぜならサービスの一生のうちほとんどの時期がここなので……。 初回リリース以前にかかるコスト いわゆる「初期開発」が行われる。 当然、この時に仕様がシンプルであればあるだけ初期開発にかかるコストは低くなるし、仕様が複雑であればあるだけ初期開発にかかるコ

    継続的に価値あるサービスを提供するために意思決定者が押さえておくべきコストの話 - 猫型の蓄音機は 1 分間に 45 回にゃあと鳴く
    keijak
    keijak 2024/09/26
  • 三大「女は◯ー◯ー◯ー◯」

    女はイージーモード 女はコージーコーナー(甘いものが好きなので) 女はセーラームーン(変身願望があるので) あと一つは?

    三大「女は◯ー◯ー◯ー◯」
    keijak
    keijak 2024/09/25
    PCゲーム
  • The Intelligence Age

    In the next couple of decades, we will be able to do things that would have seemed like magic to our grandparents. This phenomenon is not new, but it will be newly accelerated. People have become dramatically more capable over time; we can already accomplish things now that our predecessors would have believed to be impossible. We are more capable not because of genetic change, but because we bene

    The Intelligence Age
    keijak
    keijak 2024/09/25
  • 三大2回繰り返している名称

    ・フランフラン ・anan ・ミャクミャク あと一つは?

    三大2回繰り返している名称
    keijak
    keijak 2024/09/25
    SHOW by ショーバイ
  • アップルの「気をそらす項目を非表示」から感じるウェブ広告への危機感 | HON.jp News Blog

    アップルの「気をそらす項目を非表示」から感じるウェブ広告への危機感 | HON.jp News Blog
    keijak
    keijak 2024/09/23
    このログを使って学習させると世界最高精度の広告ブロッカーを作れそう
  • バーチャルっていうのは事実で現実なんだよ

    Virtualの誤訳である「仮想」はもうそろそろ言い換えるべきである。 声を大にして言いたい。 俺はもう事実上と言っていく。仮想記憶のことも「事実上記憶」もしくは「バーチャルメモリー」と言っていく。仮想記憶とは死んでも言わん。 Virtualは仮想ではない仮想は「事実でないことを仮にそう考えること。仮定しての想像」という意味である。 反実仮想という語からきたものだと思われる。 反実仮想とは「事実に反することを想定し、仮に想像すること」という意味だ。 だが驚くことなかれ。Virtualは事実という意味である。 「仮想」という言葉はVirtualの意味の真逆であるということ。 Virtualの意味の質は「実際そう考えること」「事実上そうだと考えること」であり「ほとんど事実(厳密には違うけどね)」である。 たとえば「いつも私ばかり家事しててこれじゃ私家政婦みたいじゃん」というとき、これは「Vi

    バーチャルっていうのは事実で現実なんだよ
    keijak
    keijak 2024/09/23
    漢字は強い、それはそう
  • 研究の進め方 ランダムネスとの付き合い方について

    機械学習若手の会 (YAML) 2024での講演スライドです。

    研究の進め方 ランダムネスとの付き合い方について
    keijak
    keijak 2024/09/23
  • 1冊の単語帳を1127日かけて2周したら語彙力が1万2千語になった

    「英文がスラスラ読めるようになりたい」私の切実な願いに、読書猿さんは言い放った 「まず2万語な!」 ――― 6年前の話 だ。 藁にもすがる思いで手を出したのがこれ。1127日かけて2回読んだ。結果は次の通り。 7870 words 始める前 9944 words  1周目(610日)完了後 12509 words  2周目(517日)完了後 語彙力は preply でテストした。 語彙力が増強されていることが数字で分かるが、あまり驚きはない。この『Merriam-Webster's Vocabulary Builder 』は、250もの語根や語幹をベースに単語を解説する単語帳で、私の英語力で背伸びして読めるレベルなので、そりゃ2回も読んだら強くなるわな、と思う。 それよりも、3年も続いたことに驚いている。 学校を卒業してから、英会話学校へ通ったり(1ヶ月で挫折)、通信講座を受けたり(2ヶ月

    1冊の単語帳を1127日かけて2周したら語彙力が1万2千語になった
    keijak
    keijak 2024/09/23
  • Parquetフォーマット概観 - 発明のための再発明

    Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に

    Parquetフォーマット概観 - 発明のための再発明
    keijak
    keijak 2024/09/23
  • 正しく評価される自己評価の書き方 - るさんちまん

    はじめに 会社員として働く上で評価は最も大きな関心事の1つでしょう。評価によって自身の職位や給料が決まるのでそれも当然です。 しかしながら、「納得感のある評価を受けられていますか?」と問うと明確にYesと答えられる人は稀でしょう。「成果を出したのに正しく評価されていない」と不満を持っていたり「評価は偉い人が勝手に決めるものだから…」と諦めている人もいるのではないでしょうか。少なくとも過去の私はそうでした。 そもそも、評価をどのように受けるべきか指導や研修を受けたことはありますか?私にはその記憶はなく、自身が評価者の立場になって初めて評価というシステムに真剣に向き合うことになりました。 評価の際に被評価者としてできることは、評価者に自分の成果や成長を適切にアピールすることです。そして、アピールの方法として最も確実かつ重要なのは伝わる自己評価を書くことです このエントリは、被評価者が評価者に正

    正しく評価される自己評価の書き方 - るさんちまん
    keijak
    keijak 2024/09/22
  • 政府は今すぐ電子レシートを普及させるべきだ

    記帳代行会計事務所や税理士事務所の基業務は記帳代行である。 記帳代行というのは、簡単に言えば紙の領収書や紙のレシートを分析して、それを帳簿につけるという仕事だ。 だいたい1枚あたり20〜60円ほどで行われる。20円はかなり安い。 これはいうならば全購入に対して20円かかっているということでもある。 個人事業主から大企業に至るまで、すべての物品購入に20円かかっている。 「20円 / 商品」はもはや税金だろ。冷静に考えてほしい。これはもう「固定消費税」みたいなもんだ。 個人事業主が確定申告のときにひぃひぃ言っているのもこれのせいだ。「固定消費税」を払いたくないから、自前で大量のレシートに対してひぃひぃ言いながら分類する。 これがめんどくさいということだ。そもそも紙はどこだなどと探すこともある。紙を管理するのがめんどいわけだ。 「めんどい」とか言っているが、固定消費税分の労働をしているわけだ

    政府は今すぐ電子レシートを普及させるべきだ
    keijak
    keijak 2024/09/22