そろそろ引っ越し時期ですね。 私も今年は引っ越さなきゃいけないし、知り合いも引っ越すらしいので、前からやりたかったマッピングをしてみました。 地域の相場感をなんとなく把握するのにどうぞ。 成果物全体 参考にした条件 30平米〜35平米、築30年以内、マンション、風呂トイレ別。 管理費込み、礼金は24分割して足しています。 色と賃料の対応 30万円以上 黒● 20万円 赤● 15万円 オレンジ● 12万円 黄緑 10万円 緑● 7万円 青● 5.5万円 水色● 4万円 白◯ あと、緑の円は大体駅から徒歩10分くらいです。 赤いラインは路線です。 以下、細かな所感 10万円以下に絞った地図 埼玉方面 千葉方面 神奈川方面 東京 主要な路線に沿って分布してますね。 ベッドタウンを見ていきましょう。 大宮 東川口、越谷 西川口、川口 川越方面 柏、流山 町田付近 千葉方面はずっと連なっている、賃料
シリコンバレーの日々 日米のハイテクベンチャーに投資する「キャピタリスト」が、ベンチャー企業やVC投資の諸々をお届けします。 90年代後半、「インターネットマガジン」という雑誌に必ず綴じ込まれた大きな「地図」があった。A3版、もしかしたらA2版はあろうかという赤っぽい紙に記入されていたのは、インターネットのサービスプロバイダーの相互接続状況を示した、日本のインターネットの構成図そのものだった。その地図を見ることで、どのプロバイダーがどの程度の帯域の回線をどことつないでいるかわかり、どのプロバイダーが高速な通信を提供してくれそうか何となく想像が出来たものだ。 そんな日本のインターネットの地図の最新版(2007年3年版)が出たようだ。 インターネットサービスプロバイダー相互接続マップ(PDF版公開)通常版とサマリー版(AS番号取得ISP版)が用意されているのでそれぞれクリックしてみると面白い。
はじめに Iceberg view概要 一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプト メタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド 「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方 引数 アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデア おわりに Appendix: Viewサポートに関連するPR はじめに 2024
はじめに こちらの記事でSurrogate indexについて初めて知りました。 developers.cyberagent.co.jp Netflixでも活用されていて、一定の成果を上げているようです。 arxiv.org 業務で扱う課題を解決してくれる可能性があったため、理解しておきたいと思いました。 論文等を読みつつRで挙動などを確認していきます。 はじめに 概要 課題感 方針 仮定 仮定1 強く無視できる割り当て条件 仮定2 代理性 仮定3 互換性 定義 Surrogate index:代理指数 代理スコア:Surrogate Score Sampling Score 潜在的条件付き期待値 関係性 因果効果の推定 論文での適用事例 Rで確認 データの生成 推定 所感 概要 元の論文はこちらです。 www.nber.org よりわかりやすい説明は冒頭のブログ記事を参照してください。
昨日は読んでいたら3時回っていて、駅まで全力ダッシュするはめになったので平日は自重気味で行く。 有向ネットワークの構造が情報拡散に与える影響の分析 ネットワーク構造と情報拡散の関係を明らかにするため、ネットワーク関する13個の指標を用意。ある一つの指標だけを変化させ、そのネットワークで情報拡散シミュレーションを行う。指標の増減と情報が伝わったノード数(以下期待影響度)との相関を見る事で、情報拡散と関連の強い指標を検出する。 その結果、ノード内次数相関と期待影響度に極めて強い相関がある事がわかった。ノード内次数相関が高いということは、任意のノードの入次数と出次数がほとんど同じ本数だけあるという事になる。 そのほか、到達可能率(任意の2つのノードの組み合わせに対してリンクをたどって到達できる比率)や次数相関に関連した指標が相関が高く出ている。 これらの結果を考慮したネットワークを作成してみると
両者を組み合わせて良いとこ取りをすることで、より精度が高く、かつ、人間の認識するような(≒ 作成者が意図したような)形式で文字起こしをすることが目的です。 他の手法との比較 ドキュメントローダとの比較 もちろんパワーポイントであれば、ファイルを解析すれば書いてある文字やその位置をデータとして取得できます。ただ、今回は汎用的な方法にしたいため、パワーポイントだけではなく、PDFにも対応させたいです。しかし、PDFの中には、文字は書かれているものの、画像のようになっているケースがあり、単純なドキュメントローダーではデータとして読めません。 こうしたケースであっても対応できる方が(文字起こしできる方が)嬉しいため、今回はOCRを使用して文字起こしする方法を試します。 範囲 この記事では、LLM単体では文字認識が低い場合でも、OCRの文字認識を加えることで、正確に文字起こしできるかを確認します。表
2023年10月23日 (月) から 12月8日 (金) にかけてRECRUIT Internship for Engineers, Data Specialists 2023に参加させていただいた櫛引淳之介です。インターン期間中は『スタディサプリENGLISH』のSREチームに配属され、社内ツール用インフラの構築や、インフラ開発環境のセキュリティに関するタスクに取り組みました。今回は、メインのタスクとして取り組んだインフラのセキュリティ検査ツールの導入について紹介します。 はじめに パブリッククラウドの設定不備は、セキュリティインシデントの原因となります。手作業による確認では見逃しが発生する可能性があるため、設定不備の検知自動化を進める動きがあります。 『スタディサプリENGLISH』ではインフラとしてAWSを使用しており、その設定にはソースコードによってインフラ構成を管理できるIaCツ
多言語のテキスト埋め込み用のモデルであるMultilingual-E5[1]をファインチューニングして、検索性能が向上するか否かを日本語のデータセット検証してみました。結果としては、ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能を確認できました。なお、E5については以下の記事で解説しているので、必要に応じて参照してください。 hironsan.hatenablog.com 本記事の構成は次のとおりです。 実験設定 実験結果 参考資料 実験設定 今回の実験では、多言語E5をファインチューニングして得られたモデルをベクトル検索に使うことで、検索性能がどのように変化するかを検証します。多言語E5にはbaseとlargeの2つのモデルがあるので、これらをファインチューニングする前後の検索性能を測定することにします。また、比較用のモデルとしてO
箱セレで経験した問題を踏まえて、RPG個人開発において「これだけはやってはいけない」「これをやるならこうしよう」という要素をザックリまとめておきます。すべて僕の失敗経験を通したノウハウなので、これからゲームを作る人、今作ってる人も、よかったら参考にして頂けたら幸いです。 目次 マップ作りに凝りすぎるな 人形劇はコスパが悪い パラメータ管理は適当にやるな 作り手の人的リソースは一番重要な箇所にだけかけろ 今後ゲームを作りたい人向けのアドバイス まとめ 1.マップ作りに凝りすぎるな RPGツクールやウディタで作るなら、デフォルト素材やフリー素材、販売素材でなんとかしましょう。確かに見た目は量産型になるかもしれませんが、そこにこだわると、作業量が倍々に積み重なって、終わらなくなります。僕の場合はボツ・試作込みで最低でも40000パーツ作りました。 もしオリジナルのゲーム画面にこだわりたいなら以下
なぜこの記事を作成したのか Processingを始めたきっかけや魅力に気づいたきっかけなど、さまざまな「きっかけ」を今なら言語化できるのでは?と感じ、記事として残そうと思いました。 また過去に募集した質問箱でも「きっかけ」や「理由」を尋ねてくる質問が多かったのもあって具体的に答える形で書いてみます。 ritocoの歴史みたいな視点で見てくれたら幸いです。 目次 なぜこの記事を作成したのか 目次 私について Processingって? Processingを知ったきっかけ Processingの授業を受講したきっかけ Processingの魅力に気づいたきっかけ Processingで自主制作したいと思ったきっかけ Processingを深く学ぶ・知ることになったきっかけ Processing作品を投稿しようと思ったきっかけ 今日までのアウトプットのきっかけ 様々なきっかけがあって 私につ
背景データウェアハウスまたはより正確にはデータプラットフォームの戦いにおいて、AIのトレンドが勢いを増しており、それに対応するためにGoogleやMicrosoftなども同様の機能をリリースして競争力を維持しているLLM機能を発表したことは驚くべきことではありません。 Snowflake LLM Functionsの機能Snowflake Cortexは、ユーザーにAIおよびMLソリューションを提供するマネージドサービスです。Snowflakeが提供する機能には、次の2つのタイプがあります。 LLM機能: これらはSQLおよびPythonベースの機能であり、理解、クエリ、翻訳、要約、自由形式のテキストの生成に使用できます。 MLベースの機能: これらはMLアルゴリズムに基づいたSQL機能であり、予測を導出するために使用されます。 Snowflakeのこれらのサービスにより、ユーザーはデータ
ここゲームデザインのプロになろうとする人や、プロになりたての人にいい本を読んだのでちょっと紹介したい。 ただしこの本は「ゲームデザインという仕事を理屈だって説明して、このようなプロセスで仕事をしていきましょう、このように考えていきましょう」という内容で、FGOの企画書だの戦闘はこんなこと考えただのといった、一般読者が期待していそうなことは一切載っていない。 なので、そういう本を読みたい人には全くお勧めしない。 また、良い本ではあるけれど、いろいろな理由で付け加わっていると思われる章が本としてはノイズになっている。 ストレートに書けば、chapter 1は飛ばして、2-3-4-5と読んだら、あとは無視して構わない。 本当に大事なのはchapter 3-4と断言しておく。 ただchapter 3-4 はお金を払う価値がある内容だ。 この本の重要な内容をかいつまんで説明すると以下になる。 ゴール
Twitterがいよいよヤバいらしい、という話が、再び話題になっている。イーロン・マスクが経営権を握って以降、似たような話は何度も囁かれていたが、今度こそは本物だ、ということのようだ。 ことの発端は日本時間の7月1日から2日にかけて、Twitterが全ユーザーに対して1日あたりの閲覧数を制限したことだ。上限の投稿数についてはたびたび変更が繰り返されたものの、春に行われたAPIの有料化に続いて大きなインパクトを持つ出来事だといえよう。 背景にあるのは、Twitterに対するスクレイピングがサーバーにもたらす過負荷らしい。ただこのスクレイピングも、そもそもAPIの有料化によってデータを取得できなくなったユーザーが代替策として行っているものである可能性が高い。さらに、Twitter内部のバグによってセルフDDos状態になっているとの指摘もある。単純に技術的な問題というよりは、経営の判断ミスがネガ
チェスも、将棋も、囲碁も、コンピューターが人間に勝利して久しいですが、「コンピューター」つまり「計算機」というからには、それぞれのゲームに対して何らかの「計算」をして、一つ一つの手を指しているわけです。 メディアではよくコンピューター将棋などについて華々しく紹介されるけれども、じゃあ実際にそれらがどういう計算をしているのか?ということについては何も知らないという人がほとんどじゃないかと思います。 今回はそんなゲームのコンピューター対戦につながる初歩の初歩、ゲームを「計算する」とはどういうことなのか、というお話です。 この記事は、「数学ゲーム Advent Calendar 2018」20日目の記事です。 ゴドマチ 「ゴドマチ」という対戦パズルゲームがあります。略さず言うと「合同を待ちながら」。はい。そういうことです。 考案者の方によるルール解説はこちら↓ j344.exblog.jp ゴド
「マイルを貯めようとしたけど、めんどくさくて挫折してしまった」という人がとても多いみたいです。実際、このブログに「マイル 挫折」という検索語で来てくれる人が少なからずいるんですよね。 わざわざその単語で検索するという事は、同じように挫折した人の文章を読んで「ああ、やっぱりね」と納得したいか、あるいは挫折しないで済む方法を知りたいってことですよね。今回は、なぜ私テラヤマアニが、このめんどくささにくじけずにマイルを貯められるのかを、ちょっと真面目に考えてみました。 めんどくさいと思ったことがない とか言いつつ、正直な話、私からすると「マイルを貯めることがめんどくさい」という感覚自体が実はあんまり理解できないんですよね(笑)。 成果に結びつくかどうかがわからない努力を続けるのって、できる人とできない人がいます。「自分を信じる力」が試されるというか。そういう努力を続けられる人のことを尊敬しますが、
なんか前にも全く同じ事を言った気がするけど俺はおじいちゃんなので同じ事をなんべんも言うことが仕事です。ほいでゲームにおけるやり込み要素というのは自分自身が目標を設定して自分勝手にやりこむことなのであって、「このゲームにはやりこみ要素がない」というのはそもそも文章としておかしい。成り立たない。やりこみ要素のないゲームなど、此の世に存在していない。逆に言うと「このゲームはやりこみ要素が満載」という話もおかしい。ゲーム開発者がユーザーのために予め用意しておく"やりこみ要素"は大きなお世話であり、ほっといてくれ!であり、いわばやらされ要素。やりこみはあくまでも自分自身が決めることだと思います俺は。 だけれども、たとえば自分自身が勝手に設定した目標をやっとのことで達成したとき、なんらかのサプライズ的な演出がゲームによって突然なされたとしたら。「うわ、こんなやりこみをすることまで開発者は見越してたのか
最近はLangChain Templates[1]を使って、LangChainベースのアプリケーションを簡単に作れるようになっていますが、テンプレートのリストを何気なく見ていたら、GPT Researcher[2]を基にした研究アシスタント[3]のテンプレートがありました。仕事で似たような機能を作っていたこともあり、興味深い内容だったので、この記事ではLangChain Templatesを活用し、研究アシスタントを作成する方法を紹介します。 研究アシスタントの例。リサーチクエスチョンを入力すると、文書を検索し、レポートにまとめてくれる。 研究アシスタントのアーキテクチャは以下のとおりです。大きくは、ユーザーが入力したリサーチクエスチョンから検索クエリを生成し、各クエリで検索した情報を要約してから結合し、レポートを生成しています。要約を結合してからLLMに入力しているため、それなりに長いコ
こんにちは。PharmaX共同創業者の上野(@ueeeeniki)です! LLMアプリケーションの実験管理サービスであるPromptLayerの使い方をご紹介したところ、非常に多くの方にお読みいただき、LLMの実験管理で検索してもかなり上位に出てくる記事になりました。 そこで今回は、発展編としてPromptLayerの使い方だけではなく、PharmaXでの実験管理のリアルなプラクティスを徹底解説したいと思います。 PharmaXで行っている実験管理のプラクティスは下記のように何度か発表しているのですが、記事の形できちんとまとめるのは初めてなので、改めてガッツリご紹介します! PharmaXでのリアルな実験管理のノウハウが、LLMアプリケーションを運用されている方々の参考になれば嬉しいです。 PromptLayerはマネージドなSaaSサービスにはなるので、セキュリティの問題などは各社の規定
1. はじめにどうも、すべての経済活動をデジタル化したい、LayerXの牧迫(@35_mki)です。法人支出管理SaaS「バクラク」シリーズを提供しているバクラク事業部で事業部長を務めております。 今回は、昨年2021年1月から提供している「バクラク」シリーズの裏側を「事業目線で」お伝えできればと思います。 タイトルが流行りに乗っかっただけ感があるですが(笑)、バクラク事業部も「THE MODEL」的なファンクションで成り立っており、先人の知見に積極的に載っからせて頂いております。 その中で、各チームの目標の持ち方やそもそも事業計画の策定・運用方法は試行錯誤しながらこの1年半運営してきており、その中で見えてきたエッセンスを公開してしまおう、という記事になっております。 「THE MODEL」をご存知の方に少しでも新しい実践的なエッセンスがあればと思い、「シン・ザ・モデル」というタイトルにな
概要 実験結果のファイルをGitHubに保存しています 概要 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習することで画像のクラスタリングを行えるとのこと。 つまり、画像に対して事前のアノテーション(ラベリング)作業不要でクラスタリングが可能 詳細はarxiv読んでください。 Invariant Information Clustering for Unsupervised Image Classification and Segmentation(arxiv) xu-ji/IIC (本家Gitリポジトリ) 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場! (日本語解説) RuABraun/phone-clustering (比較的シンプルな実装例Gitリポジトリ) MNISTはいろんなひとが実装しているので、 画像ではなく、もっと
徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く