タグ

データに関するdaitomのブックマーク (23)

  • 【技術書典】「Streamlit データ可視化入門」を執筆しました。 - Qiita

    前置き こんにちは。データエンジニアの山口歩夢です! この度、技術書典16に向けて、Streamlitの入門書を執筆しました。 StreamlitPythonで書かれたOSSのフレームワークで、こちらを使用することでWEB開発の知識がなくても非常に簡単にアプリケーションの作成をすることができます。 日語の情報がまだ少なく、英語のドキュメントや記事で情報を集める必要がある中で、多くの方々に魅力を伝えたいと考え、今回執筆に至りました。 ※下記のリンクで電子版を販売開始しました! 謝辞 今回、こちらの技術書の作成にあたって、 Snowflake Superheroesの小宮山さん(@kommy_jp)に内容のレビューや表紙の絵の作成をしていただきました。 誠にありがとうございます 小宮山さんのSnowflakeについての著書はこちらです! コンテンツの内容 簡単にどんな内容を書いたのか解説さ

    【技術書典】「Streamlit データ可視化入門」を執筆しました。 - Qiita
  • NewSQLはデータベースに革命を起こすか - NetflixにおけるCockroachDBのユースケース|ミック

    近年のデータベースの新潮流にNewSQLと呼ばれる一群のデータベース製品群の登場がある。そのコンセプトを一言でいうと、RDBとNoSQLのいいとこどりである。SQLインタフェースと強いデータ一貫性(ACID)というRDBの利点と水平方向のスケーラビリティというNoSQLの長所を兼ね備えた夢のようなデータベースである。下図に見られるように、RDBとNoSQLが鋭いトレードオフを発生させていたのに対して、NewSQLではそれが解消されているのが分かる。 RDB vs NoSQL vs NewSQL当にそのような夢の実現に成功しているか、というのはまだ議論が続いているが(クエリのスループットを出すためにレイテンシを犠牲にしているので当にトレードオフを解消はしていない、などの問題が指摘されている)、商用でも利用可能な製品としてGoogle Spanner、TiDB、YugabyteDB、Coc

    NewSQLはデータベースに革命を起こすか - NetflixにおけるCockroachDBのユースケース|ミック
  • Azure Cognitive Search: Outperforming vector search with hybrid retrieval and ranking capabilities

  • Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンター コラム

    こんにちは、AI製品開発グループのファイサルです。 この記事では、Know Narrator Searchで使用されている文章参照手法、Retrieval-Augmented Generation(RAG)の精度向上方法について紹介します。 はじめに ChatGPTを始めとした大規模言語モデル(LLM)の登場により、AI業界、特に自然言語処理分野で多くの素晴らしい応用先が提案されるようになりました。 LLMは素晴らしい技術であることは間違いないですが、同時に幻覚(Hallucination)という問題を抱えています。 このHallucinationという問題は、LLMが事実と異なる情報をあたかも真実であるように回答するというもので、LLMの発表当初から指摘されていました。 この問題を解決するために、さまざまな手法が存在しますが、よく用いられるのが「Retrieval-Augmented G

    Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンター コラム
  • ChatGPTの新機能コードインタープリターに《未来の仕事の全自動化》が見える

    国勢調査(csv)と国土地理院(xls)とドン・キホーテ店舗数(html)を自動マージしてパワポにする OpenAIが、ChatGPTに革命的ともいえる新機能「Code Interpreter」を追加して、試した人たちの間で大騒ぎになっている。さまざまな機能が可能になっているが、その質は名前のとおりChatGPTの中でプログラムを実行可能になったことだ。 ChatGPT plus(20ドル/月の有料ユーザー)は、随時このCode Interpreter というプラグインが使えるようになるそうなのだが。画面左下から「Settings」を選び、「Code Interpreter」のスライドスイッチをONできれば利用可能。「New Chat」をスタートしたときに「GPT-4」を選び、「Code Interpreter」にチェックする。 とくに、データサイエンティスト的な数値の分析の世界にインパ

    ChatGPTの新機能コードインタープリターに《未来の仕事の全自動化》が見える
  • SQLiteでベクトル検索ができる拡張sqlite-vssを試す|mah_lab / 西見 公宏

    SQLiteでベクトル検索を可能にするsqlite-vssそんなポータブルで便利なSQLiteですが、そのSQLiteでベクトル検索ができるとなるとより夢が広がります。 SQLite自体はファイルベースなので、あらかじめベクトルデータを設定したSQLiteデータベースファイルをアプリに組み込んで配布しても良いわけです。そうすればデータベースサーバを用意しなくて済む分コストも圧縮されますし、組み込みなのでアプリからは軽量に動作します。 ホスティングする場合でもFly.ioのようにボリュームイメージを利用できるPaaSを利用すれば、問題なく運用が可能です。 前置きが長くなりましたが、このような夢を叶えてくれる拡張がsqlite-vssです。ベクトル検索はFaissベースで実装されています。 とっても良さげではあるのですが、実際に組み込んでみた場合のコード例が見つからなかったので、手を動かして試

    SQLiteでベクトル検索ができる拡張sqlite-vssを試す|mah_lab / 西見 公宏
  • 日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】|kun1emon

    ⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日語化Adapterでありモデル自体ではありません。 LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日語化したモデルも商用利用はできません。 OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできません コンテンツ生成者はできません。 詳細は記事後半で述べていますが利用規約が適用されるのはコンテンツ生成者までです。 概要2022年の11月末にOpenAIからChatGPTが発表されてから、それに追随するようにGoogleからBard、MetaからLLaMAなど大規模言語モデル(LLM)が発表されました。さらにLLaMA 7Bを「text-davinci-003」を用いて「Self-Instruct」で作成された52Kのデータセット(

    日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】|kun1emon
  • 登記所備付地図データを扱う上で知っておきたい土地の基礎知識 - Qiita

    はじめに 2023年1月23日に法務省より、不動産登記において作成される登記所備付地図データがG空間情報センターを通じて無償で一般公開されました。 出典:https://www.moj.go.jp/MINJI/minji05_00494.html 登記所備付地図データが公開されることで、生活関連・公共サービス関連情報との連携や、都市計画・まちづくり、災害対応などの様々な分野で、地図データがオープンデータとして広く利用され、新たな経済効果や社会生活への好影響をもたらすことが期待されているようです。 いままでは登記所備付地図データのような土地の境界、形状を示すデータについてはオープンデータとしてあまり公開はされていなかったと思うので、普段GISを活用されている方にとっては嬉しいニュースだったのではないでしょうか。 この登記所備付地図データをQGISなどのGISで表示するには、デジタル庁が公開し

    登記所備付地図データを扱う上で知っておきたい土地の基礎知識 - Qiita
  • 論文の分類をするモデルを作ろうとしてみる〜教師データ作成編〜

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はGPT-3.5を使って論文を自動分類するモデルのための教師データを作ってみました。 これから文章分類とかやってみたいな〜って人の参考になれば嬉しいです。 まだまだ勉強中なので、おかしなところとかあるかもしれませんが、もしそういうところあったらぜひ指摘してください! 前段 arXivに投稿されるCS論文は多い月で8000程度あります。これを全部チェックしようとするとものすごく時間がかかってしまいます。そのため、自動的にAbstractを要約して、Discordの各カテゴリ速報チャンネルに投稿しようと思いました。 全体構成としては、以下のような構造になっていると論文読みが捗りそうです(なお、オープンで無償のサービスであっても、論文のライセンスに気をつける必要があります)。 自動要約・自動翻訳の仕

    論文の分類をするモデルを作ろうとしてみる〜教師データ作成編〜
  • 腕に針を刺して体内の血糖値を常時記録する「フリースタイルリブレ」で糖質と血糖値の関係を徹底的に調査した

    腕にセンサー付きの針をぶっさしてスマホで体内の血糖値をモニタリングできるデバイスを使って、事と血糖値の関係を調査してみました。 目的は、ダイエットと健康のために事と血糖値の関係を正しく知り、血糖値をコントロールできるようになること。 特に血糖値が急激に上がる「血糖値スパイク」というのを恐れてます。血糖値スパイクはその名の通り血糖値が急激に上がり血管にダメージを与えるもの(らしい)。血管を大切にしたいのでどうしたら血糖値スパイクを避けられるのか知りたい! フリースタイルリブレとは 極細の針がついたセンサーを腕につけっぱなしにして2週間常時体内の血糖値を計測できるというもの。2週間たったら新しいものに取り換えが必要。(電池交換式等ではなく、2週間の使い捨てです。) 腕に針をさすと言っても、刺す瞬間ちょっと痛いくらいで日常生活は何ら支障ありません。針もめっちゃ細くて下の写真のようにアプリケー

    腕に針を刺して体内の血糖値を常時記録する「フリースタイルリブレ」で糖質と血糖値の関係を徹底的に調査した
  • 「データビジュアライゼーションの基礎」のまとめ グラフ編

    こんにちは、Wantedlyでデータサイエンティストをしている樋口です! 先日会社で買ってもらったデータビジュアライゼーションの基礎を読みました。データ可視化について網羅的にわかりやすく書かれており参考になったため、記事にまとめてみました。書籍の英語版は無料で公開されているため、よければこちらも参考にしてみてください。 データビジュアライゼーションの知識を学ぶことで、科学的に誤った表現をせずに、芸術的に美しい表現ができ、明確で明瞭かつ魅力的にデータから得られる示唆を伝えることができる様になります。📊 記事では、特定のライブラリや描画手段によらないデータ可視化の基礎について紹介します。 分量が多くなってしまったので、記事ではデータビジュアライゼーションの”グラフ"にのみ着目しています。グラフ以外の構成要素(色、タイトル、テキスト、etc.)については別途記事にしたいと思います。 記事

    「データビジュアライゼーションの基礎」のまとめ グラフ編
  • 再エネやEVの批判者が使う“古いデータ”が日本をおかしくする

    再生可能エネルギーや電気自動車(EV)についての批判が最近増えているように感じる。正当な批判も確かにある。例えば、太陽光発電であれば、自然林を周辺住民の同意なしに伐採、造成したり、固定価格買い取り制度(FIT)の穴をついて権利だけ取得し、システムの価格低下をぎりぎりまで待つケース、あるいはその権利の転売でもうけるケース、20~30年後の発電終了後の撤去計画や予算を明らかにしていないようなケースについての批判だ。筆者としてはそうした事業者の責任もさることながら、そうした業者のふるまいを許した制度設計に問題があったと考えている。 EVであれば、充電インフラの不備不足の指摘や、もっと根的な、長距離を移動するモビリティーとして重い電池を載せて走るEV(BEV)は最適解か、といった問いも建設的な正しい批判だと思っている。そこに別の解がなければ単なる“ないものねだり”だが、例えば、燃料電池車(FCV

    再エネやEVの批判者が使う“古いデータ”が日本をおかしくする
  • にじさんじの配信者の類似性をチャットデータからネットワークグラフにして分析する - Qiita

    にじさんじの配信者間で"似ている"配信者はどういう人たちか 唐突ですが、一週間前は文化の日でしたね。せっかくだったので、文化らしいことをしたいなと思い、youtube data apiを使って遊んでみることにしました。 youtube のデータを使ってなにかしよう、となったとき、他の人はどういう分析をするんでしょうか。最近よくみるデータとしてはスパチャランキング・登録者数推移の予測などが思い当たります。 そしてまた唐突に語り始めるのですが、僕はvtuberの配信をラジオ代わりに流していることが多く、いわゆるvtuberオタクです。オタクのあり方には諸説ありますが、僕はラジオ代わりということもあり雑談配信やマイクラ配信を流していることが多いです。「にじさんじ」の配信を見ることが多い気がします。 さて、「にじさんじ」は言わずとしれた大所帯グループです。約100人の配信者が一つの箱に所属してい

    にじさんじの配信者の類似性をチャットデータからネットワークグラフにして分析する - Qiita
  • Tableauによる最新版『可視化ベストプラクティス』〜Tableau Blueprint〜 #tableau | DevelopersIO

    先日のブログでも紹介しましたTableau社によるベスト・プラクティス集『Tableau Blueprint』。 当エントリでは、その中から『可視化』の部分にフォーカスを当てたトピック『Visual Best Practices』に関してその内容をまとめて見たいと思います。 Visual Best Practices - Tableau 目次 はじめに ユーザー視点に立って考える コンテキスト 適切なチャートの選択 レイアウト 配色 タイトルと字幕 ツールチップ フォント ダッシュボードのサイズ ダッシュボードに対話性を持たせる パフォーマンス設計 まとめ はじめに ダッシュボードの究極的なゴールは『ユーザーが答えを簡単に導き出すことが出来る』ことと言えるでしょう。如何に見栄えの良い、美しいダッシュボードが出来たとしてもユーザーがそれを使って洞察を得て答えを見つける事が出来なければ何の役に

    Tableauによる最新版『可視化ベストプラクティス』〜Tableau Blueprint〜 #tableau | DevelopersIO
  • Googleが科学者やジャーナリストを助ける「データセット検索」の提供を開始

    by Samuel Zeller 世界各地からウェブ上にアップされている何千ものデータレポジトリや何万ものデータセット、政府や自治体が公開している情報などに簡単にアクセスすることができる「データセット検索(Dataset Search)」を、Googleが公開しました。 Dataset Search https://toolbox.google.com/datasetsearch Making it easier to discover datasets https://www.blog.google/products/search/making-it-easier-discover-datasets/ Dataset Search: Google launches new search engine to help scientists find datasets - The Verge

    Googleが科学者やジャーナリストを助ける「データセット検索」の提供を開始
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • 機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

    サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。 前提 考慮に入る採用基準 予測精度 (コードの)メンテナンスの容易性 計算オーダー 学習時 予測時 挙動のコントロールのしやすさ/予測説明性の容易さ チューニングの必要性 その他 まとめ 前提 機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

    機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog
  • Engadget | Technology News & Reviews

    Pick up the 9th-gen iPad with two years of AppleCare+ for only $298

    Engadget | Technology News & Reviews
  • シドニア堂

    サイトの商品について サイトのすべての販売商品について、個人として利用する目的以外に複製、改変、変形することを禁じます。また、個人としてのご利用であってもそのデータを譲渡、販売、公衆送信、通信、貸与その他の方法により、第三者に提供すること、データに付されている著作権等に関する表示を取り除くことは認められません。詳細は各商品詳細ページ及び利用規約をご確認ください。

  • 500万冊のGoogleデータで「文化の進化」を分析 | WIRED VISION

    前の記事 「ブログの時代は終わった」か:米調査 500万冊のGoogleデータで「文化の進化」を分析 2010年12月21日 社会メディア コメント: トラックバック (0) フィード社会メディア Brandon Keim 19〜20世紀の書籍における、西洋の著名思想家(ガリレオ、ダーウィン、フロイト、アインシュタイン)の言及頻度 Image: Science(以下すべて) 米Google社は、[図書館等に所蔵された書籍をスキャンすることによって]膨大な文書データを蓄積してきている(日語版記事)が、このデータは「文化の進化」を研究する研究者にとって便利なものになる可能性がある。 ハーバード大学等の研究者たちはこのほど、Google社の書籍データの一部を5000億語からなるデータベースに変え、さまざまな言葉の使用頻度を、時間空間的に計測できるようにした。この研究成果は、『Science』誌