yuisekiのブックマーク - はてなブックマーク

BigQueryでクエリを書いたときにハマった罠集 - 唯物是真 @Scaled_Wurm

自分がなんとなくBigQueryのクエリを書いていてハマった罠について列挙しておきます。ドキュメントをちゃんと読めば書いてあったりするのですが、普段はそこまで細かく見てなかったりするんですよね……。 BigQueryのカレンダー | Advent Calendar 2023 - Qiita の16日目の記事です。 CAST(value AS INT64) は切り捨てではない他のプログラミング言語などをやっているとなんとなく整数型にキャストすると切り捨てのような気がしてしまいますがBigQueryは違います。四捨五入的な挙動になります。 SELECT CAST(1.5 AS INT64) -- => 2 Returns the closest integer value. Halfway cases such as 1.5 or -0.5 round away from zero. h

yuiseki 2023/12/31

あとで読む

リンク

Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm

Google Data Studio (データスタジオ) という可視化サービスがベータ版で使えるようになっていたので試してみた見たい数値を一覧するためのダッシュボード的なものを作るためのサービスなので、いろんな場所からデータを取ってきて一箇所でまとめて確認するのが用途っぽい(今のところ似たようなサービス・ツールの方が機能が多そうデータソースデータソースとしてGoogle AnalyticsやBigQuery、Google Spreadsheet、MySQLなどを選んでデータを取ってこれるデータソースを選んでGUIでグラフやテキストを配置していくデータの既存のフィールドに関数を適用した結果の値を使うこともできる使える関数のリスト下の画像ではGoogle Analyticsの「ブラウザ」(Chrome, Firefoxなど)と「ブラウザのバージョン」(バージョンの番号)をCONC

yuiseki 2016/10/17

リンク

Project Eulerのバイオインフォマティクス版のROSALINDを始めました - 唯物是真 @Scaled_Wurm

最近時間がなくてProject Eulerを全然やっていませんでした。というか数論の知識がなくて全然解けないのでやる気が出ません。そんな時にTwitterでProject Eulerのバイオインフォマティクス版のRosalindというのがあるらしいという話を聞いたのでこの土日でやってみました。問題問題一覧を見るとわかりますが、形式はかなりProject Eulerに似ています。内容は、DNAとかRNAとかコドンとか記憶の片隅に埋もれた生物系の単語がたくさん出てきますが、基本的にはアルゴリズム、特に文字列操作などです。生物系の知識が多少必要な場合もありますが、だいたいは問題のページに書いてあります。提出方法大きな違いはGoogle Code Jamのように解答を提出するときは入力をダウンロードして時間内(5分以内)に解答、という形式になっていることです。問題の順序また前提

yuiseki 2014/11/24

リンク

サザエさんのジャンケンの次の手を決定木で予測+可視化してみた - 唯物是真 @Scaled_Wurm

前に決定木の可視化をしようと思ってやってなかったのでやっておきます決定木のライブラリは例のごとくscikit-learnを使う pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm 決定木とは決定木は教師あり学習で使われるモデルで、ルールを木として学習します例えば身長、体重から性別を予測したい場合、身長が170cm以上で体重60kg以上なら男、みたいなルールを学習します性能はあまりよくないモデルですが、人間にもわかりやすいルールを出力する(他のモデルと比べれば)という特徴があります簡単に説明すると、ある変数が一定値以上であるかという条件で分けた時に、データのラベル(性別なら男女)ごとの分布がどちらかに偏るような条件で木を作っていきます予測するときには、データが条件を満たしているノードをたどって木の一番下の葉ノードまでいって、葉ノ

yuiseki 2014/11/24

リンク

進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm

そういえば修士論文や発表が終わっていたので報告代わりに書いておきます役に立つ内容だったりポジティブな内容だったりはしないただの記録なので注意できるだけマイルドな内容にしたつもりです一応書いておくと2010年に大学院に修士として入って、2回修士論文を出せずに留年して、今回に至ります。私がいた研究室はポジティブな結果が出ないとダメ的な雰囲気が強いのですが、結局研究はダメで修士4年目なのでお情けで出させてもらった感じが強いです…… 修士論文以外に論文も書いていないので、研究的にはほとんどアウトプットが出せなかった4年間でした。精神的につらい感じの研究室生活で何度もやめようかと思いましたが、いろんな人に励ましていただいたり手伝ったりしていただきました感謝しています、ありがとうございました先生方とも全然会話できない感じになっていました。ほとんど何も進んでいない→進んでないから話すこと

yuiseki 2014/02/26

news

リンク

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。コーパスの作り方以下の公式の例で説明しますこの例ではリスト内のそれぞれの要素が1つの文書となります

yuiseki 2013/10/29

リンク

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

yuiseki 2013/06/17

リンク

pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。どちらかっていうとよく使う機能の紹介的な感じです。英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは？ scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

yuiseki 2013/05/25

リンク

集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm

Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしようかと思ったのですが、知っている人にしか伝わりそうにないので自然言語処理でよく使う話の概要だけでも書いときます。導入自然言語処理の分野では単語の意味を比較するときに、ある単語の周り(文脈)に出てきた単語のベクトル(文脈ベクトル)の類似度を計算することがある。これは「ある単語の意味はその周囲に出現する単語によって特徴づけられている」という仮説に基づいていて、文脈ベクトルが似ていれば似たような意味、似たような状況で使われる単語が多いということが言えるからである。 Distributional semantics - Wi

yuiseki 2012/12/30

リンク

はてなブックマーク

タグ

ブックマーク / sucrose.hatenablog.com (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス