samurairodeoのブックマーク - はてなブックマーク

「Pythonによるアクセスログ解析入門」の題目で「PyCon JP 2021」で発表しました - u++の備忘録

10月16日に「PyCon JP 2021」で発表しました。PyCon JP は日本最大級のPythonユーザが集まるイベントです。私はイベント自体が初参加で「Pythonによるアクセスログ解析入門」の題目で提出したプロポーザルが採択されました。発表では、普段業務で扱っているWebサービスのアクセスログを題材に、PythonのPandasを用いたデータ解析の技法や数々の応用事例を紹介しました。Zoomでの発表時間30分も盛況で、Discordでの質問時間30分にも20名近くの方に残っていただき、さまざまな観点で質疑応答や議論をすることができました。オンライン発表ながら、多くの方々の反響を頂き、私自身もよい学びの機会となりました。他の方の発表では、将棋棋士の谷合廣紀さんとPythonのコア開発者のブラントブーカーさんによるキーノートが共に大変面白く、これだけでも参加した価値があったと感じ

samurairodeo 2021/10/17

あとで読む

リンク

Google Colab Pro+ 契約してみた - u++の備忘録

Google Colab の最上位プランとして「Pro+」が登場しました。Twitterの検索結果を見ると、日本時間の2021年8月12日午後辺りが初出のようです。 t.co 上記サイトの説明によると、既存の「Pro」プランに比べて、以下の利点があるそうです。 Background execution ブラウザを閉じても実行を継続 Faster GPUs より高速なGPUやTPUへの優先アクセス権 Even more memory より大きなRAM Even longer runtimes より長い実行時間 FAQを見ると、既に日本でも利用可能とのことでした。 Where are Colab Pro and Pro+ available? For now, both Colab Pro and Pro+ are only available in the following countri

samurairodeo 2021/08/18

あとで読む

リンク

日本語BERTを用いた会社名の埋め込み - u++の備忘録

以前に参加したNishika「財務・非財務情報を活用した株主価値予測」コンペ*1で検討していたタイトルの技術について、別コンペで使う可能性があったので改めてコードを整理していました。結局使わなかったですが、せっかくまとめたのでブログ記事として供養しておきます。 www.kaggle.com 手法会社名などラベル名に意味がある場合、何らかの形でそのラベル名のベクトル表現を獲得し特徴量として追加することは性能向上に繋がる可能性があります。今回はラベル名が日本語の会社名なので、日本語で事前学習されたBERTを用いて埋め込み表現を獲得しました。結果処理の詳細はソースコードをご確認ください。結果として、例えば「三井住友建設株式会社」のベクトル表現に類似している企業名として「住友不動産株式会社」「住友商事株式会社」「第一建設工業株式会社」などの文字列が似ているラベル名が挙がっています。なお実験の

samurairodeo 2020/11/01

リンク

「言語処理100本ノック 2020」をPythonで解く - u++の備忘録

「言語処理100本ノック 2020」が4月6日に公開されました。2015年以来、5年ぶりの改訂です。昨今の自然言語処理の研究動向を鑑み、深層ニューラルネットワークに関する問題追加などの変更があります。 nlp100.github.io 実装のためのプログラミング言語としては、Python3系を利用します。バージョンは初公開時は3.6.8で、2023年11月に3.11.3に更新しました。ソースコードは、GitHubで公開しています。 github.com 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02. 「パトカー」＋「タクシー」＝「パタトクカシーー」 03. 円周率 04. 元素記号 05. n-gram 06. 集合 07. テンプレートによる文生成 08. 暗号文 09. Typoglycemia 第2章: UNIXコマンド 10. 行数のカウント 11.

samurairodeo 2020/07/26

リンク

「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp - u++の備忘録

「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました。発表終了時に、拍手の意で「8888888」のコメントが流れるのは往年のニコニコ動画を思い出しました。以下、発表メモを共有します。発表1: 「財務・非財務一体型の企業分析に向けて」by @icoxfog417 財務・非財務一体型の企業分析に向けて from Takahiro Kubo TISで企業分析に取り組む@icoxfog417さんの発表 TISが公開したデータセットを用いた、Nishikaというプラットフォームで「財務・非財務情報を活用した株主価値予測」コンペ*2も開催中企業分析の中で、非財務情報の活用は進んでいるとは言いづらい

samurairodeo 2020/03/24

“発表3: 「私と金融テキストマイニング」 by @Hiroki Sakaji ”

リンク

【書評】『Kaggleで勝つデータ分析の技術』（技術評論社） - u++の備忘録

限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析の技術』（技術評論社）を読みました。なお電子版をご恵贈いただく予定です。 gihyo.jp 10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。既に著者の一人である threecourse さんは、執筆者視点で見どころを紹介しています*3。本記事では一人の読者、そして Kaggler の視点で書評を記します。なお私は既に1年以上 Kaggle に取り組んでおり、一定程度の知識を有している視点からの書評になります*4。本書の魅力 1. データ分析コンペのテーブルデータコンペに注力して書かれた「教科書」である 2. 技法のみならず筆者および関係者の実体験に基づいた集合知も言語化されている 3. コードが公開されているどんな人に本書はお勧めか Kaggleに取り組んだ経験があり、更

samurairodeo 2019/10/02

あとで読む

リンク

scikit-learn-contrib の Metric Learning を試す - u++の備忘録

Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。このたび、phalanx さんの tweet *3で、 Metric Learning の基礎的なアルゴリズムのいくつかが scikit-learn-contrib *4に搭載されていると知りました。本記事では、scikit-learn-contrib の metric-learn パッケージを用いて、簡単にMetric Learning を試します。インストール README や PyPI *5 に記載のある通り、次の通りにインストールします。 pip install metric-learn 利用するデータセット今回は、sklearn に含まれている lo

samurairodeo 2019/08/19

あとで読む

リンク

「Machine learning graph pitch #1」に参加しました（全発表まとめ） - u++の備忘録

本日開催された「Machine learning graph pitch #1」に参加しました。機械学習の中でも、特にグラフ関連の技術を実務で使っている5人の方々のLTをお聞きできました。 machine-learning-pitch.connpass.com Improving "People You May Know" on Directed Social Graph（Graph Embedding を用いた双方向つながり予測）やりたいこと Graph Embeddingを用いる利点技術結果 GANを用いたリンク予測におけるネガティブサンプルの生成技術やりたいこと技術的難しさ提案手法の課題 DAGの埋め込み手法とdisk embedding 技術提案手法のContribution 応用範囲論文レコメンドにおける Graph Convolutional Network

samurairodeo 2019/05/15

あとで読む

リンク

LightGBMでdownsampling+bagging - u++の備忘録

はじめにデータセットの作成 LightGBM downsampling downsampling+bagging おわりにはじめに新年初の技術系の記事です。年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。クラス比1:99の人工的な不均衡データ使ってダウンサンプリングを試してるけど、バカみたいに負例を捨てちゃっても意外と大丈夫なんだな。計算時間が圧倒的に減るので、その時間でアンサンブル的なことすれば精度も確保できそう。— u++ (@upura0) January 8, 2019 上記のツイートを契機に多くのリプライなどで情報を頂戴しましたが、以前に話題になった「downsampling+bagging」の手法が良さそうでした。本記事では、模擬的に作成したデータセットにLightGBMを使い、「down

samurairodeo 2019/01/16

あとで読む

リンク

【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録

はじめに Kaggleのタイタニック GitHubリポジトリ執筆の経緯大まかな方針参考にした情報フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理おわりにはじめに本記事では、Kaggle用フォルダ構成や管理方法について、現時点での自己流の方法をまとめます。「現状自分はこういうやり方を試している」という話なので、よりよい方法などあれば、ぜひTwitterなどで教えてください。具体例がないと抽象的で分かりづらいと思ったので、Kaggleのタイタニックを題材にしました。GitHubのリポジトリも公開しています。 Kaggleのタイタニック Kaggleのタイタニックとは、Kaggleのチュートリアル的な問題として認知度の高いコンペティションです。タイタニッ

samurairodeo 2018/12/29

あとで読む

リンク

【kaggle Advent Calendar 2018：3日目】Cross Validationはなぜ重要なのか - u++の備忘録

本記事は、kaggle Advent Calendar 2018の3日目の記事ということにします。本日、このAdvent Calendarに空きがあると気付いたので、穴埋めの形で急遽記事を執筆しました。僕が遅刻したわけではありません。 qiita.com TwitterでこのAdvent Calendarに書く話題を募集したところ、次のようなリプを頂きました。めぇっちゃ個人的な戯言なので適当に流して頂いて良いのですがバリデーションの切り方の話とか読みたいなぁと思います。— icebee (@icebee__) December 4, 2018 本記事ではまず、そもそも「Cross Validationはなぜ重要なのか」について言及しようと思います。 Cross Validationの重要性 validationがない場合パッケージやデータの準備訓練と予測精度の検証ホールドアウト検

samurairodeo 2018/12/06

あとで読む

リンク

仮説と可視化から新しい特徴量を作る　Kaggleのタイタニックを例に - u++の備忘録

本記事では、Kaggleのタイタニックを例に、仮説と可視化から新しい特徴量を作る過程についてまとめます。仮説と可視化から新しい特徴量を作る予測精度に寄与する新しい特徴量を作成するに当たっては、仮説と可視化を繰り返す過程が大事です。予測精度に寄与しそうな仮説を立てる可視化を実施する予測精度に寄与する仮説を見つけるため仮説が正しいかを検証するため個々人や問題によって、どちらが起点になるかが変わってきます。ケース1）ドメイン知識がある場合例えば自分が詳しい、つまりドメイン知識を持っている分野の問題に取り組む場合、最初から仮説がいくつかあると思います。その場合は仮説を検証するような可視化を実施し、本当に予測精度に寄与するかを確認します。その可視化の結果によっては、改めて仮説を立てることになるかもしれません。ケース2）ドメイン知識がない場合ドメイン知識がない場合は、まずは仮説を