タグ

tipsに関するhorihorioのブックマーク (130)

  • 【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常

    これはなに? Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです 自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。 この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。 参考文献 主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F

    【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常
  • あなたの生産性を向上させるJupyter notebook Tips | リクルートテクノロジーズ メンバーズブログ

    このエントリは全9回を予定する18卒新人ブログリレーの第3回です. はじめまして.今年度よりリクルートテクノロジーズに入社した河野 晋策です. 7月からQassチームにて検索ロジックの改善を行っています. Qassチームは,検索基盤の運用や検索ロジックの改善を行っているチームです. 詳しくは以下の記事をご覧ください. 検索組織の機械学習実行基盤 リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch+Hadoopベースの大規模検索基盤大解剖 記事の想定読者:普段Jupyter notebook・Jupyter Lab,Google Colaboratoryを使っている方,またこれから使おうと考えている方 記事の概要:jupyter notebookの知見共有 はじめに Jupyter notebookとは 近年,データの重要性が様々な

    あなたの生産性を向上させるJupyter notebook Tips | リクルートテクノロジーズ メンバーズブログ
  • The Small Files Problem - Cloudera Blog

    Small files are a big problem in Hadoop — or, at least, they are if the number of questions on the user list on this topic is anything to go by. In this post I’ll look at the problem, and examine some common solutions. Problems with small files and HDFS A small file is one which is significantly smaller than the HDFS block size (default 64MB). If you’re storing small files, then you probably have

  • ExcelデータをTableauで分析し易くする為に整形・編集する | DevelopersIO

    Tableau DesktopではExcelをデータソースとして扱う事が出来るのでTableau自体のデモや簡単なデータ検証・分析を(データベース等に環境を容易せずに)行う事が可能ですが、分析の際に利用するデータは必ずしも分析に適したフォーマットになっていない可能性があります。そこで当エントリではTableauによる分析の初歩段階、Excelで作られたデータに対して接続を行う際に、そのExcelを『より分析に適した』形に成形・編集するポイントについて見て行きたいと思います。(※内容的にはExcelをベースにした形となりますが、一部内容はDBやDWHにデータを格納する際の参考にもなると思います) 目次 Tips 1).1行目はヘッダーとする事 2).同じ種別のデータは行内で並べず、別のデータ行として切り出す 3).ヘッダは単一行に留める(複数見出し行、中見出しのような形でヘッダ項目1つだけ、

    ExcelデータをTableauで分析し易くする為に整形・編集する | DevelopersIO
  • 英語の文法チェックに!秀逸な英文校正ツール「Grammarly(グラマリー)」の使い方 - Life is colourful.

    「自分の書いている英文が正しいかどうかわからない。」 英文メールやエッセイ(論文)を書いていると、よくぶつかる悩みである。 プライベートのSNS/メール上の英文ならまだしも、仕事や試験、または一般に公開される英文となると、文法的に正しい英語でないとまずい。 ネイティブに添削してもらうのが最良の方法だが、現実的に難しい。しかし、自分の書いた英文を疑い始めるとキリがなく、無駄に時間を浪費してしまがちである。その結果、結局あいまいなままで仕上げてしまう。 僕自身もこういうことを何度も経験してきているという背景もあるので、今回は、英語のライティングについて書いてみたい。前半では英文校正ツール「Grammarly(グラマリー)」の紹介・使い方、後半では効率的な英文メールのライティングのTIPS&勉強法について書いてみる。 ビジネス英語のライティングだけでなく、スピーキング&リスニング力UPに興味があ

    英語の文法チェックに!秀逸な英文校正ツール「Grammarly(グラマリー)」の使い方 - Life is colourful.
  • マネジメントの秘伝のタレ - Flicker's Style++

    今回は私が今までチームマネジメントやヒューマンマネジメントを通して学んだTIPSを整理してみたいと思います。 マネジメント(≒コミュニケーション)を支える技術について都度メモして、自分への戒めとして利用していたものを箇条書きにまとめました。 ある特定の状況だけでしか適用できないものが多いですが、応用はいろいろ効くと思っています。 マネジメントの立場にこれからチャレンジしていきたい人の一助になればと思ってます。 ※自分向けのメモを整理しただけなので、一般的にこうあるべきという内容ではありません。 会議編 -全員の参加を促そう 全員の発言機会が均等になっているか常に意識しよう 一言でも意見を言うことによって、その議題を決めたという意識を持てる - 自分自身(チーム自身)で決めたという感覚に落としもう 「決められたこと」ではなく、「自分たちで決めたこと」という意識を促そう その決定が実行されなか

    マネジメントの秘伝のタレ - Flicker's Style++
  • Alteryxで何が出来るのか – 実行可能タスク全197種 概要紹介&リファレンスまとめ #alteryx | DevelopersIO

    データブレンディング及び分析機能を有する『Alteryx』は昨年末から弊社でもパートナーシップ締結を行い、諸案件でも積極的に活用を推し進めているプロダクトですが、こちらのツールでは実に様々な処理を行う事が出来ます。 データブレンディング&予測分析ツール『Alteryx』の米国:Alteryx社とのパートナーシップ締結に関するお知らせ | Developers.IO Alteryx Designer14日トライアル版の入手とインストール、サンプル実行まで | Developers.IO Alteryx Visual Analytics Kit for TableauTableau&Alteryx連携を実現|Tableau Software Tips&Viz Advent Calendar 2014 #19 #tableau | Developers.IO Alteryxを使ってShapef

    Alteryxで何が出来るのか – 実行可能タスク全197種 概要紹介&リファレンスまとめ #alteryx | DevelopersIO
  • これ知ってる?WEBの人なら押さえておきたいツール&サービス50選 - 死ぬまでWEB屋

    公開前に知人に見せたら、読むのに20分もかかったわ!! と、お叱りを受けましたw オススメのツールやWEBサービスということで50ほど紹介していますが、僕の使用感のほかに、ところどころ経験談的なものが入っています。そのあたり、読むのがめんどうな方は読み飛ばしていただければ幸いです。 2万文字近くあるので、お時間ある際にゆるりと読んでいただければと思います。 それではお楽しみ下さい! サイト解析に使えるツール・サービス import.io Juicer Ptengine GTmetrix CLOUD FLARE wayback timemachine シミラーウェブ Open Site Explorer サクラサクLABO aguse Built with ディレクションに使えるツール・サービス ウェブチェッカー Cat Mdes maindmaister ひとりブレスト 関連キーワード取得

    これ知ってる?WEBの人なら押さえておきたいツール&サービス50選 - 死ぬまでWEB屋
  • 誰も興味が無いnanoの基礎の基礎 - nanoはpicoの千倍なの! - - KAYAC engineers' blog

    タイトルを見てドン引きした人とはむしろお友達になれそうな気がします。 初めまして、新人の瀬戸と言います。 ネタが無いうえに先輩社員からの前振りがあったので、自分が使用しているエディタについて語りたいと思います。 この記事を見ている人は「エディタ」と聞いて何を思い浮かべるでしょうか。 vimemacs、サクラエディタ、TeraPad、EmEditorなどを思い浮かべるのでしょうか。 「メモ帳で十分だろ常識的に考えて…」 と言う人や、 「純正viしか認めない!」 と言う人や、 「Eclipse使ってないの?プークスクス(笑) …え? IDEの話はしていない?」 と言う人や、 「漢なら黙ってcatとパイプ」 と言う人も居るのかもしれませんね まあ、何にしても人それぞれ好みのエディタがあって、それを使用している事でしょう。 (環境や言語などによって使い分けるということは往々にしてあると思います

    誰も興味が無いnanoの基礎の基礎 - nanoはpicoの千倍なの! - - KAYAC engineers' blog
  • シェルスクリプトの処理境界が鮮明になる「名前付きブロック記法」なるものを考えてみた

    シェルスクリプトは長くなると処理の境界が不鮮明になりがち。 コメントで処理の境界を表現する工夫はよく見かけるが、もっと良い方法はないか考えてみた。 :コマンド、&&演算子、複合コマンド()や{}を組み合わせて書くと、処理の境界線がはっきりする。

    シェルスクリプトの処理境界が鮮明になる「名前付きブロック記法」なるものを考えてみた
  • C言語 Super Technique 講座

    このページは、C言語の中級テクニックを中心に解説する。長らくプログラマをしていると、C言語の面白い使い方例が蓄積している。これらを一挙公開するために、このページを作ったのである。しかし、単にCに留まらず、他の言語の面白い特徴なども紹介していく。 内容的にはかなりヘヴィである。当然のことながら、「ポインタ虎の巻」程度の内容はちゃんと使いこなせることを前提とする。意外な技、落し穴、派手なテクニックなど、内容満載だが、ちゃんとデータ構造とアルゴリズムなども説明できれば良いと思う。(まあ、ぼちぼちやってきいます...) 以下の目次には手引きのために、評価がつけてある。凡例として示す。 レベル その解説で記載されている内容のレベル 有用度 その内容が実際に役に立つものかどうか 邪悪度 その内容が薦める方法が、一般的なコーディング規約の中で「邪悪」とされがちなものであるか否か。関数ポインタの活用(濫用

  • LinuxでCPU使用率を上げるコマンド - ablog

    いいものを見つけたのでコピペ。 yes >> /dev/null & 最後に & お勧め w(二つターミナルが必要でなくなる。) ちなみに メモリ負荷をあげる魔法のコマンド /dev/null < $(yes) & LinuxCPU負荷を上げる魔法のコマンド - Qiita ">>" は ">" でも良いと思うが、何か特別な理由があって">>"にしているのだろうか。 追記(2014/10/08): ただのメモにはてブがたくさん(当社比)ついてビックリ(^-^; コア数に対する考慮が足りない。 コア数に対する考慮が足りない。 - gomakyuのコメント / はてなブックマーク とコメントを頂いた通り、上記のコマンドを実行しても1つの論理CPUを使い切るだけです。 例えば上の図の通り、1ソケット * 4コア * 2スレッド で論理CPU数が8の場合は、ざっくり、1多重で実行すると12.5%

    LinuxでCPU使用率を上げるコマンド - ablog
  • 【Willyメソッド】10桁×10桁を暗算する方法 - Willyの脳内日記

    最近知ったが、1年半前くらいから2桁かける2桁の暗算が流行ってるらしい。 「岩波メソッド」などという仰々しい名前がついているから、 「ふーん、どうやるの?」と思って方法をググってみたら、なんてことはない、 魚を書きながら(笑)ちょっと違う順序で計算するだけのことらしい。 まあ、普通に筆算するよりは若干暗算しやすいかも知れない。 (計算方法を紹介したページのリンク) この方法、東京大学医学部在学中の岩波邦明さんが考えたとのこと。 岩波さんっていうから、 「あぁ、岩波書店の創業者にコネがある人か。」 と思ったら出版社は小学館。 「おまえw 東大理Ⅲとか受かったうえに、 たかが2桁のかけ算で売っちゃうとかどんだけ天才なんだよw」 というのが取りあえずの感想だが、 ちょっと悔しいので、ネタにマジレスと思いつつも、 対抗して新しい「Willyメソッド」でも考えてみよう。 取りあえずセールスポイント

  • Python pandas 関連エントリの目次 - StatsFragments

    このブログ中の pandas 関連のエントリをまとめた目次です。 最近 pandas 開発チーム と PyData グループ の末席に加えていただき、パッケージ自体の改善にもより力を入れたいと思います。使い方についてご質問などありましたら Twitter で @ ください。 目次につけた絵文字は以下のような意味です。 🔰: 最初に知っておけば一通りの操作ができそうな感じのもの。 🚧: v0.16.0 時点で少し情報が古く、機能の改善を反映する必要があるもの。 🚫: 当該の機能が deprecate 扱いとなり、将来的に 代替の方法が必要になるもの。 基 簡単なデータ操作を Python pandas で行う 🔰 Python pandas でのグルーピング/集約/変換処理まとめ 🔰 また、上記に対応した比較エントリ: R {dplyr}, {tidyr} Rの data.tab

    Python pandas 関連エントリの目次 - StatsFragments
  • Pythonらしいコードの書き方 - Kesinの知見置き場

    はてなブログに移行して最初の記事はやはりPythonネタにしました。 はてなブログいいですね。デザインの編集がやりやすくなったのと、Markdownで書けるのが素晴らしいです。 PyCon 2013の動画を見ていたら、素晴らしい"Transforming Code into Beautiful, Idiomatic Python"という発表を見つけたのでそのまとめです。 今どきのPythonコードのベターな書き方を紹介しています。 Transforming Code into Beautiful, Idiomatic Python ... スライドはこちらにありました 結構長くなってしまったので、知ってる項目は読み飛ばしてもらえばと思います。 ループの基 整数のループ まずは基のループ。 Cのfor int i=0; i<6; i++をPythonで単純に書くとこうなります。 for

    Pythonらしいコードの書き方 - Kesinの知見置き場
  • 文章を書く心がけ

    目次 はじめに 読者に対する心がけ 誰がその文章を読むのかを考えよう 読者は何を知っているかを考えよう 読者がどんな感じを受けるかを考えよう 読者と対話する気持ちになろう 自分に対する心がけ 書こうとせず、読もうとしよう 読もうとせず、読みはじめようとしよう 何でも書いていいんだよ 惜しげなく人に与えよう 人からのものには敬意を払おう 魔法の呪文は毎回発見しよう まず自分がよく理解しよう 知識を誇るために書くのをやめよう その他の心がけ 言葉についての心がけ 長い文は注意して使おう 書いたものは必ず読み直そう 適切な例を示そう 言い換えの練習をしよう 8割でよしとしよう すべてを動員しよう その他の心がけ 環境についての心がけ 人の「気」を意識しよう 頑丈で軽い文章作成のツールを使おう その他の心がけ 編集者に対する心がけ 助言はよく聞こう 自分の状況を正しく伝えよう 感謝の気持ちを忘れな

  • 「diskpart」コマンドでディスクのパーティションを操作する【Windows OS】

    ディスクやパーティションをコマンドラインツールで操作したい! Windows OSでディスクのパーティションを操作する場合、[コンピューターの管理]ツールにある[記憶域]-[ディスクの管理]か、[スタート]ボタンを右クリックして表示されるクイックアクセスメニューから起動できる「ディスクの管理」ツール(diskmgmt.msc)を使うのが一般的だろう。 しかし、こうしたGUIのツールが使えないこともある。Windows OSを正常に起動できない場合などに利用する「回復環境」やWindows PE、Windows ServerのServer Coreインストールはその代表例だ(リモートからdiskmgmt.mscで接続できなくはないが、事前にリモート管理を許可するなどの準備が必要である)。 またGUIだと、パーティション作成とフォーマットといった一連の処理を自動化しにくいという難点もある。 こ

    「diskpart」コマンドでディスクのパーティションを操作する【Windows OS】
  • WindowsにおけるGit利用環境は整った: Git for Windows と SourceTree for Windows - 檜山正幸のキマイラ飼育記 (はてなBlog)

    分散バージョン管理システムの利用は拡大しています。そのなかでも最も人気のあるツールはGitでしょう。しかし、GitWindowsで使うのはなかなか困難でした。 Windows向けのGitであるmsysGitは、bashのコンソールを出して、最小限のUnix風コマンドライン環境を提供するものです。これは使いやすくありません。もう一つの選択肢であるTortoise Gitは、Windowsのエクスプローラー(ファイルマネージャ)に統合されたGUIツールですが、僕は「なんか違うな」と感じてました -- これは個人の感性の問題ですが、ファイルマネージャに横付けすることが、分散バージョン管理システムへの良いUIを提供するようには思えないのです。 ところが、最近は事情が大きく変わっています。使いやすいGUIツールとして、2013年6月に正式公開されたSourceTree for Windowsが存在

    WindowsにおけるGit利用環境は整った: Git for Windows と SourceTree for Windows - 檜山正幸のキマイラ飼育記 (はてなBlog)
  • データの前処理や加工に使えるPython csvkit - Librabuch

    みなさまこんばんは。Python Advent Calendar 2014 24日目の記事です。 先日のpyhackで@atelierhideに教えてもらった、データ前処理スト垂涎のライブラリの紹介をすることにしました。 csvkit とは csvkitは、コマンドラインでCSVやTSVファイルを取り扱うのに便利なライブラリです。データの前処理や加工をLinux/UNIXのコマンドラインで行っている環境もあると思いますが、それを代替する、あるいは組み合わせて使うとよいのがcsvkitです。 csvkit pipでインストール出来ます。Python3.4にもインストールは可能ですが、一部の機能が動作しないことを確認しています。今回は2.7にインストールしました。 pip install csvkit 具体的な使い方を見ていきます。 基的な使い方 ここからはiris.csvのデータをcsvk

    データの前処理や加工に使えるPython csvkit - Librabuch
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!