言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています
データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行本この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 本当は赤
Up 共分散と相関係数 本ページの改訂版を 岡本安晴「データ分析のための統計学入門」、おうふう、2009 に用意した。 統計学入門レベルの学習に必要な数学の解説書として 岡本安晴「統計学を学ぶための数学入門[上]」2008、培風館 を上梓した。 子供の年齢とともに体重は増え、50mを走るのに要する時間は短くなる。このような2つの変数(変量ともいう)の関係、年齢と体重、あるいは年齢と50m走の時間、を表す指標として共分散とか相関係数がある。まず、共分散について説明する。 いま、2つの変数との組のデータとして、(,1, 3)、(2, 4)、(3, 5)、(4, 6)、(5, 7)の5組があるとする。これらのデータを変数を横軸、変数を縦軸にとって点として表すと図1のようになる。 図1 散布図の例-その1 図1のような図は散布図という。この散布図に表されているように、ととの間には一方が増加すると他
2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0 ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x
2010年03月13日 22:01 カテゴリ事業家養成講座 素人の僕が、データ分析に自信を持つようになったある発見 Posted by fukuidayo Tweet 僕は1999年に就職活動をしました。会社は全部で8社ぐらい?受けたのかな。 受かった会社の選考よりも、落ちた会社の選考のほうが覚えているもので、あるシンクタンクを受けたときに提出したレポートの出来の悪さと、あるコンサルティング会社を受けたときに出たケーススタディーの答案を前に、頭が真っ白になったときのことは、今でもたまに思い出します。 どうやって分析し、自分の見解を示せば良いのか、まるでわからなかったのです。 それから数年がたち、僕はケーススタディーを受ける側ではなく、つくる側になりました。 データの見方を教え、伝える側になったのです。 そうなれたのは、データを分析する。ということに関して、助言を与え続けてくれた先輩・上司が
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く