タグ

2015年12月27日のブックマーク (14件)

  • scikit-learnでtf-idfを計算する - Qiita

    この投稿は現実逃避アドベントカレンダー2013の4日目の記事です。 2日目の記事でBing APIを使ってフェッチしたhtmlを使うので、2日目を先に読んでおくと理解しやすいです。 稿を3行でまとめる scikit-learnというPythonのライブラリを調べた 2日目で保存したhtml内の語のtf-idfを計算した 語とtfidfのマッピングを確認した 参考 scikit-learn公式、テキストの素性抽出ドキュメント scikit-learnを使ってTweet中の単語のtfidf計算 完成品 Fork me! 理論 tfidfの定義 tf-idfは tf * idf の値。あるドキュメント(文書)集合において、あるドキュメントの、ある単語につけられる。tf-idfが高い語は重要と考えることができる。情報検索において、語への重みづけに使える。 tf (Term Frequency)は

    scikit-learnでtf-idfを計算する - Qiita
    chezou
    chezou 2015/12/27
  • https://rentwi.textfile.org/?680278923763040258s

    chezou
    chezou 2015/12/27
    日本の(特に東京圏の)子育てに対する圧力は異常。国外に連れて行った時や外国人旅行客の方が優しく接してもらえる
  • Out-of-core classification of text documents

    chezou
    chezou 2015/12/27
  • 6. Strategies to scale computationally: bigger data — scikit-learn 0.19.2 documentation

    6. Strategies to scale computationally: bigger data¶ For some applications the amount of examples, features (or both) and/or the speed at which they need to be processed are challenging for traditional approaches. In these cases scikit-learn has a number of options you can consider to make your system scale. 6.1. Scaling with instances using out-of-core learning¶ Out-of-core (or “external memory”)

    6. Strategies to scale computationally: bigger data — scikit-learn 0.19.2 documentation
    chezou
    chezou 2015/12/27
  • UCI Machine Learning Repository

    chezou
    chezou 2015/12/27
    動画のtranscodingにかかった時間のデータセット
  • SIGNICO

    画像生成技術は日々進歩しており,生成される画像のクオリティは飛躍的に向上している.稿では高精細な画像生成技術であるPGGANを用いてpix2pixを実装することで高精細な画像変換を目指す.

    SIGNICO
    chezou
    chezou 2015/12/27
    なるほど才能の無駄遣い
  • ロシア語自然言語処理の世界

    このエントリーは、KLab Advent Calendar 2015 の12/24の記事です。 2015年新卒の堂です。 この記事ではロシア語テクストを統計的に分析することについて紹介します。 少しでもコンピュータを使って言語を分析することについて興味をもっていただけたら著者として幸せです。 ロシア語を少しでも勉強したことのある方 ロシア語を数量的に分析することに興味のある方 を読者として想定しています。 はじめに 僕の専門は言語学、特に言語獲得で、さまざまな言語獲得を実験する過程でロシアにも2年ほど住んでいました。 言語獲得というのは、乳幼児の言語習得や外国語習得などです。 乳幼児と大人の言語獲得スピードの差は今だに人類の謎です。 最近はコンピュータを使った数量的な分析を行う計量言語学も(特に英語で)盛んなので、 乳幼児が言語獲得していく過程と、僕が外国語としてロシア語を習得していく過

    ロシア語自然言語処理の世界
    chezou
    chezou 2015/12/27
    言語学の人がNLTKで自然言語処理に取り組んでいる様子が良い
  • Machine Learning with Scikit Learn (Part II) - 人工知能に関する断創録

    Machine Learning with Scikit Learn (Part I)(2015/8/10)のつづき。今回は、後編のPartIIの動画の内容を簡単にまとめたい。 4.1 Cross Validation ラベル付きデータが少ないときに有効な評価法であるK-fold cross-validationについての説明。訓練データをK個のサブセットに分割し、そのうち1つのサブセットをテストデータに残りK-1個のサブセットを訓練データにして評価する。これをテストデータを入れ替えながらK回評価し、その平均を求める。 この手順は下のように書ける。bool型のマスクを使ってテストデータと訓練データをわけている。 k = 5 n_samples = len(X) fold_size = n_samples // k scores = [] masks = [] for fold in ran

    Machine Learning with Scikit Learn (Part II) - 人工知能に関する断創録
    chezou
    chezou 2015/12/27
  • 3DS「モンスターハンタークロス」やってます - 月曜日までに考えておきます

    1ヶ月ほど前に出た「モンスターハンタークロス」、今回は見送ろうかなと思ってたました。 前作の時の感想記事に書いたように、もうかなり飽きてたんですよね。 3DS「モンスターハンター4G」やってます - 月曜日までに考えておきます しかし、11月頭頃にエンジニア仲間の @hamakn に「モンハン初めてやってみるので手伝ってよ」って誘われたのでやることにしました。 と言ってもあまり力を入れずに、初心者のペースに合わせてあまり成長しない感じでまったりやろうかな、と思ってました。 こんな感じで。 意外と面白かった 前作で疲れるな〜って思った要因、 ギルクエ 極限状態 が削除されており、苦行っぽいシステムがなくなっています。人によってはやりごたえなくなっているのかもしれませんが、自分はこの二つの面白さがまったくわからなかったので、無くなって心の底から良かったと思えます。 狂竜症と似たもので獰猛化とい

    3DS「モンスターハンタークロス」やってます - 月曜日までに考えておきます
    chezou
    chezou 2015/12/27
    知見が生かされていた
  • Org levels and why they are useful

    [I half-wrote this post months ago when I was deep in thinking about staffing decisions. Posting it now cause, well, it was half-written] When talking about staffing, the words “senior” and “junior” gets thrown around a lot. By nature, these are subjective and ambiguous terms. They also cause a lot of angst because they imply some sort of classism, usually displayed in the form of “if you’re not s

    chezou
    chezou 2015/12/27
    職位とグレードの話
  • 竹内研究室の日記

    竹内研究室の日記 2019 | 01 |

    竹内研究室の日記
    chezou
    chezou 2015/12/27
    フラッシュメモリすでに傾いてますしね。自分の領域にはバイアスかかるんだな
  • Python pandas + folium で Leaflet をもっと使いたい - StatsFragments

    先日参加させていただいた Japan.R でこんな話を聞いた。 RPubs - leafletではじめるRによる地図プロット Python でも folium というパッケージを使うと JavaScript を書かなくても Leaflet.js の一部機能が使えるのだがあまり情報がない。上の資料に書いてあるようなことが folium でもできるのか調べたい。 folium については前にこんなエントリを書いた。 sinhrks.hatenablog.com データの準備 import numpy as np np.__version__ # '1.10.2' import pandas as pd pd.__version__ # u'0.17.1' サンプルデータとして Wikipedia にある アメリカの国立公園 のデータを使う。まずは pd.read_html でデータを読みこむ。

    Python pandas + folium で Leaflet をもっと使いたい - StatsFragments
    chezou
    chezou 2015/12/27
    おもろい
  • 私がゴミと野草とリスを食べる理由 · Naoki Orii's blog

    この1年の間に、スタンフォード大学の院生である友人との交流を通じて少し変わった3つの事を口にする機会があった。それぞれの事がアメリカのトレンドを象徴しているように感じたので、それらを紹介したいと思う。 Dumpster Diving 世界で生産されている料のおよそ3分の1から2分の1は捨てられている。世界人口のおよそ9人に1人が飢餓で苦しんでいる一方でここまで大量に品が廃棄されているという不思議さはさておき、品が捨てられると単にべものが無駄になるだけではなく、収穫、出荷、貯蔵、加工、包装、輸送、そして販売のために使われた水や化石燃料も無駄になる。さらに、埋め立てゴミとなった品は(二酸化炭素の20倍以上の温室効果を持つ)メタンガスを排出し温暖化を悪化させることから、品廃棄は環境にとって百害あって一利なしだ。 もちろん、これらの問題に対してまったくお手上げというわけではなく

    私がゴミと野草とリスを食べる理由 · Naoki Orii's blog
    chezou
    chezou 2015/12/27
    ほう
  • 言語資源と付き合う

    2. ⾃自⼰己紹介 l  海野  裕也 l  @unnonouno l  unno/no/uno l  研究開発部⾨門 l  Jubatusチームリーダー l  専⾨門 l  ⾃自然⾔言語処理理 l  統語解析、⽂文圧縮、同義語抽出+クエリ拡張、⼊入⼒力力⽀支援 l  テキストマイニング l  ⾔言語横断テキストマイニング、曖昧パターンマッチ 2

    言語資源と付き合う
    chezou
    chezou 2015/12/27