タグ

分析に関するt-murachiのブックマーク (4)

  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

    Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
    t-murachi
    t-murachi 2020/09/27
    WikipediaをWikiと言ってのけるサイエンス系最右翼(´・ω・`)
  • 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

    (Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。 とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPython業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

    「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ
    t-murachi
    t-murachi 2019/06/28
    データ分析を生業にするなら両方やっとけ、本業プログラマーならRは知識の片隅で軽く読める程度にとどめておいてもいいと思ってる。実際分析屋の傍らで働くSE(他称)としてはそんな実感。
  • 【オールジャパン】日本対ガーナ【JFAの真価が問われる】

    奇しくも様々な感情を抱かせるようになってしまった日本代表の試合。ハリルホジッチの無念からの西野監督への復活。我々ですら、どのようなサッカーになっていくのかが不明であるのだから、海外の人たちからすれば、日は何をしているんだろう?状態に違いない。というわけで、この試合には、コロンビア、ポーランド、セネガルの分析スタッフがいたのかどうか。それにしても雨が降る日産スタジアムでもあれだけの観客が集まるのだから、日本代表のチームの持つ集客力というかパワーは偉大なんだなと改めて感じさせられた。ちなみに、ワールドカップが始まったら、渋谷のスクランブル交差点はいつものような喧騒を引き起こすのかどうか気になっている。 日の3-4-3 4バックを基としていたハリルホジッチ。西野監督のなかには3バックが引き出しに眠っていたので、このタイミングで出してみたのだろう。大会でも3バックなのか?はわからないが、ゲ

    【オールジャパン】日本対ガーナ【JFAの真価が問われる】
    t-murachi
    t-murachi 2018/05/31
    見てた。パスサッカーって、無駄にボール支配率だけは高いサッカーのことだったのね。4年前までと変わらんやん、っていう。如何にプランのないふわふわした采配だったかが詳しく書かれてる。
  • SMAP「世界に一つだけの花」は、ネオリベ礼賛の歌です - 女教師ブログ

    音楽, すごく役に立つ知識 「世界に一つだけの花♪」という歌は競争否定の共産主義礼賛の歌ですか? - Yahoo!知恵袋 「競争否定」だなんてとんでもない。この歌は、「お前らは『市場』の上で、身の程に合ったことやってりゃいい」、つまりネオリベラリズム礼賛の歌だ。  花屋の店先に並んだ  いろんな花を見ていた冒頭でいきなり持って行かれる。いきなり「花屋」だ。どうして「野原」ではないのか。どうして「道ばた」ではないのか。 この歌は、これ以降最後まで、「花屋」を前提に展開する。それは、「市場」を強く意識しているに他ならない。  人それぞれ 好みはあるけれど  どれもみんな きれいだねつまり、花たちは「花屋=市場」にいるからこそ「きれいだね」なのだ。「野原」「道ばた」のようなそもそも「市場=競争」から降りている花たちは、そもそも問題にされていないのである。 そして「人それぞれ 好みはある」のである

    t-murachi
    t-murachi 2008/07/01
    そういやこの歌、サビんとこしか知らんかったなぁ。。。全体通してみると、確かに全くその通りだわ。w
  • 1