タグ

2020年7月1日のブックマーク (3件)

  • Zero-shot learningの紹介:見たことがない画像やニュースを予測してみました - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室のK.S.(女性、外国人)です。 最近、新型コロナウイルスの感染拡大の影響で外出も自粛モードになっていますが、みなさんお元気ですか。 今年の初ブログという節目に「やったことがないこと、行ったことがないところ」を今年こそ挑戦してみたいと思ったりしませんか。私は植物を見るのが趣味で、行った事がない自然のあるところに行ったり、見た事がない植物の写真を撮ったりして、個人の写真コレクションを増やしていきたいです。最近、携帯の写真検索機能が高まって、たくさん写真を撮っても、見たいときに、単語を入れると、携帯が勝手にアルバムを分類してくれます。例えば、「バラ」を入れると、自分が集めてきたバラの写真が出てきます。最近、新型コロナウィルスであまり外出できないし、リモートワークで目が疲れたときなど、見たい植物の写真を見て楽しんでいます。ところで、残念ながら、私が大好きな「サルス

    Zero-shot learningの紹介:見たことがない画像やニュースを予測してみました - GMOインターネットグループ グループ研究開発本部
  • だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita

    データサイエンス100ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型

    だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita
  • 異体字の考え方

    漢字を含んだ古典文献を現代の活字体に翻刻する際、数多く現れる異体字をどのように扱うか、これはおよそ翻刻に携わる者ならば誰もが苦慮するところである。しかしながら第一期『歌舞伎評判記集成』ほど真摯かつ精力的にこの問題に取り組んだ例も珍しいのであって、月報に原道生氏の連載された「翻刻覚書」はその経緯の報告であるが、これはおそらく異体字を翻刻する際の問題点について論じた、これまでで最も詳しい文章である。漢字に対して厳密なこの姿勢は同『集成』の第二期にも継承され、既にして評判記研究者のうるわしい伝統と化している。当然このたびの第三期でも、その伝統に連なることが期待されるところであろう。 一方第二期の翻刻方針には、第一期のそれから大きく転換した点もある。第一期が原則として正字体を用いたのに対し、「時代の動きに即した新しい漢字処理方式」としてほとんど全面的に常用漢字表の新字体の使用に踏み切ったことである