2019年3月26日のブックマーク (2件)

  • 【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita

    記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 記事は、日語のデータセットを紹介いたします。日語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日語のテキストデータセットを含みます。 機械学習に使える日語のデータセットポータル DATA GO JP: 日政府のデータカタログサイト。日政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ

    【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita
  • こうしてGoogleに入社した(kumagi編) - Software Transactional Memo

    Googleオフィスの窓からの眺めをGoogle Photoが自動加工したもの TL;DR AtCoderやろうぜ Googleの(僕から見て)偉い人が立て続けにブログを書いており ctrl-x-s.blog hoge.blog ここ数件の僕のブログへの反響を読んでも「Googlerだから特別」みたいな意見が散見され、入社へのハードルが変に高く見られてしまっている気がするので、僕がGoogleに入社する準備として取り組んでいた事とそのレベルを紹介する。程度の低さに安心して欲しい。 英語 英語の論文は興味の赴くままに読んでいたため読むことに関してはあまり苦手意識は無いものの、絶対的な英語力に関して言うとTOEIC500点というスコアが端的に表している。これがどれぐらいかというと、得意分野から外れると長文を読む速度と精度がガタ落ちし、リスニングも結構な単語を聞き落とし、文脈からの推測と辛うじて

    こうしてGoogleに入社した(kumagi編) - Software Transactional Memo