タグ

nooby_noobのブックマーク (455)

  • 言語処理100本ノック 2020 (Rev 2)

    言語処理100ノック 2020 (Rev 2) 言語処理100ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート

    言語処理100本ノック 2020 (Rev 2)
  • 自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

    はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

    自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録
  • Google re:Work - マネージャー

    イノベーション イノベーションを起こすためのスキルを習得し、業務に活かす方法を学びます。

    Google re:Work - マネージャー
  • 無能な同僚と働くということ。 - WETな備忘録

    君へ、 つい最近まで、南米で3ヶ月ほどデータエンジニアとして仕事していた。Tシャツで帰ってきて震えた。寒くて。 僕にとって2019年は、あんまりいろんなことが無かったくせに、いや糞ヒマだったからこそ、いろいろ考えることが多い1年だったと思う。最後の3ヶ月以外は、基的にヒマだった。 過去に僕はベルリンで1年ほど働いていたこと*1があり、まあ結論からいうと音を上げて、日に逃げ帰ってきた。何がそんなにしんどかったかというと、ベルリンは十分英語で生活できるとはいえ、ドイツ語関連のトラブルシューティングに付き合ってくれるドイツ人の友人を作ることができなかったというのが大きいが、そういう人間関係を構築することが出来なかったことも含めて、当時所属していた会社の上司および同僚と上手くいかなかったのが致命的だった。 とくに、エンジニアの同僚氏、つまり君は、まったく許せなかった。 あれからもう3年も経ち、

    無能な同僚と働くということ。 - WETな備忘録
  • ドイツの受託開発会社を退職しました - WETな備忘録

    2月末日付けで退職しました。退職エントリ書くつもりは無かったんですが、周囲から「公益性が高そうなので書け」というお言葉をいただいたのと、あと海外在住プログラマのキラキラ記事っておおいに生存バイアスかかってる気がするし、死にゆく者の事例も大事かな、と。 はじめに つらみは有りましたが、うらみは有りません。当初3年ぐらいかなと思ってたけど、この1年間の経験には大変満足しています。また、同僚各位にも深く感謝しております。Vielen Dank. I love you ;) 日に帰る理由も、ドイツがつらいってのはだいたい3割ぐらいで、じつは2年前からゲノム解析のウェブサービス化とか生物学周辺のソフトウェア受託などの個人事業をやってて、そろそろそっちに集中すっかー、というのがマジな理由です。 tl;dr 自分を守るのは会社でも制度でもなく、自分。Noと言えなければ死ぬしかない。 自分に落ち度が無い

    ドイツの受託開発会社を退職しました - WETな備忘録
  • エンジニアが厳選した 10 冊を、次世代のプログラミングを担う皆さんに

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    エンジニアが厳選した 10 冊を、次世代のプログラミングを担う皆さんに
  • Google Pixel4とIIJmio eSIM

    10月に発売されたGoogle社Pixel 4シリーズに関連して、今年7月にβサービスを開始したIIJmioのeSIMに改めてご注目をいただいているようです。IIJでは継続的にeSIMに関する調査を行っていますが、いくつか気になる挙動が見かけられましたのでお知らせいたします。 ご紹介する情報は記事執筆時点でのものです。IIJで実施できる調査手法は限られており、製品のすべての挙動を把握できているわけではありません。調査に利用する端末の数も限られているため、特定個体の不具合である可能性もあります。また、調査後に各社の製品で行われたアップデートにより挙動が変わることがあります。あらかじめご了承下さい。 Google Pixel 4・Pixel 4 XL Pixel 4・Pixel 4 XL(以下Pixel 4)は、Googleが販売するAndroidスマートフォンです。プラスチック製のSIMカー

    Google Pixel4とIIJmio eSIM
    nooby_noob
    nooby_noob 2019/12/10
    とてもわかりやすい
  • 東大情報学環大澤昇平氏の差別発言について - researchmap

    東京大学大学院情報学環特任准教授の大澤昇平氏(@Ohsaworks)が、11月20日にtwitter上で行った差別発言について書きます。この件については、11月24日に情報学環長名ですでに以下のような文書が出されています。 しかし残念ながら、上記の文書からは誰がどのような言動を行い、それがなぜ問題なのかということがわかりません。筆者(明戸)は現在同じ大学、同じ部局の特任助教であり(ただしプロジェクト雇用なので部局そのものの運営等には関わっていません)、また差別やヘイトスピーチにかかわる研究者でもあります。こうしたことをふまえて、ここでは明戸個人の立場から、今回の経緯および論点を整理し、自身の立場を明らかにしておこうと思います。

    nooby_noob
    nooby_noob 2019/11/25
    統計的差別かぁ。全然知らなかった
  • 「いかがでしたか?」が可愛い!身長は?出身は?実家がヤバい!?

    こんにちは!増田です^_^ 最近、インターネットで「いかがでしたか?」という言葉を目にしますね! 増田も日ごろ気になっている出来事を調べたり、 友だちにオススメされた映画のタイトルを調べたり、 テレビでよくみる芸能人の名前を検索するたびに見かけます。 でも、結局この言葉、よく見かけるわりにどういう意味なのか 「よく分からない!」という人も多いのでは? そこで、今回はここ数年で見かけるようになった「いかがでしたか?」の意味、 流行ったきっかけ、使い方について、気になったので調べてみました! 「いかがでしたか?」って何?皆さんが気になっているのは、 「『いかがでしたか?』という言葉がどういう意味なのか?」 ということだと思います! なので、これから、順番に意味を紹介していきます! 「いかが」の意味とは?辞書で調べたところ、「いかが」という言葉は、次のような意味になるそうです。 いか‐が【如=何

    「いかがでしたか?」が可愛い!身長は?出身は?実家がヤバい!?
    nooby_noob
    nooby_noob 2019/11/02
    朝から声出して笑ってしまった
  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

  • 新世代Elasticsearchクラスターコーディネーション

    Elasticsearchが広く普及した理由の1つは、数ノードの小規模なクラスターから数百ノードの大規模なクラスターへの拡張性が優れていることです。その中心にあるのが、クラスターコーディネーションサブシステムです。Elasticsearchバージョン7は、新たなクラスターコーディネーションサブシステムを備えており、これまでのバージョンと比べて多くの利点があります。この記事では、バージョン7においてこの新しいサブシステムに加えられた改善点について紹介し、その使い方、今回の変更がバージョン6からのアップグレードに与える影響、誤ってデータをリスクにさらしてしまうことを防ぐ新たな機能について説明します。そして最後に、新しいサブシステムの仕組みを説明する理論の概要を提示します。 クラスターコーディネーションとは Elasticsearchクラスターを使用すると、多数のノードの連携を必要とするさまざま

    新世代Elasticsearchクラスターコーディネーション
  • 情報系修士にもわかるダブル配列 - アスペ日記

    最近話題の「日本語入力を支える技術」を途中まで読んだ。 3章がものすごく気合いが入っている。 trie(トライ)というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。 ダブル配列については、ぼくは以前論文を読んで勉強しようとしたのだが、その時は難しくてあきらめた覚えがある。しかし、このの説明を読むことで理解ができた。 ありがたい。 感銘を受けたので、このを教材に友達と2人勉強会をした。 この2人勉強会というのは、ぼくが復習を兼ねて友達に教えるというのがだいたいのスタイル。 しかし、いざやってみるといろいろと難しい。 次のようなところでひっかかるようだ。 例のサイズが小さく、イメージを喚起するのが難しい。 最初の図のノード番号と、最終的なダブル配列上の位置が異なるため、混乱する。 単語終端について言及がないので、どのノードが単語を表しているかがわから

    情報系修士にもわかるダブル配列 - アスペ日記
  • 株式会社ドワンゴを退職します

    株式会社ドワンゴを退職します Jun 28, 2019 ドワンゴポエム こんにちは。お久しぶりです。mesoです。 2019年6月末をもちまして株式会社ドワンゴを退職いたします。兼務出向していた株式会社バーチャルキャストからも抜けることになります。 7月からは、SO Technologies株式会社にて執行役員VPoEとして働くことになります。 ドワンゴで何をしてきたか 2009年9月からドワンゴでエンジニアとして働いていたので、9年10ヶ月在籍したことになります。この業界としては長いですね。 入社当初は、着うたが1曲ダウンロードされたときにお金をどう分配するかを計算するシステムの開発を行ってました。yoshiori や t_yano や yamashiro や kuzuha など、当に優秀なメンバーと一緒に開発することができ、このチームが僕の原点とも言うべきチームです。 その後、ニコニ

  • Lucene's FuzzyQuery is 100 times faster in 4.0

    There are many exciting improvements in Lucene's eventual 4.0 (trunk) release, but the awesome speedup to FuzzyQuery really stands out, not only from its incredible gains but also because of the amazing behind-the-scenes story of how it all came to be. FuzzyQuery matches terms "close" to a specified base term: you specify an allowed maximum edit distance, and any terms within that edit distance fr

  • 検索ログから「じわじわ検索頻度が上昇しているキーワード」を見つける - クックパッド開発者ブログ

    こんにちは。トレンド調査ラボの井上寛之(@inohiro)です。 普段は法人向けサービス「たべみる」の開発を担当しています。 たべみるはクックパッドの検索ログを基にしたサービスで、任意のキーワードの検索頻度、キーワード同士の組み合わせ検索頻度、 およびそれらを地域や年代・性別で絞り込んで分析することができます。 トレンド調査ラボでは「たべみる」の開発のほか、 クックパッド上のトレンドを見つけるために日々調査を行っています。 ここでのトレンドとは、「流行っている」もしくは「流行りそう」といったものを指します。 消費者が気になっているキーワードが何かを知ることで、消費者が求めている情報を適切に提供できると考えています。 今回は、膨大な検索ログの中から「じわじわ検索頻度が上昇しているキーワード」を見つけるために 行ったことについて紹介したいと思います。 じわじわ検出 「じわじわ検索頻度が上昇して

    検索ログから「じわじわ検索頻度が上昇しているキーワード」を見つける - クックパッド開発者ブログ
  • TechCrunch | Startup and Technology News

    You’re running out of time to join the Startup Battlefield 200, our curated showcase of top startups from around the world and across multiple industries. This elite cohort — 200…

    TechCrunch | Startup and Technology News
  • 【ROC曲線とAUC】機械学習の評価指標についての基礎講座 - これで無理なら諦めて!世界一やさしいデータ分析教室

    機械学習ではモデルを作って終わり、ということは無く、モデル作成後にテストデータを使って「当に良いモデルなのか?」という評価を必ず行う必要があります。 では具体的にどのように評価をすれば良いのか?という話になりますが、今回は代表的な評価指標である ROC AUC ついて説明していきます。 この辺りについては、以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホだと数式がうまく表示されない可能性がありますので、こちらのリンク、もしくはPCから購読頂けますと幸いです。 正解率の問題点と、偽陽性率と真陽性率ROC・AUCに入る前に、それらを計算するための性能評価値につい

    【ROC曲線とAUC】機械学習の評価指標についての基礎講座 - これで無理なら諦めて!世界一やさしいデータ分析教室
  • 平成31年度東京大学学部入学式 祝辞 | 東京大学 (上野千鶴子 - 認定NPO法人 ウィメンズ アクション ネットワーク理事長)

    平成31年度東京大学学部入学式 祝辞 ご入学おめでとうございます。あなたたちは激烈な競争を勝ち抜いてこの場に来ることができました。 女子学生の置かれている現実 その選抜試験が公正なものであることをあなたたちは疑っておられないと思います。もし不公正であれば、怒りが湧くでしょう。が、しかし、昨年、東京医科大不正入試問題が発覚し、女子学生と浪人生に差別があることが判明しました。文科省が全国81の医科大・医学部の全数調査を実施したところ、女子学生の入りにくさ、すなわち女子学生の合格率に対する男子学生の合格率は平均1.2倍と出ました。問題の東医大は1.29、最高が順天堂大の1.67、上位には昭和大、日大、慶応大などの私学が並んでいます。1.0よりも低い、すなわち女子学生の方が入りやすい大学には鳥取大、島根大、徳島大、弘前大などの地方国立大医学部が並んでいます。ちなみに東京大学理科3類は1.03、平

    平成31年度東京大学学部入学式 祝辞 | 東京大学 (上野千鶴子 - 認定NPO法人 ウィメンズ アクション ネットワーク理事長)
  • Announcing Sonic: A Super-Light Alternative to Elasticsearch

    When one builds a product, a good measure of success would not be how much time users spend on the product, but how much time users save by using it. Let search be at the core of any product for that purpose. Three years ago, I started Crisp with Baptiste Jamin. We had very little means (and zero money!) at that time. We managed to deliver our cross-platform customer software to 100,000 happy user

    Announcing Sonic: A Super-Light Alternative to Elasticsearch
  • GitHub - valeriansaliou/sonic: 🦔 Fast, lightweight & schema-less search backend. An alternative to Elasticsearch that runs on a few MBs of RAM.

    Sonic is a fast, lightweight and schema-less search backend. It ingests search texts and identifier tuples that can then be queried against in a microsecond's time. Sonic can be used as a simple alternative to super-heavy and full-featured search backends such as Elasticsearch in some use-cases. It is capable of normalizing natural language search queries, auto-completing a search query and provid

    GitHub - valeriansaliou/sonic: 🦔 Fast, lightweight & schema-less search backend. An alternative to Elasticsearch that runs on a few MBs of RAM.