ブックマーク / atmarkit.itmedia.co.jp (54)

  • BERTにセンター試験を解かせてみて分かった、得意な問題と苦手な問題の傾向

    BERTにセンター試験を解かせてみて分かった、得意な問題と苦手な問題の傾向:センター英語を例に分かる、自然言語処理入門(3) センター試験を例に、自然言語処理の基礎を解説する連載。第3回はセンター試験英語の穴埋め問題を自然言語処理で解答し、その結果について考察する。 前回は、BERTによる文脈理解について説明しました。今回は、BERTの事前学習モデル(bert-base)をそのまま使ってセンター試験英語穴埋め問題にチャレンジします。 大学入試センター試験 センター試験は全ての問題がマークシート形式で出題され、複数の選択肢の中から正解を選んで解答します。2022年10月現在はセンター試験が廃止されており、代わりに大学入学共通テストが実施されています。もちろん現行の試験でも問題なく解くことは可能ですが、センター試験はデータセットが公開されているため、そのデータセットを利用しました(※引用に際

    BERTにセンター試験を解かせてみて分かった、得意な問題と苦手な問題の傾向
    yag_ays
    yag_ays 2022/11/15
  • 「全く分からないけど、しょうがないので超スピードで学んだ」――勉強嫌いの少年がスーパーマンに

    「全く分からないけど、しょうがないので超スピードで学んだ」――勉強嫌いの少年がスーパーマンに:Go AbekawaのGo Global!~Juan Martinez編(前)(1/2 ページ) エルサルバドル出身のJuan Martinez(ファン・マルティネス)氏。大学院に行くまでプログラムとは無縁だった同氏が「新しい言語を覚えるのが苦じゃなくなった」理由とは何か。 世界で活躍するエンジニアの先輩たちにお話を伺う「Go Global!」シリーズ。今回はクラウド名刺管理サービスを提供する「Sansan」のJuan Martinez(ファン・マルティネス 「i」の上にアクセント符号が付く)氏にご登場いただく。 得意分野は「勉強」 阿部川“Go”久広(以降、阿部川) お生まれはどちらですか。 マルティネス氏 エルサルバドルです。中央アメリカに位置する一番小さな国なんですよ。1986年生まれなので

    「全く分からないけど、しょうがないので超スピードで学んだ」――勉強嫌いの少年がスーパーマンに
    yag_ays
    yag_ays 2020/02/05
  • データサイエンティストに優しいフレームワーク「Metaflow」、Netflixがオープンソース化

    Netflixは2019年12月3日(現地時間)、データサイエンスプロジェクトを迅速かつ容易に構築、管理するためのフレームワーク「Metaflow」をオープンソースソフトウェアとして公開した。 MetaflowはNetflixが開発したPythonライブラリ。コンテンツ配信やビデオエンコーディングの最適化など、社内の何百ものユースケースに2年間、Metaflowを用いてデータサイエンスを適用してきたという。 なぜMetaflowを開発したのか Metaflowの開発が始まる前、Netflix機械学習インフラチームはデータサイエンティストに対して社内では何が困難なのかをインタビューした。大規模なデータの扱いやモデル作り、最新GPUに関した回答が集まると当初は考えていたものの、予想は外れた。 最も困難だったのは、「バージョン1」のローンチに到達するまであまりにも時間がかかることだったという。

    データサイエンティストに優しいフレームワーク「Metaflow」、Netflixがオープンソース化
    yag_ays
    yag_ays 2019/12/10
  • クレジットカード処理を担う「ISO8583」とは? Go言語でパーサーを開発したエンジニアが中身と苦労を明かす

    キャッシュレス決済の一環として、クレジットカード決済の利用がまた広がっている。その裏でやりとりされるデータは、多くの人が想像するJSONやXMLではなく「ISO8583」という規格にのっとって行われている。1980年代に策定されたこの標準規格、扱いはなかなか一筋縄ではいかないようだ。 Go言語でISO8583のパーサーを書いたというカンムのバックエンドエンジニアである佐野裕章氏は、2019年8月29~31日に開催された「builderscon tokyo 2019」のセッション「クレジットカードの通信プロトコル ISO8583 と戦う」で、その過程で得られた知見を紹介した。 クレジットカード業界のエコシステム クレジットカードというと「Visa」「Mastercard」といった「ブランド」のイメージが強いが、決済処理にはもっと多くの登場人物が関わっている。加盟店、いうなれば「使う場所」を増

    クレジットカード処理を担う「ISO8583」とは? Go言語でパーサーを開発したエンジニアが中身と苦労を明かす
    yag_ays
    yag_ays 2019/09/26
  • Prophetを、リクルートグループWebサイトの数カ月先の日次サーバコール数予測で活用してみた話

    Prophetを、リクルートグループWebサイトの数カ月先の日次サーバコール数予測で活用してみた話:非統計家が高精度な時系列予測を行えるProphet(後編)(1/2 ページ) Facebookが開発した時系列予測のOSSライブラリ「Prophet」が近年注目を集めている。連載ではProphetの概要と理論的背景、案件で使ってみた経験から得られた知見を紹介する。後編はチューニングのテクニックや運用時の注意点などについて。 Facebook製の時系列予測オープンソースソフトウェア(OSS)であるProphetを紹介する連載。前回は、主に時系列予測そのものの歴史とProphetの概要を紹介しました。 今回は、Prophetを使用するに当たって非常に重要であるチューニングのテクニックや、予測エンジンとしてProphetを搭載したプロダクトを運用する際に気を付けるべき点について、具体的な案件と

    Prophetを、リクルートグループWebサイトの数カ月先の日次サーバコール数予測で活用してみた話
    yag_ays
    yag_ays 2019/06/11
  • AIで顔や広告を自動生成――サイバーエージェントは学習データをどのように集めたか?

    AIで顔や広告を自動生成――サイバーエージェントは学習データをどのように集めたか?:“おいしいデータ”で、成果が出るAIモデルを育てる(3)(1/2 ページ) 「AIに広告を自動生成させる」――サイバーエージェントでインターネット広告事業部の毛利真崇氏が、現在取り組んでいるAIモデル研究開発について語った。 広告事業を展開するサイバーエージェントは、「細分化が進むターゲティング対象に合わせて大量の広告を作成しなければならない」という課題に対し、バナー画像などの広告をAIで大量生成したり、広告に必要な人物画像を自動生成したりして乗り越えようとしている。 「“おいしいデータ”で、成果が出るAIモデルを育てる」第3回は、2019年3月に開催された「SIX 2019」において、サイバーエージェントでインターネット広告事業部の毛利真崇氏が講演した内容を、要約してお伝えする。 AIモデル開発に利用

    AIで顔や広告を自動生成――サイバーエージェントは学習データをどのように集めたか?
    yag_ays
    yag_ays 2019/04/24
  • 「Prophet」とは――Facebook製時系列予測OSSは何が便利なのか

    機械学習の中でも古典的なテーマの一つである「時系列予測(時系列解析、時系列分析)」においては、昔からある「AR(Auto Regression:自己回帰)」モデルから最先端のディープラーニングを用いた「LSTM」(Long Short-Term Memory)までさまざまなアルゴリズムが存在しています。 それらの中でも近年注目を集めているのが、Facebookが開発した時系列予測のオープンソースソフトウェア(OSS)ライブラリ「Prophet」です。Python実装、R実装が公開されています。 連載ではProphetの概要と理論的背景、案件で使ってみた経験から得られた知見を紹介します。「そもそもProphetとは何か」「他の手法との差異は何か」「チューニングのテクニック」「運用で気を付けるべき点」などを紹介しながら、Prophetへの理解を深めることを目的に、2回の連載を予定しています。

    「Prophet」とは――Facebook製時系列予測OSSは何が便利なのか
    yag_ays
    yag_ays 2019/04/18
  • Tableau、2019.1リリースで自然言語による探索などに対応

    Tableauは2019年2月13日(米国時間)、新バージョンであるTableau 2019.1リリースをリリースした。主な新機能はAsk DataとTableau Prep Conductor。 Tableauは2019年2月13日(米国時間)、新バージョンであるTableau 2019.1リリースを発表した。主な新機能はAsk DataとTableau Prep Conductor。 Ask Dataはユーザーが自然言語で質問を入力することで、データソースから適切なデータビジュアリゼーションを自動的に作成・表示する機能。「最も人気の高い」など、漠然とした言葉使いにも対応するという。質問の結果に対し、並べ替え、フィルター、集計などを追加適用していくことが可能。ただし、対象とするデータソースの項目については、質問を入力する前にある程度把握しておく必要がある。

    Tableau、2019.1リリースで自然言語による探索などに対応
    yag_ays
    yag_ays 2019/02/14
  • 生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会

    ご注意:記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 日マイクロソフト主催の勉強会「DEEP LEARNING LAB: AI開発を円滑に進めるための契約・法務・知財」が1月25日に開催された。 AIに関する法的な課題となる事例や、AIを「発注するユーザー」と「作るベンダー」はどう契約を結べばよいのか、について、具体的にガイドラインを示しながら説明された。実際にAIを取り組もうとしている企業にとっては参考になる話が多く、筆者自身も大いに参考になった。 その内容をすべてお伝えしたいところだが、3時間ほどの長丁場であり、しかも残念ながら動画配信などもなかった

    生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会
    yag_ays
    yag_ays 2019/01/31
  • AI/機械学習にコンテナは必要か?――4人のスペシャリストが語るGPUコンテナの未来

    2018年11月8日に行われ盛況のうちに幕を閉じた「Red Hat Forum 2018 Tokyo」。そのセッションの一つとして開催されたのがパネルディスカッション「AI/マシンラーニング開発基盤を支える技術Kubernetesが創るGPUコンテナの未来~」だ。エヌビディア(NVIDIA)、Preferred Networks(PFN)、日ヒューレット・パッカード(HPE)、レッドハットという各分野のエキスパートが、AI、マシンラーニング(機械学習)、ディープラーニング(深層学習)において、コンテナがどのような効果をもたらすのか、現在の課題や今後の展望を語った。 登壇者は以下の通り。モデレーターは@IT編集部 エグゼクティブエディターの三木泉(以下、三木)が務めた。今回はTwitterのハッシュタグ「#RHF_TECH」を使って会場からリアルタイムで質問も募った。 登壇者 大村伸吾

    AI/機械学習にコンテナは必要か?――4人のスペシャリストが語るGPUコンテナの未来
    yag_ays
    yag_ays 2018/12/31
  • 機械学習向け教師データ作成ツール、TISがオープンソースで公開:3種類のデータ作成に向く - @IT

    TISは機械学習に向けた教師データ作成ツール「doccano」をオープンソースソフトウェアとして公開した。テキスト分類、系列ラベリング、系列変換という3つの基的なタスクで使用するデータを作成しやすいという。 TISは2018年11月6日、自然言語処理や機械学習に向けた教師データ作成ツール「doccano(ドッカーノ)」をオープンソースソフトウェア(OSS)として公開すると発表した。GitHubから入手できる。 doccanoは、機械学習などで教師データに使うラベル付きデータを作成するアノテーションツール。「テキスト分類」、文中の人名や地名などを特定する「系列ラベリング」、要約や翻訳といった「系列変換」という3つの基的なタスクで使用するデータを作成しやすいという。 これらの基的なタスクは表計算ソフトなどの帳票ツールでも実行可能だが、例えば系列ラベリングでは文字単位、単語単位でデータを作

    機械学習向け教師データ作成ツール、TISがオープンソースで公開:3種類のデータ作成に向く - @IT
    yag_ays
    yag_ays 2018/11/07
  • GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT

    GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 GitHubは2018年10月30日(米国時間)、2018年10月21日16時頃(米国太平洋時)から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータ管理データベースの不整合を引き起こし、復旧に時間を要したという。 GitHubは2018年10月30日(米国時間)、2018年10月21日16時頃(米国太平洋時)から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータを管理するデータベースの不整合を引き起こし、復旧に時間を要した

    GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT
    yag_ays
    yag_ays 2018/10/31
  • LSTMとResidual Learningでも難しい「助詞の検出」精度を改善した探索アルゴリズムとは

    連載「Deep Learningで始める文書解析入門」では、Deep Learningの中でも時系列データを扱う「Recurrent Neural Network」(以下、RNN)と、その応用方法としてリクルートグループ内で取り組んでいる原稿校正(誤字脱字の検知)の実現方法について解説してきました。 連載第1回ではRNNの概要や活用例について述べ、第2回の前回では、「誤字脱字の検知」というタスクの概要を紹介し、それに対してRNNをどのように活用したかを紹介しました。 前回の最後でも述べましたが、誤字脱字の検知という課題に対して始めからRNNがうまく機能したかというと、答えは「ノー」です。「文字の系列から次の単語を予測するRNNを“異常検知”的に利用する」こと自体は、うまく機能しているようでした。 しかし、英語に比べ日語の文法は思った以上に複雑で、特に、前回『「誤字脱字」の3つの定義』の

    LSTMとResidual Learningでも難しい「助詞の検出」精度を改善した探索アルゴリズムとは
    yag_ays
    yag_ays 2017/03/18
  • RDBMSで使われるB木を学ぼう (1/3)- @IT

    第5回 RDBMSで使われるB木を学ぼう はやしつとむ アナハイムテクノロジー株式会社 2009/6/22 オブジェクト指向によって、アルゴリズムは隠ぺいされていることが多くなった。しかし、「用意されていない処理」が求められたときに対応できるだろうか(編集部) 第3回「AVL木で木構造を学ぼう」、第4回「もっとAVL木で木構造を学ぼう」と2回連続でAVL木について解説しました。 今回はAの後だからBというわけではありませんが、B木(B-Tree)を取り上げます。 B木の変種であるB+木やB*木は、OracleやPostgreSQL、Firebirdなどのリレーショナルデータベースでインデックスとして利用されている、メジャーな木構造です。 筆者はDelphi 2009でサンプルプログラムを作成していますが、Delphiをお持ちでない方は下記のURLからTurboDelphiをダウンロードして

    yag_ays
    yag_ays 2016/10/08
  • 校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方

    校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方:Deep Learningで始める文書解析入門(2)(1/2 ページ) 連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正(誤字脱字の検知)の自動化について解説します。今回は、連載における「誤字脱字」の定義と「なぜRNNを利用する必要があるのか」「課題に対してRNNをどのように利用したのか」について。 連載「Deep Learningで始める文書解析入門」ではDeep Learningの中でも時系列データを扱うRecurrent Neural Network(以下、RNN)とその応用方法としてリクルートグループ内で取り組んでいる原稿校正(誤字脱字の検知)の実現方

    校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方
    yag_ays
    yag_ays 2016/10/06
  • Spark 2.0の回帰分析アプリをScalaのSBTで実装し、EMRで実行

    Spark 2.0の回帰分析アプリをScalaのSBTで実装し、EMRで実行:Amazon EMRで構築するApache Spark超入門(2)(1/3 ページ) 連載では、Sparkの概要や、ローカル環境でのSparkのクラスタの構築、Sparkの基的な概念やプログラミングの方法を説明していきます。今回は、簡単な機械学習のSparkアプリケーションを作成し、Amazon EMRで実行するまでを説明します。

    Spark 2.0の回帰分析アプリをScalaのSBTで実装し、EMRで実行
    yag_ays
    yag_ays 2016/09/28
  • OSSのブロックチェーン技術「Hyperledger Project」が間もなくソースコードを公開

    OSSのブロックチェーン技術「Hyperledger Project」が間もなくソースコードを公開:創設メンバー30社も発表 ブロックチェーン技術のオープンソースソフトウェア実装が間もなく公開される。ソースコードにはリップルなどから提供された技術が含まれているという。 Linux Foundationは、OSS(オープンソースソフトウェア)のブロックチェーン技術推進コミュニティー「Hyperledger Project」の創設メンバー30社を発表した。今後、数週間のうちにGitHubにソースコードを公開する見込みだ。 Hyperledger Projectは、先にOpen Ledger Projectとして発表していたもの。 最初に発表されていたメンバーには、シスコシステムズ、IBM、インテル、ドイツ証券取引所などの他、日からは富士通や三菱UFJフィナンシャルグループなどの名前が挙がって

    OSSのブロックチェーン技術「Hyperledger Project」が間もなくソースコードを公開
    yag_ays
    yag_ays 2016/09/02
  • CVRをあと10%アップする、ビッグデータ分析とアダプティブUXの使い方

    CVRをあと10%アップする、ビッグデータ分析とアダプティブUXの使い方:ABテストによるUX改善のコツ大解剖(4)(1/2 ページ) ABテストを利用したサイト改善の限界にぶつかっている人たちに向けて、リクルートグループ内で実践している改善ノウハウをお伝えする連載。今回は、中古車販売サイト「カーセンサー」を例に「検討フェーズ」を軸とした個別最適化やビッグデータ分析の有効な生かし方について解説する。 連載目次 前回の『カーセンサー、ゼクシィのサイトが取り入れている「アダプティブUX」とは何か』までで、ABテストによる改善の有効性と限界、そしてその限界を超えるための「アダプティブUX」の考え方について紹介した。ここからの2回では、実際にリクルートマーケティングパートナーズのサービスにおいて実現しているアダプティブUXの具体的事例を紹介していこう。 今回は、まずカスタマーの「検討フェーズ」を軸

    CVRをあと10%アップする、ビッグデータ分析とアダプティブUXの使い方
    yag_ays
    yag_ays 2016/05/14
  • クランボルツ理論の「計画された偶然」

    連載は、さまざまなキャリア理論を紹介する。何のため? もちろんあなたのエンジニア人生を豊かにするために。キャリア理論には、現在のところすべての理論を統一するような大統一理論は存在しない。あなたに適した、納得できる理論を適用して、人生を設計してみようではないか。 今回は、キャリア理論の中でも最先端の考え方である「計画された偶発性理論」(Planned Happenstance Theory)をご紹介しましょう。当理論の提唱者は、スタンフォード大学 教育学・心理学教授、J.D.クランボルツ氏です。 クランボルツ氏は、直近では2006年6月に来日し、日での講演を数回行っています。私もそれらの講演の1つに出席し、同氏から直接、計画された偶発性理論についての詳細な解説を聞く機会がありました。 計画された偶発性理論とは? 「計画された偶発性理論」。ぱっと聞いただけではピンとこない言葉ですよね。「計

    クランボルツ理論の「計画された偶然」
    yag_ays
    yag_ays 2016/04/19
  • プログラマー“専用(?)”のメモ帳アプリ「Boost」登場

    Boostは、JavaScriptなどのWeb標準技術を使ってデスクトップアプリを作成できるフレームワーク「Electron」で開発。Electronは米GitHubが公開しているもので、「Visual Studio Code」などでも採用されている。 まずはMac OS X版から提供。追って他OSやデバイス連携機能の開発も進めるという。 関連記事 Visual Studio Codeの使い方、基の「キ」 Microsoft発のクロスプラットフォームなテキストエディタ、「Visual Studio Code」の使い方の基をまとめる(バージョン1.25対応)。 GitHub(ギットハブ)の使い方:issue(イシュー)編 ソフトウェア開発プロジェクトの共有WebサービスGitHub(ギットハブ)」を「日語で」分かりやすく説明するシリーズ、今回はコミュニケーションを図るための「issu

    プログラマー“専用(?)”のメモ帳アプリ「Boost」登場
    yag_ays
    yag_ays 2015/11/19