Learn, build, and scale with elastic - realizing great programming experience...Shotaro Suzuki
Learn, build, and scale with elastic - realizing great programming experience...Shotaro Suzuki
こんにちは、@shin0higuchiです😊 先日、第49回Elasticsearch勉強会を開催しました。 私からは、Elasticsearch 8.3 で実装された、PyTorchモデルによる質問応答機能を紹介しました。 発表のスライドはこちらです。 Elasticsearch勉強会_NLPQA.pptx from shinhiguchi www.slideshare.net 以下、発表の内容について簡単に説明します。 概要 「質問応答」とは? 今回の発表のテーマである「質問応答」とは、機械学習タスクのひとつで、 一般に、利用者の質問に対して適切な回答を自動で返すことを指します。 活用先の例としては、チャットボットで製品に関する質問に回答させることなどが考えられます。 この場合、質問に対する回答は製品マニュアルに書いてあるはずですので、マニュアル内の適切な箇所を抜き出して回答するのが
# 2020年の実現を目指す Society 5.0 な社会日本の政府がすすめている Society 5.0 という考え方がある。狩猟社会をSociety 1.0、農耕社会をSociety 2.0と見立てて、工業社会(Society 3.0)、情報社会(Society 4.0)に続く新たな社会を指すものとして、政府曰く “サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する、人間中心の社会(Society)” — Society 5.0|内閣府 ウェブサイトより といったビット(情報)とアトム(物質)が融合した世の中を目指している。このイメージ図には具体例として大きくドローンが描かれており、政府の目指す方向を意識するしないに関わらず、様々なプレイヤーが東京オリンピックが開催される2020年度までの目標としてこの新しい社会
OAM Browser The OpenAerialMap Browser provides a simple way to browse and obtain imagery. Users can discover what areas are covered by imagery, and also filter your search to narrow in on the imagery you need. Learn More Bringing together open UAV efforts OpenAerialMap creates a place for mappers to store and share their work with the rest of the community. Through this database, everyone has a go
「Huggingface Transformers」による日本語の質問応答の学習手順をまとめました。 ・Huggingface Transformers 4.1.1 ・Huggingface Datasets 1.2 前回 ・DDQA-1.0_RC-QA_train.json ・DDQA-1.0_RC-QA_dev.json2. 日本語の質問応答の学習(1) Googleドライブのフォルダの準備 「Google Colab」のディスクサイズ(68.40GB)では足りないので、Googleドライブ 100GB(¥250/月)で学習します。 # Googleドライブのフォルダの準備 from google.colab import drive drive.mount('/content/drive') !mkdir -p /content/drive/'My Drive'/bert/ %cd
はじめに こんばんは。今回は、次の論文の紹介です! All You May Need for VQA are Image Captions ※本記事にある画像や数式は、当論文より引用しています。 目次 導入 ネックとなっている事柄 データ作成の方法 作成されるデータの質の検証 応用に関する考察 導入 画像質問応答とは AI関係の中でもとりわけ高度なタスクとして、VQA(Visual Question Answering)というものがあります。これは、ある画像とそれに関する質問が与えられた際に、その質問に回答するタスクです。ここでは、このタスクを画像質問応答と呼ぶことにします。 画像質問応答について、以下にいくつか説明します。 事例 事例があると分かりやすいと思うので、1つ紹介します。こちらは昨年頃、東芝社が開発した画像質問応答AIです。 https://www.global.toshiba
","unk_token":"","pad_token":"[PAD]","bos_token":"","cls_token":"[CLS]","sep_token":"[SEP]","mask_token":"[MASK]"}},"createdAt":"2022-03-02T23:29:05.000Z","discussionsDisabled":false,"downloads":5272,"downloadsAllTime":508495,"id":"rinna/japanese-gpt2-medium","isLikedByUser":false,"isWatchedByUser":false,"inference":"not-popular-enough","lastModified":"2024-07-20T07:50:47.000Z","likes":75,"pipelin
以前書いた記事でTwitterの対話データを集める方法を紹介しました。 www.pytry3g.com 紹介した方法を使えば膨大な数の対話データが簡単に手に入るというメリットがありますが、一方でTwitter特有の単語が多く含まれていてデータとして使えないなどのデメリットもあります。 今回はその収集したデータに前処理をかけて、データとして使えるものとそうでないものに分けたいと思います。 関連リンク 正規表現を使う URL URLを含まないテキスト URL(https)を含むテキスト URL(http)を含むテキスト 使用例 おまけ ハッシュタグ サンプル1 サンプル2 サンプル3 - 顔文字 ユーザ名 サンプル1 サンプル2 サンプル3 - 顔文字 サンプル4 - 顔文字 サンプル5 - 顔文字 replaceを使う。 ソースコード おわりに 関連リンク 6.2. re — 正規表現操作
『文法コロケーションハンドブックE』 これは何ですか? 2014年の『日本語教育のための文法コロケーションハンドブック』と同じスタイルで、様々な中上級の文法項目をコーパスのデータをもとに記述していくスタイルです。最大の特徴は、中俣の執筆した教材を使ってコーパスの使い方を学んだ大学院生の手によって記述されているということです。(全項目、中俣が監修しています。)まずはPDF版にて公開。今後、他の形態での拡大も視野に入れています。 利用方法 以下より最新版のPDFをダウンロードしてください。 文法コロケーションハンドブックE Ver.2024.8 日本語話題別会話コーパス: J-TOCC 『日本語話題別会話コーパス:J-TOCC』の概要 『日本語話題別会話コーパス:J-TOCC』は話題を固定し、各話題について等しい時間の、親しい大学生どうしの1対1会話を録音、文字化したコーパスです。15話題につ
ツイートの評判情報をクラウドソーシングにより分析し,分析結果を公開しています. データのダウンロードデータはこちらです. データはbz2で圧縮されています. ツイートの本文は含まれていません. 2015年から2016年ごろのツイートを対象にしています. データ内容携帯電話などのツイートを中心に,534,962件のツイートがの分析が行われています.このツイート量は,他のデータセットと比較しても多いです.作成者の知る限り最も規模が大きく,種類数の大きなデータセットです. 最低 4 名以上の作業者により評価を行い,多数決を行った結果です.だいたい5名以上の作業者により評価を行っています. データの構造CSV ファイルで記述しています.列番号は以下の内容に該当します. ツイートのIDです.10000から始まる番号です.ジャンルIDです.次のジャンルがあります.10000: エクスペリア,Xperi
本稿では、KerasベースのAttention付きSeq2seqモデルによって構築したチャットボットを、Twitterから取得した大量の会話データを用いて訓練し、応答文生成の精度向上を図ります。 1. はじめに 前回の投稿で、Twitterからの会話データ収集ツールを準備しましたので、収集したデータからエンコーダ/デコーダ入力、およびラベルデータを生成して、以前チャットボット用に作成したKerasベースのAttention付きSeq2seqモデルを訓練し、応答文生成の精度が向上するかどうか、見てみます。 前回は名大会話コーパスなどを訓練データに使用しましたが、応答文の精度は今一つでした。その原因は訓練データのボリューム不足にあると考え、今回はTwitterから会話データを大量に入手することでボリューム面の課題解決を図ります。 2. 本稿のゴール 以下の通りです。 Twitterから取得した
本稿では、TwitterAPIによって収集した大量の訓練データを使って、KerasベースのSeq2Seqニューラルネットワークを訓練する際の、処理性能とメモリ使用量改善について考察します。 1. はじめに 本稿は筆者の投稿「Twitterデータを用いたチャットボットの訓練」の続編です。 TwitterAPIを用いて会話データを収集できるようになったことで、ニューラルネットワーク訓練用のデータは事実上、無尽蔵に準備できるようになりました。 大量データを準備することによって、応答文生成の精度はいくらでも上げられると期待したのですが、ここで以下の新たな制約が現れました。 メモリ使用量増加対策としてバッチサイズを小さくしたため、訓練により時間がかかる 学習精度が上がらない 本稿では、これらへの対処方法について、記述します。 講じた対策によって訓練したニューラルネットワークは、Twitter上で利用
4-4. 応答ツイート取得 各ツイートはツイートされた時点では、まだ応答されていないので、仮にその後応答があったとしても、ツイート情報から応答ツイートを取得することはできません。しかし、そのツイートが別のツイートの応答かどうかは、調べる方法があります。 その手順ですが、まずツイートを取得し、その中から他のツイートに対する応答であるものを抽出し、発話ツイートを特定して取得するという流れで、発話と応答の対を収集します。 ツイートの取得には、セッションオブジェクトのgetメソッドを使用します。1回のメソッドで取得できるツイート数の上限は100なので、パラメータにその値を設定してメソッドを発行します。 なお、ループを回す関係上、おなじツイートを2度受信、処理してしまう可能性があります。これを防ぐため、処理対象のツイートをツイート時刻を使って絞り込みます。時刻処理については、こちらの記事を参考にしま
更新(2020/05/20) 今更ながらgoogle colabで動作するnotebookを追加しました。 訓練用と評価用2つを用意していて、評価用の方で全てのセルを実行していただければ、簡単に訓練済みモデルを実行できるかと思います。 訓練済みモデルはいい出来とは言えませんが、曲がりなりにも作成いたしましたので試していただければと思います。 リンク等はGithubのREADMEに記載しております。 何かエラーがありましたら、issue等で知らせていただければと思います。 はじめに タイトル通り、BERTをEncoderとするChatbotを作成しました。 本当に作りたかったモデルは会話の流れを考慮できる会話モデルの作成なのですが、リソースとデータの観点から厳しいです。 どうにかデータが集められればいいのですが...。 EncoderにBERTを採用した理由は単純な興味からなります。 そもそ
Tensor RTの方が、約 5倍速くなっています。 詰まった部分の解説 公式t5変換notebook の実装に対して、修正した部分を解説します。 T5_VARIANT = 't5-small' は、't5-base' など対象のモデルに合わせる必要がある。 TensorRT/demo/HuggingFace/T5/T5ModelConfig.pyのT5ModelTRConfigをモデルのconfigファイルに合わせる。 今回は、モデルのVOCAB SIZEが32128から、32000へ変更した。 fp16の設定 fp16を使用しない場合、false metadata=NetworkMetadata(variant=variant, precision=Precision(fp16=False), other=T5Metadata(kv_cache=False)) Tensor-RTへの変
https://conf2022.pwanight.jp/ で登壇したスライドです。
はじめに 株式会社LCLでフロントエンドエンジニアとして働いている「おとの」と申します。 今回は、今をときめくフロントエンドのフレームワーク「Next.js」を使って、個人もしくは複数人のチームで快適にフロントエンド開発を行いたい方にオススメのセットアップを紹介します。 本セットアップを行うメリットは以下の通りです。 (自動formatが有効になる等)開発速度が増す (StylelintやEslintの静的解析により)不具合の発生や潜在的なエラーを防ぎやすくなる コードの品質と一貫性を保つことができる Next.jsを使いこなせれば、フロントエンド開発だけに限らず、ランディングページ(LP)など静的なWebサイトの実装を行うWeb制作にも有用です。 私自身、Webサイト1ページのコーディングが求められる際もNext.jsを使っています。本セットアップも簡単に終わるので、今すぐ始めたい方はぜ
※17000字くらいある記事なので先に書いておきますが、特にウルトラマンネタはありません。 「やばい映画」第二弾です。幸福の科学制作映画『呪い返し師―塩子誕生』を鑑賞しましたので、感想を書いていきます。 作品紹介 タイトル:『呪い返し師—塩子誕生』 監督:赤羽博 制作:日本、2022 公式URL:https://hs-movies.jp/shioko/ 幸福の科学制作の最新映画です。幸福の科学は90年代からコンスタントに映画を作り続けていることで有名で、公開作品は本作含め25本を数えます。 幸福の科学映画といえばかつてはアニメ作品が主体でした。2009年に公開された、大川隆法と池田大作のサイキックバトルを描く『仏陀再誕』などが有名ですね(って書くと面白そうに見えますが実際は普通につまらないです)。 ところが、2017年に公開された『君のまなざし』を皮切りに、幸福の科学は実写作品を積極的に制
Dive into Cloudflare Workers2022-12-03 PWA Night Conference 2022 Yusuke Wada Me:)Yusuke WadaSupervisor at TravelBook Inc. https://www.travelbook.co.jpWeb framework developerhttps://yusukebe.comhttps://github.com/yusukebeToday’s topics Cloudflare Workerswith D1 and Hono Cloudflare WorkersWorks on the Edge“Glue” for SupercloudSmall and FastEasy to deployWrite in JavaScriptCloudflare D1Serverless SQL
こんにちは、 id:hogashi です。 whywaita Advent Calendar 2022 - Adventar 3日目です。 目次 目次 z-index バトル z-index が 100 より小さいもの z-index が正の値のもの 統計 z-index バトルの頂点はどこか あそびかた むすび z-index バトル id:whywaita さんの好きなアルファベットは流石に Y ということでした。ありがとうございます。 やはり僕も id:whywaita さんの id を眺めていて、 w とか y とかから z-index を想起しまして、世の中の z-index バトルがどのように繰り広げられているのか見たいと思い、 GitHub で language が css と scss のコードを検索しました。 API でバリバリ検索したら 1000件しか検索できないという
「プロジェクトマネジメントの基本が全部わかる本」を買ったら、注文ミスして2冊頼んでしまったんだけど、結果的にはむしろ2冊買ってよかった、という話を書きます。 「プロジェクトマネジメントの基本が全部わかる本」 ( @paradisemaker 著)が届いたー。 なんか注文ミスって2冊届いたけど、1冊は誰かに読ませるとき用にしようw pic.twitter.com/evnrXtssm8 — フジイユウジ (@fujii_yuji) 2022年11月10日 制作/開発をするメンバーはいるけどプロジェクトマネジメントは得意ではなくて雑になってしまっているという制作/開発会社も多いと思うのですが、僕もそういう会社からどうしたらいいのか相談されたり、PMの育成の話をすることがあります。 (肩書としてPMだったことはないんだけど、僕も20年くらいPdM的な仕事をやってるんで相談されることがそれなりにある
このブログにはあんまり出てきませんでしたが、私の家には呼び込み君が2体います。 世の中にはこの呼び込み君に魂を奪われてしまった人、特に子供が多く、 100Vモバイルバッテリーに刺した呼び込み君持って現れる絵面面白すぎやろ #呼び込み君https://t.co/twim6bSGhI pic.twitter.com/6As5nUOAjW — ひろみつ (@bakueikozo) November 19, 2021 呼び込み君フリークの息子、高頻度でこの動画を見てケタケタ笑ってるんだが、これワタナベマホトと相馬トランジスタだったのか。マホトはともかく、相馬氏風貌変わり過ぎて一年以上気づかなかったわ。(言われてみれば面影はちゃんとあるんだけど) pic.twitter.com/zsSp8ovY3g — ひろみつ (@bakueikozo) October 19, 2021 どういうわけかうちの息子
2022年12月1日、Discordはカスタマイズされたオリジナルのフォント「gg sans」を導入しました。ggは"Good Game"に由来するようです。Web フォントなどを利用して Discord 上の表示がこのフォントに順次切り替わる予定です。 補足 / UPDATE 2022/12/03 14:37 JST DiscordのCEO(Jason氏)より返事があり、ツとノの字形がgg sansから削除されたとのことです。右括弧は現時点で残っているようです(これは当初のわたしの指摘がツとノのみに限られていたせいです)。 2022/12/04 14:55 JST 12/3時点でJason氏からの返信に右括弧が残っているという旨を補足しました。 12/4 午前にDiscordのエンジニア Brandon氏より連絡があり、括弧等の修正が完了したとのことです。 こちらで確認する限り、CJK関
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く