本文「Word2vec」を検索 - はてなブックマーク

41 - 80 件 / 338件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Word2vecの検索結果41 - 80 件 / 338件

ZOZO研究所が実施する「検索/推薦技術に関する論文読み会」 - ZOZO TECH BLOG
- 59 users
- techblog.zozo.com
- テクノロジー
- 2021/06/04
こんにちは。ZOZO研究所の山﨑です。 ZOZO研究所では、検索/推薦技術をメインテーマとした論文読み会を進めてきました。週に1回の頻度で発表担当者が読んできた論文の内容を共有し、その内容を参加者で議論します。本記事では、その会で発表された論文のサマリーを紹介します。目次目次検索/推薦技術に関する論文読み会発表論文とその概要 SIGIR [SIGIR 2005] Relevance Weighting for Query Independent Evidence [SIGIR 2010] Temporal Diversity in Recommender System [SIGIR 2017] On Application of Learning to Rank for E-Commerce Search [SIGIR 2018] Should I Follow the Crow
- zozo
- recommendation
- InformationRetrieval
- あとで読む
- paper
- 論文
- search
- 検索
Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad
- 57 users
- blog.brainpad.co.jp
- テクノロジー
- 2021/02/17
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。発展を続ける「自然言語処理」技術。その中でも幅広く使用される深層学習モデルTransformerは、自然言語処理以外の音楽生成や物体検出などの領域でも適用できます。本ブログでは、 Transformerを時系列データに適用する方法をご紹介します。こんにちは、AIソリューションサービス部の井出と申します。この記事では、特に自然言語処理分野で幅広く使用される深層学習モデルTransformerを時系列データへ適用する方法に関してご紹介します。以前の記事では、Transformerの構造や特徴などについて、自然言語処理分野の機械翻訳を例としてご紹介しております。はじめに、こちらの記事をご一読していただくことで、より本記事でご紹介する内容に対する理解が深まるかと思います。 Transform
ブートストラッピング法による情報抽出の論文まとめ - ヤドカリラボ
- 56 users
- yad.hatenablog.com
- テクノロジー
- 2020/05/25
はじめに自然言語処理におけるタスクの一つとして、構造化されていないテキストから情報や知識を自動または半自動で取り出すことを情報抽出といいます。最近では深層学習系の論文が国際学会ではメジャーですが、訓練・ベンチマークに用いているデータセットのレコード数が膨大であり、また高価なGPU環境が言語モデルの訓練のために必要など、必ずしも現実の要件で扱われる問題と合致していない部分があります。また、抽出の際に起こる問題や、抽出の際に用いる指標を古典的な手法を通じて押さえておくことで、実際のデータに既存手法や経験的な手法をいろいろ適用してみるときの手がかりになります。そこで本記事では情報抽出の領域で深層学習が流行る前に比較的メジャーであったブートストラッピング法にフォーカスし、抽出の概念、手法の解説、論文のタスクや手法の詳細などを追っていきます。論文の流れを追うことで情報抽出の応用をしようとし
仕事用にTransformer/BERTの情報をまとめる – かものはしの分析ブログ
- 54 users
- kamonohashiperry.com
- テクノロジー
- 2022/06/26
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリスト最近、『Transformerによる自然言語処理』という書籍を買って、これまであまり追いかけていなかったTransformerについて仕事でカジュアルに使えるレベルまで色々と準備してみようと思い、その過程で見つけた色々な情報をまとめてみました。以前、『BERTによる自然言語処理入門: Transformersを使った実践プログラミング』も買って、写経しながら試していたのですが、仕事であまり使う機会がなかったのであまり身につかなかったです。その反省も込めて、仕事でその
ChatGPTで自然言語処理のData Augmentationやってみた。｜tdual
- 50 users
- note.com/tdual
- テクノロジー
- 2023/02/07
※ChatGPTと言っていますが、正確にはOpenAIの「code-davinci-003」というGPT-3のモデルを使っています。 ChatGPT、すごいですよね！質問すれば、ある程度のことはいい感じの返答をしてくれますね。例えば「〜と似た文章を作って。」メッセージをChatGPTに投げることで、似たような文章を生成できます。入力： import openai openai.api_key = key　＃keyはopenaiのページから取得してください。 model_engine = "text-davinci-003" prompt = """ 「MatrixFlowは、AIの開発に特化したノーコード開発のプラットフォームです。画面上でブロックを動かすという視覚的な操作だけでAIを開発できます。様々な課題や要望に応じたAIモデルのテンプレートが用意されているため、テンプレート
- ChatGPT
- あとで読む
- AI
- 文章
- 開発
- 言語
- data
Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
- 50 users
- tech-blog.abeja.asia
- テクノロジー
- 2022/11/18
ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました！！本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目（ワークショップやプレゼンテーション等） Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present
- kaggle
- チーム
- 機械学習
- あとで読む
- データ
- 学習
- 勉強
- tech
文系非エンジニアがChatGPT / LLMを数式なしで解説してみる｜Yuichiro.ito@Finatext(フィナテキスト)
- 46 users
- note.com/110_110_110
- テクノロジー
- 2023/05/08
先日、社内でChatGPT / LLMを活用した実証実験をしていたら、一部感動するほど結果が出たことで、今更ながら俄然興味を持ってしまいました。これからビジネスユースケースを考えていくうえで、「本質的にどういうものなのか」を理解しておくことがとても大切だと思い、改めてChatGPT / LLMの基本的な仕組みを整理してみました。私みたいな文系で行列や統計はわからないけど、もう少し根本的なところを理解しておきたい！という方に是非です。それでは、GPTをはじめとするLLM（大規模言語モデル）がどのような背景から生まれてきたのかを振り返りながら、LLMの特徴を理解していきましょう！（最後に参照したおススメの動画・記事を貼っていますので、それだけでも是非ご覧ください。） 1. ベースは、ディープラーニングを用いた自然言語処理モデル2015年頃、日本でも"AI"がバズワードになり、ディープラー
- ChatGPT
- LLM
- あとで読む
- 勉強
- AI
- 文章
Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 | 株式会社AI Shift
- 45 users
- www.ai-shift.co.jp
- テクノロジー
- 2021/09/06
こんにちは AIチームの戸田です本記事では前回に引き続き、私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます前回は学習の効率化について書かせていただきましたので、今回は精度改善について書かせていただきますデータ前回に引き続きKaggleのコンペティション、CommonLit-Readabilityのtrainデータを使います validationの分け方などは前回の記事を参照していただければと思います精度改善一般的なニューラルネットワークモデルの精度改善方法として、ハイパーパラメータのチューニングやData Augmentationが上げられますが、ここではBERTを始めとするTransformerをベースとしたモデル（以降Transformerモデル）特有の工夫について
RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ
- 42 users
- techlife.cookpad.com
- テクノロジー
- 2021/11/04
こんにちは。研究開発部の深澤(@fufufukakaka)です。本記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体１コマンドで試せるクックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定
- ML
- development
- データ
- recommendation
- recommend
- 実験
- MachineLearning
- 機械学習
歴代の自然言語処理モデルのスコア推移 - Qiita
- 42 users
- qiita.com/artisanbaggio
- テクノロジー
- 2022/04/01
概要 2013年から2022年に公開された歴代の自然言語処理モデルをGLUEスコアに沿って整理します。背景過去に生み出された革新的な技術は、日々、新しいアイデアや技術が公開される現在でも使われています。これまで、自然言語処理界において、ターニングポイントとなったであろう技術を時系列に振り返ろうと思いました。自然言語処理モデルについて自然言語処理モデル活用例一概に自然言語処理モデルと言っても、それが一体何ものなのか理解し難いと思います。現代社会で自然言語モデルが活用されている事例には以下のようなものがあります。自動翻訳　　　：ブラウザの翻訳機能などで、自動的に翻訳してくれます。文章自動生成　：文章を自動で要約したり、適当な文章を生成してくれます。チャットボット：企業の問い合わせサイトなどで、質問した内容に答えてくれます。自然言語処理モデルとしては、直接、翻訳精度上げるよう
- NLP
- BERT
- Transformer
- あとで読む
- 機械学習
- qiita
- 勉強
【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ
- 41 users
- nttdocomo-developers.jp
- テクノロジー
- 2023/01/21
こんにちは。dcm_chidaです。ドコモ開発者ブログ初投稿です。よろしくお願いします。はじめにみなさん「NeurIPS」と言う国際会議名を聞いたことがあるでしょうか？機械学習・データ分析の分野では毎年たくさんの国際会議が開催されていますが、NeurIPSはその中でも歴史あるトップカンファレンスの一つです。世界中の研究機関や企業から最先端の論文が投稿されます。 NTTドコモR＆DではKDDやNeurIPSといった国際会議の論文読み会を不定期に開催しております。「今年もNeurIPSの論文読み会やるかー」と思って、会議そのもの概要や最新の研究動向などを調べてみたので、ブログ記事にまとめようと思います。論文そのものの解説記事ではないのでご注意ください。１分で分かるNeurIPS2022の概要まとめ会議名称 The Conference and Workshop on Neural
- 機械学習
- あとで読む
- HotEntry
- 論文
- 学習
- 勉強
グラフニューラルネットワークでQiitaのタグづけをレコメンドする - Qiita
- 40 users
- qiita.com/dcm_hashimotom
- テクノロジー
- 2021/12/08
本記事はNTTドコモR&Dアドベントカレンダー2021の8日目の記事です．こんにちは、NTTドコモの橋本(@dcm_hashimotom)です．業務ではレコメンド関連の技術開発・施策検討を行っており，主にPythonやBigQuery, Apache Sparkを触ってます． SNSなどで投稿したコンテンツの検索性を上げるためには，そのコンテンツへのタグ(またはハッシュタグ)の付与が重要です．Qiitaではタグは5つまで付与することができ，タグを指定した絞り込み検索や，マイページでのプロフィールに使われております．しかし，タグの付与はユーザ手動なものが多く(要出典)，検索性が高いものを選択するためには，ドメイン知識が必要です．なので，タグを付ける際に「このタグがついた投稿では他にこんなタグもついてます」的なレコメンドがあれば有用そうです．また，レコメンドということですが，近年レコメンド
Pythonでネットワーク構造のデータを扱いたい(networkxを扱う) - あれもPython,これもPython
- 40 users
- esu-ko.hatenablog.com
- テクノロジー
- 2020/07/22
データ分析の仕事をしていると、基本的な表形式のデータ以外では表現しにくい現実事象が存在します。要素と関係性で表現されるネットワークもその一つです。個人的にはこの形式のデータは、示唆までたどり着きにくいため、ビジネス的な分析とは言いにくいな、とは思います。ただし、探索的にデータを理解したり、プロダクトの機能として使えることは多い分野だと思っているため、タイトルはあえて「データを扱う」にしました。ネットワーク分析とは networkxはグラフ(ネットワーク)に関するデータの保持/操作をしやすくするパッケージです。なお、情報がきちんとまとまっているのは以下の書籍です。(クリックするとAmazonにとびます) （感染症のモデルであるSIRモデルや、Word2Vecとの組み合わせなど、応用も多く非常に面白かったです。ネットワークは繋がりを持つ要素(=ノード)と、その繋がり(=エッジ)で表現さ
Google Cloud Platformを用いた形態素解析 - ペパボ研究所ブログ
- 40 users
- rand.pepabo.com
- テクノロジー
- 2020/07/14
ペパボ研究所研究員の野村（@komei）です。ペパボでは、自社が運用するウェブサービスのユーザの行動ログや属性情報などを収集・分析・活用するための基盤として「Bigfoot」を運用しており、今年Google Cloud Platform（GCP）を使った構成への移設を行いました。本記事では、Bigfootの移設先であるGCPを用いて形態素解析を行う方法についてお話しします。形態素解析を行う動機ペパボでは、ユーザの行動ログや属性情報だけでなく、ユーザからのお問い合わせや商品情報など様々なデータをBigfootに蓄積しています。これらのデータの中には、ユーザからのお問い合わせの文書や商品の説明文などの日本語の文書データも多く含まれています。このような文書データから意味のある情報を抽出し活用するためには、まず文書に含まれている単語を把握する必要があります。そして、TF-IDFやw
- GCP
- BigQuery
- あとで読む
- NLP
- Google Cloud Platform
- cloud
- apache
- データ
- google
技育祭登壇しました。これから機械学習を学びたい方向けへの自分の経験談とおすすめの本、サイトの紹介もします | フューチャー技術ブログ
- 39 users
- future-architect.github.io
- テクノロジー
- 2021/05/12
技育祭登壇しました。これから機械学習を学びたい方向けへの自分の経験談とおすすめの本、サイトの紹介もします TIGの玉木です。去年の12月までは主に機械学習エンジニアとして機械学習案件を任されていましたが、今年の1月からはITコンサルタントとして業務の幅が広くなりいろいろやっています。先月技育祭 1と呼ばれるイベントの勉強会という枠で、同僚の上野さんと一緒に「初心者必見！機械学習エンジニアがあれこれ話します。〜基礎から実社会応用まで〜」というタイトルで発表しました。この記事では技育祭の簡単な紹介と、当日あったこれから機械学習学びたい方向けへの本、サイトの紹介をします。技育祭とは公式サイト 1から引用させていただくと、技育祭は「技術者を育てる」ことを目的としたエンジニアを目指す学生のための日本最大のテックカンファレンスですとのことです。元2ちゃんねる管理人のひろゆきさんや、東京大学の松
【ネットワークの統計解析】第8回事例紹介「Uber における GNN の活用」 - Sansan Tech Blog
- 35 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2021/07/19
こんにちは． DSOC 研究開発部の黒木裕鷹です．夏の訪れを感じつつある最近ですが，ランニングをはじめました．形から入ろうと思い，かっちょいいシューズとウェアを揃えたのですが，なんとか1週間は続いており気分が良いです．まだまだ2, 30分走るだけでバテバテになってしまいますが，いずれは健康大魔神になろうと思っています．さて，この連載では，自分の勉強・復習も兼ねて，ネットワークデータにまつわる（統計）解析を気の向くままに紹介しています．前回の記事では，グラフラプラシアン・グラフフーリエ変換について簡単におさらいしました．あまり理論やモデルの紹介ばかりが続いても面白くないので，今回の記事ではビジネス応用の事例紹介をしたいと思います．具体的には，Uber における GNN の適用事例を2つほど取り上げることにしました．私たちの生活にもすっかり浸透した Uber や UberEat
系列ラベリングによる NPS コメントのポジティブ・ネガティブ部分の抽出 - クックパッド開発者ブログ
- 35 users
- techlife.cookpad.com
- テクノロジー
- 2020/05/15
こんにちは。研究開発部の深澤(@fukkaa1225)と申します。クックパッドでは、顧客のロイヤルティを測る指標であるNPS(ネットプロモータースコア)のアンケートを毎月実施しています。このNPSアンケートで集まってきたユーザの声(フリーコメント)は、クックパッドにとって大変貴重なものです。しかし、毎月多くの声が届くこともあり、担当者だけで目を通して集計するというのは難しくなってきました。そこで昨年、予め定義したカテゴリにコメントを自動で分類するシステムを構築し、既に稼働させています。 NPSアンケートを自動分類した話 - クックパッド開発者ブログこのシステムによって「いただいたコメントが何を話題にしているか」はある程度自動的に把握できるようになりました。次に課題となったのは、例えば「このコメントはレシピの多さに関するものである。でもその中にはポジティブな部分とネガティブな部分が混じ
- 機械学習
- あとで読む
Text Classification: All Tips and Tricks from 5 Kaggle Competitions
- 35 users
- neptune.ai
- テクノロジー
- 2020/04/29
In this article, I will discuss some great tips and tricks to improve the performance of your text classification model. These tricks are obtained from solutions of some of Kaggle’s top NLP competitions. Namely, I’ve gone through: Jigsaw Unintended Bias in Toxicity Classification – $65,000 Toxic Comment Classification Challenge – $35,000 Quora Insincere Questions Classification – $25,000 Google QU
『ディープラーニング学習する機械』は一人称で語られる壮大な物語にして、「AIの過去・現在・未来」の解説書 - 渋谷駅前で働くデータサイエンティストのブログ
- 34 users
- tjo.hatenablog.com
- テクノロジー
- 2021/12/14
ディープラーニング　学習する機械　ヤン・ルカン、人工知能を語る (ＫＳ科学一般書) 作者:ヤン・ルカン講談社Amazon 11月に入って勤務先のオフィスが本格的に再開されてから、久しぶりに会社のメールルームを覗きに行ったところ、届いていた（つまりご恵贈いただいていた）のがこちらの一冊です。Deep Learningの三開祖の一人にして2018年度のチューリング賞受賞者の一人でもある、ヤン・ルカン御大その人が著した『ディープラーニング学習する機械』です。本書は日本語版が出た直後から絶賛する声が聞こえてきていて、興味はあったのですが気を逸した感が否めなかったので、こうしてご恵贈いただけて有難い限りです。講談社サイエンティフィク様、まことに有難うございます。ということで、早速ですが簡単にレビューしていこうと思います。本書の内容特に個人的に印象に残った点全てのアルゴリズムに関する記述が
- アルゴリズム
- Python
- あとで読む
- HotEntry
- データ
- 学習
- 書評
ML and NLP Research Highlights of 2020
- 33 users
- www.ruder.io
- テクノロジー
- 2021/01/19
The selection of areas and methods is heavily influenced by my own interests; the selected topics are biased towards representation and transfer learning and towards natural language processing (NLP). I tried to cover the papers that I was aware of but likely missed many relevant ones—feel free to highlight them in the comments below. In all, I discuss the following highlights: Scaling up—and down
レコメンデーション領域における横断データ活用の取り組み事例紹介 #機械学習
- 33 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/04/02
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でレコメンデーションエンジンの開発を担当している吉井と小出です。今回は、レコメンデーションと横断データ活用の事例として、各種データからユーザーの意図を抽出し、レコメンデーションの性能改善につなげる取り組みについてご紹介します。 ※レコメンデーションエンジンの開発はプライバシーポリシーの範囲内で取得したデータを用いて行っていますレコメンデーションとはレコメンデーションは、サービスの利便性を向上させるために欠かせない技術となっています。代表的なレコメンデーションの利用事例としては、今閲覧しているアイテムに関連するアイテムを提示するあるアイテムと一緒に買われやすいアイテムを合わせ買いアイテムとし
H&Mコンペで銀メダルを獲得したソリューション - ANDPAD Tech Blog
- 33 users
- tech.andpad.co.jp
- テクノロジー
- 2022/05/19
アンドパッドのデータ基盤チームに所属している成松です。先日までkaggleで開催されていたH&M Personalized Fashion Recommendationsにて、私が参加したチームが2,952チーム中22位で銀メダルを獲得しました！そこで、本記事ではH&Mコンペの簡単な概要説明と私個人のSolution（Private 36位相当）について紹介します。コンペ概要本コンペは、指定されたテスト期間中に購入されそうなH&Mのファッションアイテム12個をユーザごとに予測し精度を競うという内容でした。データとしては、ユーザや商品の属性（ユーザ年齢、商品カテゴリなど）を記したメタデータ（customers.csv, articles.csv）とトランザクションデータ（transactions_train.csv）、そして商品の画像データが与えられました。また、本コペではMAP@1
はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
- 33 users
- www.ogis-ri.co.jp
- テクノロジー
- 2019/08/27
前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能／操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ
- Spacy
- 自然言語処理
- NLP
- python
- tutorial
Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる（パート１） - めもめも
- 32 users
- enakai00.hatenablog.com
- テクノロジー
- 2023/02/10
なんの話かと言うと最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきます。このパート1では、Embedding レイヤーを解説します。 JAX/Flax の使い方を学びたいという方は、こちらの書籍を参照してください。 JAX/Flaxで学ぶディープラーニングの仕組み作者:中井悦司マイナビ出版Amazon Transformer の全体像冒頭の論文では、Transformer Encoder と Transformer Decoder を組み合わせた下記のモデルが説明されています。左側の Encoder でテキストを解
- 機械学習
- あとで読む
グラフ機械学習のヘルスケア分野への応用の最前線 - Ridge-institute R&D Blog
- 32 users
- iblog.ridge-i.com
- テクノロジー
- 2021/01/25
こんにちは，株式会社Ridge-iのリサーチチームの@machinery81です．今回はグラフデータを扱う機械学習のヘルスケア分野への応用のお話を紹介します． TL;DR 機械学習・データマイニングの応用先としてのヘルスケア分野万能薬から精密医療へ電子カルテ創薬患者調査ヘルスケア分野を繋ぐグラフマイニンググラフ上の機械学習古典的なアプローチグラフの統計量に基づく手法ランダムウォークに基づく手法行列因子分解／テンソル因子分解に基づく手法 Graph Neural Network Graph Convolutional Network 創薬分野へのグラフデータの応用ターゲットの識別分子特性予測グラフマイニングによる既存薬再開発薬品と疾患の相互作用の分析 Combination repurposing 今後の見通しその他の話題さいごに参考文献 TL;DR 機械
詳説 Deep Learning
- 32 users
- www.oreilly.co.jp
- テクノロジー
- 2019/07/26
エンタープライズ向けのディープラーニングの解説書。企業でディープラーニングアプリケーションを開発、運用するための実践的な手法を紹介します。対象読者はソフトウェア開発の現場で活躍する実務者。前半はディープラーニング初心者、後半はJavaエンジニア向けの構成です。機械学習、ニューラルネットワークの基礎から始め、ディープラーニングの基本的な概念、実際にチューニングを行う際のベストプラクティス、データのETL（抽出・変換・ロード）の方法、Apache Sparkを用いた並列化について、JavaライブラリDeep Learning4J（DL4J）の開発者でもある著者がわかりやすく丁寧に解説します。日本のAIコミュニティの方々へ監訳者まえがきまえがき 1章　機械学習の概要 1.1　学習する機械 1.1.1　機械が学習するには 1.1.2　生物学というヒント 1.1.3　ディープラーニングとは 1
- AI
- あとで読む
ベクトル検索（近似最近傍探索）でいい感じの MoreLikeThis を実現する | by mocobeta | Medium
- 31 users
- mocobeta.medium.com
- テクノロジー
- 2019/12/23
この記事は，「情報検索・検索エンジン Advent Calendar 2019」23日目のエントリーです。モノは生煮えですが，背景含めて頑張って説明したいと思うので，ご容赦ください…。目次 Apache Lucene とはLucene にベクトル検索を実装してみたベクトル検索版 MoreLikeThisUnsolved issues（積み残し）雰囲気だけ知りたいという方は，「ベクトル検索版 MoreLikeThis」のところだけ眺めると良いかもしれません。 Apache Lucene とは Apache Lucene は，ピュア Java で書かれた，高速・スケーラブルな検索エンジンライブラリです。OSS 検索エンジンとして人気の高い Elasticsearch や Solr のコアエンジンとして使われているため [1]，検索システムに携わっている方なら，名前は聞いたことがあるかもしれ
- solr
- search-engine
- elasticsearch
- 検索
- あとで読む
- AI
- web
- knn
機械学習のライブラリ・プラットフォームをいくつか試した所感まとめ - RAKUS Developers Blog | ラクスエンジニアブログ
- 31 users
- tech-blog.rakus.co.jp
- テクノロジー
- 2020/04/08
こんにちは、開発エンジニアの amdaba_sk（ペンネーム未定）です。ラクスの開発部ではこれまで社内で利用していなかった技術要素を自社の開発に適合するか検証し、ビジネス要求に対して迅速に応えられるようにそなえる「開（か）発の未（み）来に先（せん）手をうつプロジェクト（通称：かみせんプロジェクト）」というプロジェクトがあります。この記事はかみせんプロジェクト2019年度下期成果報告ブログの一つです。前回の成果報告では「機械学習プロジェクトの進め方」について検証した結果のまとめをしました。今回は「じゃあ実際に機械学習をやることになったら、どんなライブラリ、サービスを使えばいいの？」といったところの検証結果をまとめようと思います。対象読者は前回と違って、機械学習に興味のあるエンジニアの方です。なお今までの記事はかみせんカテゴリからどうぞ。 tech-blog.rakus.co.jp
テキストデータのかさましを実装する - 一休.com Developers Blog
- 31 users
- user-first.ikyu.co.jp
- テクノロジー
- 2021/07/27
はじめにデータサイエンス部の平田です。ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし（augmentation）を行うことがあります。画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement：文中の単語の内n個、同義語に置き換える Random Insertion：文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand
クックパッドマートにおける item-to-item レコメンデーションの変遷 - クックパッド開発者ブログ
- 30 users
- techlife.cookpad.com
- テクノロジー
- 2022/10/05
こんにちは。研究開発部の深澤(@fufufukakaka)です。本記事ではクックパッドマートにおける item-to-item レコメンデーションについて、その概要とアルゴリズムの変遷についてお話したいと思います。 item-to-item レコメンデーションとはレコメンデーションにはいくつかタスクが存在しますが、今回はその中でも item-to-item レコメンデーションについてお話します。 item-to-item レコメンデーションでは、「ある商品について、その商品を軸におすすめできるアイテム」を表出します。表現の仕方はサービスによって様々ですが、よくこの商品を買っている人にはこちらもおすすめです , この商品に関連する商品などと表現されています。さて、その item-to-item レコメンデーションの中にも実は更に種類があります。それは商品間のスコア(距離,類似度,e
分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
- 30 users
- www.m3tech.blog
- テクノロジー
- 2021/06/07
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。情報検索論文読み会のスケジュールそこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書
- BERT
- nlp
- 機械学習
- search
- 自然言語処理
はてなサマーインターン2019 に参加していました - ふるつき
- 28 users
- furutsuki.hatenablog.com
- テクノロジー
- 2019/09/14
退屈と言える程　幸せじゃないけれど　不幸だと嘆く程　暇もない毎日 ――普通の人々専攻科1年ということもあり、そろそろこの先の人生をどう振るのか考えなければならない時期なので、業界や会社を見学する気持ちで、はてなサマーインターン2019に参加してきました。本エントリはその振り返りです。 developer.hatenastaff.com 応募とか講義パート中間発表実践パート最終発表その他最後に応募とか絶対に書いておかなければならないと思ったので書きます。今年はとにかくどこかの会社を見学しないと何も定まらないと思っていて、焦る気持ちもありながら色々な会社に応募したのですが、結局はてなともう1社だけに内定をいただきました*1。この2社はインターン生の選考にとてもリソースを割いていると感じていて、特にはてなはやばかったです。今年のはてなの1次選考では簡単なrot13を書く問題が
鹿児島工業高等専門学校で『AI基礎』の出張授業をやってきました - Pepabo Tech Portal
- 28 users
- tech.pepabo.com
- テクノロジー
- 2024/01/31
はじめにこんにちは、CTO室鹿児島エンジニアリングチームの@kurehajimeです。普段はカラーミーショップの決済周りの開発を行っているWebアプリケーションエンジニアです。 2024年1月17日、鹿児島工業高等専門学校(以下、鹿児島高専)に『AI基礎』というテーマで出張授業に行って来ました。自分はWebアプリケーションエンジニアなので、勉強会のハンズオンやOBとしての講演はともかく、学校で授業するというのは今回が初めての体験です。この記事では、授業内容を考えるうえで工夫した点などをまとめたいと思います。ターゲットとコンセプト授業をする上でまず考えたのは『ターゲット』と『コンセプト』です。今回のターゲット、つまり授業を行う対象は、鹿児島高専の機械工学科2年生です。機械工学科なので専門は機械系で、ネットで公開されているシラバスによれば『情報I』と『情報II』の授業は3年次か
Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita
- 28 users
- qiita.com/jovyan
- テクノロジー
- 2024/03/21
はじめに Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages という論文では、LLMの学習済み重みパラメータの足し引きによって、事前学習済みモデルに対話能力を与えることができるという結果が示されています。具体的には、英語で事前学習されたモデル（以下ではベースモデルと呼びます）と、ベースモデルを指示チューニング (instruction tuning)してチャット形式の対話ができるようにしたモデル（英語チャットモデル）、ベースモデルを英語以外の言語で継続事前学習したモデルの３つのモデルを用います。英語チャットモデルの重みからベースモデルの重みを引いたものは、チャット形式で対話ができる能力を表したベクトルであり、そのベクトルを
Deep Learning において，漢字はどの単位で分割・エンコードされるべきなのだろう？ - Qiita
- 27 users
- qiita.com/dcm_sawayama
- テクノロジー
- 2019/12/13
subcharacterに関しては，BERTやELMoといった文脈情報を扱える言語モデルでの検証はまだ少ないようで，さっと調べた感じだと見つけられませんでした。論文間にまたがって分割単位が同じ部分がわかるように，分割ごとに色合いを変えた図を作成しました(見易さを優先し，作成した図の次元サイズ等は簡略化しています)。論文リンクは下部の参考文献に記載しています。 1.Sub-character Neural language Modeling in Japanese (Nguyen et al.) 漢字の表現方法を部首(shallow)・さらに部首より小さい単位(deep)に分解。言語モデルは単方向のLSTM 言語モデルのパープレキシティーの良さの順は，shallow > deep > baselineとなった。論文内で紹介されている漢字の4つのデータセットを見ると，同じ漢字でもそれぞ
- 日本語
- あとで読む
- 言語
- ai
- 情報
Powered by AI: Instagram’s Explore recommender system
- 26 users
- ai.meta.com
- テクノロジー
- 2019/11/26
Over half of the Instagram community visits Instagram Explore every month to discover new photos, videos, and Stories relevant to their interests. Recommending the most relevant content out of billions of options in real time at scale introduces multiple machine learning (ML) challenges that require novel engineering solutions. We tackled these challenges by creating a series of custom query langu
今シンガポールにいますLineBotを作成し、記憶に残る仕事をしたい物語 - Qiita
- 26 users
- qiita.com/youwht
- テクノロジー
- 2019/12/06
「ごめん、同級会にはいけません」強烈なインパクトを持つこのCM。これが大好きなので、同級会に誘うと「今、シンガポールにいます」と返事を返してくれるLineBotを作ってしまいました。さらに、ドヤァ感をよりいっそう高める仕様をいろいろモリこみ、地図には残らなくても、使った人の記憶に残る仕事にしたいと思います！クソアプリ Advent Calendar 2019 の４日目です。と、書くまでもなくタイトルから漂うクソアプリ感使い方： ① 同級会を開く ② おもむろにLineを立ち上げ「綾乃、いまどこ？」と聞く ③ 「ごめん、同級会にはいけません～～～以下略」と返信が来る ④ 「え、シンガポールだって」という感じでみんなでのぞきこむ実行した時の様子： ※親切に、シンガポールの地図を示してくれる（地図に残る仕事）他にも形態素解析などの無駄な機能を満載。 LineBot作成のノウ
Professional Machine Learning Engineer試験対策マニュアル - G-gen Tech Blog
- 26 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/08/28
G-gen の佐々木です。当記事では Google Cloud（旧称 GCP）の認定資格の一つである、Professional Machine Learning Engineer 試験の対策や出題傾向について解説します。基本的な情報 Professional Machine Learning Engineer とは難易度試験対策機械学習の一般的な知識代表的な機械学習アルゴリズム評価指標回帰問題における評価指標分類問題における評価指標ヒューリスティック機械学習モデルの開発、運用における課題の解決データの前処理欠損値の処理カテゴリカル変数の扱い不均衡データの対策過学習の対策正則化早期停止トレーニングの改善ハイパーパラメータの調整トレーニング時間の改善交差検証モデルのモニタリングと改善スキューとドリフトモデルの軽量化手法 Google Cloud
- gcp
- 機械学習
- 資格
- あとで読む
- Google
- learning
- 学習
推薦システムにおけるニューラルネットワークの活用について読んだ論文をゆるくまとめる - Re:ゼロから始めるML生活
- 25 users
- www.nogawanogawa.com
- テクノロジー
- 2022/05/10
ここ数ヶ月くらい、推薦システムにおけるNNの活用というテーマで論文をちょこちょこ読んでいました。推薦システムにNNを適用・応用するという守備範囲も広いテーマではありますが、せっかく良い機会なので自分用にまとめてみたいと思います。理解が曖昧なところもあり、マサカリが飛んできそうな気配がプンプンしますが、がんばって書いてみたいと思います。マサカリコワイ... 前提知識協調フィルタリング Matrix Factorization Factorization Machine ニューラルネットワークの推薦システムへの応用の傾向 Feature EngineeringとしてのNN Wide & deep DeepFM DCN AutoInt DCN V2 系列データとして取り扱うNN prod2vec AttRec BERT4Rec Transformers4Rec 参考文献読んだ論文をまとめ
- 機械学習
- 論文
形態素解析の精度向上を頑張った話 - Leverages データ戦略ブログ
- 25 users
- analytics.leverages.jp
- テクノロジー
- 2021/06/23
はじめにこんにちは。データ戦略室データエンジニアリンググループの森下です。普段はデータエンジニアとして、主にデータ活用基盤の保守運用や機能追加、ツール開発やデータ抽出・可視化といった業務を行っています。もともと機械学習への興味はありましたが、本記事の内容以前では、業務で使用したことはありませんでした。今回、初めて機械学習の業務を経験する事ができ、非常に多くのことを学ぶことができました。本記事は未経験者の奮闘記となりますので、これから機械学習を学ぶ方・業務に活かす方にとって参考になれば幸いです。経緯についてデータエンジニアとしてデータ活用基盤の構築や保守運用をしていく中で、機械学習へのデータ活用は自然と考える部分です。しかし、書籍やチームの勉強会で機械学習について少しずつ学んではいるものの、業務で機械学習を使用したことはありませんでした。そのような状況の中で、機械学習の業務に携わり