並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 321件

新着順 人気順

言語処理の検索結果161 - 200 件 / 321件

  • 深層学習 DS-GA 1008 · 2020年度春学期 · ニューヨーク大学データ・サイエンス・センター

    概要 この講義では、深層学習や表現学習の最新技術について、主に教師あり・教師なし深層学習、埋め込み手法、距離学習、畳み込み・再帰型ニューラルネットワークや、それらを用いたコンピュータビジョン、自然言語処理、音声認識などの応用技術を取り扱います。 この講義は「DS-GA 1001 Intro to Data Science」あるいは大学院レベルの機械学習科目をすでに履修していることを前提とします。 講義 凡例: 🖥 スライド, 📓 Jupyter notebook, 🎥 YouTubeビデオ. 週 形式 タイトル 資料

    • ユーザー投稿型サイトのSEO対策

      Zennという技術情報共有サービスを運営しています。長期的にZennの流入経路の多くは「検索」になると予想しています。むしろ検索流入が多いサービスであるべきだと考えています。 具体的なソースコードや数式が並ぶ文章は、ソーシャルメディアではあまりシェアされません。ある程度抽象的な内容でないと、読者層が狭く、読み手も労力を必要とするからです。 (具体的な話を盛り込みつつ話題を集める文章を書けるスーパーな方もときどきいますが) しかし、いざ仕事で問題に直面したとき、自分を助けてくれるのは、たいてい具体的なコードを含む記事や実際に問題に直面した人によるニッチな体験談です。すぐに誰かに届くものではないけれど、後から同じ道を通った人は助かる… そんな先人の知恵がたくさん集まる場所になったらいいなと考えています。 SEOに関する情報収集源 本題に入る前に、僕が参考にしているSEO対策の情報源を紹介してお

        ユーザー投稿型サイトのSEO対策
      • 1つの HTML ファイルだけで完結する校正支援ツールの作り方

        こんにちは。LINEヤフー株式会社でテキストマイニングや自然言語処理などをやっている山下( @yto )です。 Yahoo!デベロッパーネットワークのテキスト解析 Web API が CORS(Cross-Origin Resource Sharing)対応したため、サーバがなくてもブラウザから直接 Web API にアクセスできるようになりました(参考)。 そのテキスト解析 Web API の機能の一つである「校正支援」は日本語文章の品質チェック(校正)を支援するもので、文字の入力ミス、言葉の誤用、わかりにくい表記、不適切な表現などが使われていないかをチェックして、指摘します(内部の辞書データをベースとしているため完全なものではないことをご承知おきください)。 この校正支援機能のサンプルプログラムとして「HTML ファイル1つだけで完結する校正支援ツール」を作ったので紹介します。入力され

          1つの HTML ファイルだけで完結する校正支援ツールの作り方
        • 読まないと後悔する技術書30選 - Qiita

          はじめに 現代の人に名著以外の本を読むような時間はない こんにちは、Watanabe Jin (@Sicut_study)です みなさんは何か新しい技術を学ぶときにどんなコンテンツを利用するでしょうか? 最近ではUdemyなどの動画講座を利用する人が多いと思いますが、本を読んで学ぶという人もまだまだ多いのではないかと思います 今回は私がこれまで5年間読んできた150冊以上の中から厳選した30冊の本を紹介します。広く多くの人に役立つものから、特定の技術の書籍までどれを読んでもあなたの大切な一冊になるのでぜひ読んでみてください 現代人には時間がない なぜ働いていると本が読めなくなるのかという本が話題になりました 現代人は本を読む時間がなくなっています。 仕事に追われてしまい、プライベートで本を読む暇などなくなっているのです。 しかし、エンジニアは「技術職」なのでプライベートの時間でも学習をして

            読まないと後悔する技術書30選 - Qiita
          • サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現―

            株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、独自の日本語LLM(Large Language Model、大規模言語モデル)を開発したことをお知らせいたします。 本モデルはすでに130億パラメータまでの開発が完了しており、当社が提供する「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにおいて活用を始めています。 近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMが世界的に注目を集めており、あらゆる業界において急速に活用が進んでいます。 一方、既存のLLMのほとんどは英語を中心に学習されており、現状では日本語および日本文化に強いLLMは少ない状況です。 このような背景のもと、このたび当社では日本語に特化した独自の大規模モデルを開発いたしました。当

              サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現―
            • 数式を使わないTransformerの解説(前編) - conceptualization

              2023/3/23 追記: こちら半年以上前に執筆したもので、その後私の理解も進んで内容的に更新したいところが結構あるため、近日中に非公開とさせていただき,更新後に再公開させていただくつもりです。現時点での本記事の内容は、大きく間違ってはいないけどちらほら微妙なところがあるという感じです。 (ざっくり理解するだけでも良いという人にはそれでも良いかもしれませんが、そういう方向けには 今執筆中のこちらの記事 をおすすめします。) −−−− 最近話題のmidjourneyやDALL-E、凄いですよね。中身はディープラーニング(DNN)のようです。DNNといっても色んな技術がありますが、それらにはTransformerという手法が使われています。本記事は、その手法がどんなものであるかを数式を使わずに説明してみよう、という主旨になります。 ※なお本記事は機械学習のプロの研究者ではない私の独自の解釈が

                数式を使わないTransformerの解説(前編) - conceptualization
              • 機械学習による株価予測 いろはの”ろ” - Qiita

                はじめに 前回記事「機械学習による株価予測 いろはの"い"」の公開後、筆者の機械学習モデルの獲得利益はめでたく1億を突破することができた。運用モデルの概要については筆者のブログにて紹介したが、折角の機会なので技術的な内容についてここに続編を執筆する。今回の記事では、株価を予測するための特徴量についてその考え方をまとめる。 特徴量の種類 個別銘柄を説明するための代表的なデータとは、財務諸表とチャート(価格系列)である。一昔前は個人投資家がこれらのデータを揃えるのにかなりの苦労が必要だった(特に財務諸表が面倒であった)が、最近ではQiitaでXBRL用のライブラリが紹介されていたり、バフェットコードでAPI(有料)が提供されていたりと、随分と手間要らずになってきたように思う。 個別銘柄を説明するための材料についてさらに進んだ話をすると、IRを自然言語処理に掛けてセンチメントを抽出したり、経営陣

                  機械学習による株価予測 いろはの”ろ” - Qiita
                • 再帰的な構造のデータの同値性判定はどうしたらいいか - 貳佰伍拾陸夜日記

                  数日前にTwitterで, JavaScriptのオブジェクトに対する===の挙動が初心者には難しいみたいな話を見かけた. 発端や周辺の議論をちゃんと追いかけてないからとくに出典は貼らない. たぶん元々の話は「へぇ, こういう挙動なんだ, 簡単ではないね」くらいの話だったのかもしれない. 自分のタイムラインの観測範囲では「そうだそうだ, (参照の同一性ではなく)同値性にしとけばいいのに」と思っている人もそれなりにいそうに見えた. 個人的にも同値性が簡単に確認できるとよい気はするものの, 「なんでそうしないんだ, オブジェクトの中身を確認していくだけだろ!」みたいな簡単な話ではないことも知っているため, 以下のようなツイートをしたのだった. JavaScriptのオブジェクトの同値性、再帰的な構造とか作るとぜんぜん自明じゃないんだよなぁ。リンクの構造は違うけどプロパティを辿ったときのパスはど

                    再帰的な構造のデータの同値性判定はどうしたらいいか - 貳佰伍拾陸夜日記
                  • あらためて学ぶOSの役割 - 「OSの気持ち」を知り、コンピュータをよりよく理解しよう |ハイクラス転職・求人情報サイト AMBI(アンビ)

                    あらためて学ぶOSの役割 - 「OSの気持ち」を知り、コンピュータをよりよく理解しよう パソコンを操作するうえで、欠かすことができないOS(オペレーティングシステム)ですが、あまりにも「あたりまえ」の存在ゆえ、その実像をイメージすることは多くはないでしょう。OSは「なにを」「どのように」処理しているのかを学ぶと、自身が使用するパソコンがもっとよく理解できるようなるかもしれません。内田公太さんが、OSの役割と働きの基本、そして「OSの気持ち」を理解するための方法を解説してくれました。 こんにちは、内田公太(@uchan_nos)です。 普段皆さんはパソコンを使っていろいろな処理をしていると思います。ネットサーフィンに文書作成、音楽を聴いたり絵を描いたり。この記事をお読みの方はプログラミングもしている方が多いと思います。 C言語の入門書で学ぶ最初のプログラムはだいたい printf("Hell

                      あらためて学ぶOSの役割 - 「OSの気持ち」を知り、コンピュータをよりよく理解しよう |ハイクラス転職・求人情報サイト AMBI(アンビ)
                    • UNIXシェルの並列化により最大34倍高速化する「PaSh」、米MITなどが開発 プログラム結果も正確

                      Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米ペンシルベニア大学、米MIT、ポーランドのXIV Staszic High School、米国の研究機関Aarno Labs、米Stevens Institute of Technologyによる研究チームが開発した「Practically Correct, Just-in-Time Shell Script Parallelization」は、UNIXシェルで実行されるプログラムの速度を精度を保証しながら劇的に加速させるシステムだ。 このシステムはUNIXシェルにおいて、スクリプトを先読みして並列化を行う。これによりプログラム結果を正確な上で最大34倍高速化し、Webインデックスや自然

                        UNIXシェルの並列化により最大34倍高速化する「PaSh」、米MITなどが開発 プログラム結果も正確
                      • AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情

                        Deepfakes of Chinese influencers are livestreaming 24/7 AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情 中国で真夜中のライブ配信を見ると、熱心に商品を売り込むストリーマーの姿が目立つ。だが実はこのストリーマー、わずか数分の動画からAIが生成したもので、24時間年中無休で働き続けることができる。 by Zeyi Yang2023.09.21 211 19 中国で最も人気のあるEコマース・プラットフォームであるタオバオ(Taobao:淘宝)のライブ配信映像を午前4時にスクロールしてみると、奇妙なほどに活況を呈している。ほとんどの人が熟睡しているこの早朝の時間帯に、多くの熱心なストリーマー(配信者)がカメラに向かって商品を紹介し、割引価格で販売している。 しかし、よく目を凝らすと、これらのライブ配信インフルエンサー

                          AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情
                        • iOS向け日本語キーボードアプリ「azooKey」をOSSにした

                          2年半近く趣味として個人開発してきたiOS・iPadOS向けの日本語キーボードアプリ「azooKey」をオープンソース化しました。ライセンスはMIT Licenseです。 azooKeyは2年前からApp Storeで無料で公開し、開発を続けてきました。日本語対応のiOS向けキーボードアプリには、Simeji、Flickなど多くの先輩がいますが、標準キーボード志向で高機能なOSSとしては初めてのものではないかと思います。 技術的な特徴 azooKeyの技術的特徴としては、変換エンジンの独自実装、ライブ変換のサポート、独自に調整した辞書、強力なカスタマイズ機能などがあります。 IME開発の特色は幅広い技術的課題を扱えることにあります。競プロ的なアルゴリズムとデータ構造の問題もあればNLP的な話やGUIのデザインの問題もあり、めっちゃ楽しいです。 なお、azooKeyは全てSwiftで実装され

                            iOS向け日本語キーボードアプリ「azooKey」をOSSにした
                          • Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita

                            0、はじめに マッチングアプリで機械学習エンジニアをやっているはやとと言います。今回は「Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なもの、やって感じたこと」について書いていこうと思います。 「Web系企業で機械学習エンジニアやってみたい!」「組織としてデータ分析や機械学習をやり始めたいけど何からやったらいいかわからない!」という方も多くいるでしょう。 Web系企業での機械学習エンジニア・データサイエンティストの動きはメルカリのブログとか本でよく見ます。しかし、まだ規模があまり大きくない会社における機械学習エンジニア・データサイエンティストの記事や本は一切見当たらず、また、立ち上げ(そんな大げさな言葉を使っていいのか分かりませんがw)の話が書いてあるものは見たことがないです。そのため、もしかしたら日本で初めての記事になるのではないかなと考えてワクワクしながら書い

                              Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita
                            • PythonとType Hintsで書くバックエンド | メルカリエンジニアリング

                              こんにちは、AIチーム所属の@shidoです。CRE (Customer Reliability Engineering) 領域でMLを扱っています。 みなさんはPythonで本番コードを書くことについてどうお考えでしょうか。「研究/分析以外には使いたくない」「遅い」「動的型付け言語を本番用に使いたくない」といった声が聞こえてきそうです。 しかしながら機械学習サービス(または機械学習サービスのためのサービスなど)を作りたい場合、「学習に利用したPython用のライブラリを使用したい」「Pythonでやっていた分析と同じことを本番環境内でもやりたい」など、Pythonでバックエンドを実装したくなることがあると思います。 この記事ではtype hintsを付けながらPythonを書くことで、GoやJavaのようなサーバーサイドでよく使われる言語と可読性や保守性、場合によっては型安全性も同じレベ

                                PythonとType Hintsで書くバックエンド | メルカリエンジニアリング
                              • プロと読み解くRuby 2.7 NEWS - クックパッド開発者ブログ

                                技術部の笹田(ko1)と遠藤(mame)です。クックパッドで Ruby (MRI: Matz Ruby Implementation、いわゆる ruby コマンド) の開発をしています。お金をもらって Ruby を開発しているのでプロの Ruby コミッタです。 去年の記事「プロと読み解く Ruby 2.6 NEWS ファイル」に続き、今年も本日 12/25 リリース予定の Ruby 2.7 の NEWS ファイルの解説をしてみようと思います。NEWS ファイルとは何か、というのは去年の記事を見て下さい。 実は最近、NEWS ファイルを読みやすくしよう、と例を入れたりしていて、以前のものに比べて読みやすくはなっています(英語だけど)。記事中のコードも、NEWS ファイルから引用しているものがあります。本記事では、変更の解説に加え、執筆者らが開発に携わっているということを活かして、「なぜ変更

                                  プロと読み解くRuby 2.7 NEWS - クックパッド開発者ブログ
                                • 自然なブログを書いてしまうほど超高精度な言語モデル「GPT-3」はどのように言葉を紡いでいるのか?

                                  OpenAIが開発する「GPT-3」は、ほとんど違和感のないブログ記事を生成できてしまうほど高い精度を誇る言語モデルです。そのGPT-3がテキストを生成する仕組みについて、オンライン学習プラットフォーム「Udacity」でAIや機械学習関連の講座を持つJay Alammar氏が解説しています。 How GPT3 Works - Visualizations and Animations – Jay Alammar – Visualizing machine learning one concept at a time. https://jalammar.github.io/how-gpt3-works-visualizations-animations/ The Illustrated GPT-2 (Visualizing Transformer Language Models) – Ja

                                    自然なブログを書いてしまうほど超高精度な言語モデル「GPT-3」はどのように言葉を紡いでいるのか?
                                  • コロナ禍での転職活動(データエンジニア)についてのメモ - yasuhisa's blog

                                    Twitterでは先に言っていましたが、現職のはてなを3月末で退職します。3/19が最終出社日でした。はてなでの思い出はこちらに書きました。 そのため、転職活動をしたわけですが、コロナ禍での転職活動は平常時と異なる部分も結構ありました。また、データエンジニアとしての転職は初めての経験でした。誰かの参考になるかもしれないので、私が考えたことや感じたことをメモ書きとして残しておきます。 在宅勤務と就業可能な地域 Web上でのアウトプット データエンジニアという職種の多様性 転職にあたって重視したこと 魅力に感じた点 当然、不安もある 在宅勤務と就業可能な地域 カジュアル面談させてもらった企業さんは、ほぼ在宅勤務に移行済みだった 隔週や月一で物理出社という会社も半々くらい? 緊急自体宣言が出ていない時期(夏〜秋)にカジュアル面談させてもらったので、今は状況が違うかも カジュアル面談、採用面談もz

                                      コロナ禍での転職活動(データエンジニア)についてのメモ - yasuhisa's blog
                                    • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                                      前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                                        WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                                      • さようならElasticsearch、よろしくElastic Cloud - Nota TechConf

                                        by yuiseki yuiseki.icon 2022/5/19 20:25 - 20:40 (明らかに15分で収まる内容の資料ではないですが、資料はモリモリで発表はスカスカでもScrapboxで盛り上がれるか、という仮説の検証を兼ねています) yuisekiですyuiseki.icon Gyazoのプロジェクトマネージャー兼ソフトウェアエンジニアです 本日お集まりいただいたみなさん、ありがとうございます 本日お集まりいただいたみなさん ノバウサギ…?nyanco.icon ユニコーンガンダム…?issac.icon タイマーちゃん!takker.icon 12年間運用を続けているB2C SaaSの検索インフラの実態(14分まで、1分間) Gyazoは2021年、「画像の瞬間発見」をテーマに、検索に力を入れていた Nota Tech Conf 2021 Springでのyuiseki.i

                                          さようならElasticsearch、よろしくElastic Cloud - Nota TechConf
                                        • Javaエンジニアだった私が当時困ったRustのコンセプト - paild tech blog

                                          お手伝いの @helloyuki_ です。今回はポエムです。 今回は、Rust を始めた当時、プログラミング言語は Java しかまともに触ったことがない新米若手 Java エンジニアだった私[*1]が「見たことがなく、使いどころがわからなく理解が難しい」と感じたポイントについて紹介します。対象とするソフトウェアのレイヤーが低いか高いかを問わず、とにかく Rust をやってみて理解するまでに時間がかかり、難しいと感じたポイントについて紹介します。 Rust の「メモリ安全」って、結局何 所有権とライフタイム 参照 スマートポインタ 代数的データ型 関数が第一級である モジュールシステム self 型クラスという側面でのトレイト まとめ 私が Rust をある程度使いこなせるようになるまでの話 「難しい」って何?、の話 Rust の「メモリ安全」って、結局何 そもそも論ですが、Rust が取

                                            Javaエンジニアだった私が当時困ったRustのコンセプト - paild tech blog
                                          • 事業継続のためにPHPを使ったサービスを継続的に進化させていくこと - BASEプロダクトチームブログ

                                            BASE株式会社取締役 EVP of Development / PAY株式会社取締役 / BASE BANK株式会社マネージャのえふしんです。 新型コロナによる非常事態宣言下で起きたことについては、大変勉強をさせていただきました。 非常事態宣言下の巣ごもり消費、リアル店舗等でご活躍されている事業者様のEC利用が急増する中で、BASEにおいても例外ではなく、サービスに訪れるトラフィック急増、4月から5月の頭にかけては、サービスの安定性にも影響が出てしまうという状況が発生していました。 その中で起きていた一つの事象を解決した件が以下のCTOによる記事です。 devblog.thebase.in この記事はCTOやSREチームやWebアプリケーションのエンジニアの活躍で、負荷急増の問題解決をした一つの事例となります。 この対策を通じて、改めて認識したことがあります。 それは、 BASEに訪れる

                                              事業継続のためにPHPを使ったサービスを継続的に進化させていくこと - BASEプロダクトチームブログ
                                            • Anond AI開発日記 - Hatena Developer Blog

                                              こんにちは。Anond AIを研究している id:cockscomb です。 私たちはこの度、このAI時代を制するプロダクト、Anond AIを開発しました。本エントリではその詳細について説明します。 Anond AIとは Anond AIはいわゆるGenerative AIで、人類が匿名で日記を書くことをアシストしてくれるものです。私たちは日記に芸術性を感じる文化を持っていて、「日記文学」という言葉もあります。Generative AIによって、名前を隠して楽しく日記を書くことをサポートし、匿名日記文化のさらなる発展に寄与できないか、と考えました。 Anond AIは、rinna/japanese-gpt2-mediumをはてな匿名ダイアリーのデータを用いてファインチューニングし、ドメイン適応させたものです。 Anond AIの開発 Anond AIは実験的なプロダクトのため、Hatel

                                                Anond AI開発日記 - Hatena Developer Blog
                                              • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

                                                毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

                                                  2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
                                                • アリババ、新型肺炎の新たなAI診断技術を開発 正確度96% 中国(CNS(China News Service)) - Yahoo!ニュース

                                                  【CNS】人工知能(AI)が新型コロナウイルスによる肺炎との闘いで「新兵器」になりつつある。阿里巴巴(アリババ、Alibaba)は15日、アリババ系研究機関の「達摩院(DAMO)」が、クラウドサービスを主業務とする阿里雲(Alibaba Cloud)と共同で、新型肺炎に関する新しいAI診断技術を開発したことを明らかにした。 【写真】CT画像を分析する医療関係者 このAIは、新型肺炎の疑いがある患者のCT画像を20秒以内に判読できる。分析結果の正確度は96%に達し、診断効率を大幅に引き上げることが可能だ。16日より運営を開始した河南省(Henan)鄭州市(Zhengzhou)の「小湯山(Xiaotangshan)医院」では、このアルゴリズム補助による臨床診断を導入済みという。 新型肺炎の流行初期では、確定診断のサンプル数が少なく、医療機関では高水準の臨床診断データが不足していたため、核酸検査

                                                    アリババ、新型肺炎の新たなAI診断技術を開発 正確度96% 中国(CNS(China News Service)) - Yahoo!ニュース
                                                  • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

                                                    PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

                                                      Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
                                                    • Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita

                                                      Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 作ったもの DLsiteの新作音声作品をクローリング -> 好みかどうか推論 -> 好みならSlack通知をするシステムを完全サーバーレス(AWS SAM)で構築しました。さらなる精度向上のため、Slackメッセージのボタンをもとに教師データを蓄積する処理も作りました。 デモ(ぼかしMAX) とてもわかりにくいですが、好みであろう作品がPOSTされているSlackの画面です。各メッセージについている「興味あり!」「別に…」ボタンを押すとLambdaが起動し、DynamoDBに新たな教師データとして保存されます。 なぜ作ったのか DLsiteが好き、以上。 ・・・ もう少し真面目に書くと、 会社でテキストデータに触れることが多いので、うまく扱えるようになりたい 音声作品はシチ

                                                        Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita
                                                      • JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。

                                                        はじめに 明けましておめでとうございます。 (一週間遅れ) この記事はJavaScriptの組み込みAPI Intl の紹介と解説です。 Intl とは? MDN から引用すると Intl オブジェクトは、 ECMAScript の国際化 API の名前空間で、言語に依存した文字列の比較、数値の書式化と、日付の書式化を提供します。 Intl オブジェクトは、いくつかのコンストラクターに加え、国際化コンストラクターや他の言語に関する関数に共通する機能へのアクセスを提供します 用はi18nの書式版です。 例を出すより見たほうが早いので実際に機能解説します。 (先に言っておきますが、実はこれバックエンド無しで自然言語処理が出来る優れものです。) 用語解説 localesって何?そもそもnewって何?って人がいるかもしれないので locales https://developer.mozilla.

                                                          JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。
                                                        • GoogleやBingの検索結果にChatGPTを表示させる拡張機能「ChatGPT for Search Engines」

                                                          OpenAIのChatGPTは高度な自然言語処理モデルを利用した対話型AIで、文章を入力するとまるで人間が書いたような自然な文章を返してくれます。これまでの検索エンジンでは検索クエリに複数の単語を入力する必要がありましたが、このChatGPTを応用すれば、調べたいことを直接文章で入力することでより適切な検索結果を示す次世代の検索エンジンが可能になると期待されています。そんなChatGPTの回答を実際にGoogleやBingなどの検索結果に表示させる拡張機能「ChatGPT for Search Engines」が、Chrome・Firefox・Edge向けにリリースされています。 ChatGPT for Search Engines https://chatonai.org/ ChatGPT for Search Enginesを利用するには、あらかじめChatGPTにアカウントを作成して

                                                            GoogleやBingの検索結果にChatGPTを表示させる拡張機能「ChatGPT for Search Engines」
                                                          • Lispを実装したくなったら読んでほしい本6選 - Arantium Maestum

                                                            言語実装 Advent Calendar 2022の1日目の記事として書いた。 Lisp Advent Calendar 2022でも枠が空いていたのでダブル投稿。 プログラミング言語を実装してみたい!と思ったらまずは簡単なLispインタプリタから始めるというのは一つの王道だと思う。 複雑な構文解析は要らず最低限の再帰下降法パーサで手に入る構文木を、そのまま再帰的な関数で実行していくtree walking評価器。メモリ確保もヒープにそのまま置いていって、メモリ解放は実装言語のGCに任せるなりプログラムの終了時までやらなかったり。そんなインタプリタを作る経験から得られるものは非常に大きく、どんなプログラマでも一回は試してみてもいいのではないか?と思っている。(個人的な感想です) そんな簡易Lispを実装してみて沼にハマってしまい、より精緻な言語処理系を作りたいと思ったとする。その時点で:

                                                              Lispを実装したくなったら読んでほしい本6選 - Arantium Maestum
                                                            • 日本語に特化した13億パラメータのGPT言語モデルを公開|rinna株式会社

                                                              ~商用利用可能なライセンスで日本語のNLPコミュニティに貢献~ rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna社)は、日本語に特化した13億パラメータのGPT言語モデルを開発し、公開しました。 ■背景 rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (3.3億パラメータ) やBERT (1.1億パラメータ) の事前学習モデルを公開し、多くの研究・開発者にご利用いただいています。最近のNLPに関する研究では、モデルのパラメータ数が多いほど高い性能であることが知られています。 そこでrinna社は、これまでに公開してきたモデルより大規模な13億パラメータを持つ日本語に特化したGPT言語モデルを開発し、日本語のNLPコミュニティに貢献するために、この言語モデルをNLPモデルライブラリ Hugging Face に商用利用可

                                                                日本語に特化した13億パラメータのGPT言語モデルを公開|rinna株式会社
                                                              • ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森

                                                                グラフ理論と隣接行列 グラフ理論は点と線で物事を表す理論です。たとえば駅の路線図では下記のように駅を点、路線を線で表します。 東京メトロホームページより 上記の路線図では「駅と駅が隣接するかどうか」を中心に取り扱う一方で、それぞれの位置や方角などは厳密に再現はされません。このように、「隣接するかどうか」のみに着目して物事を表す際の理論を「グラフ理論」といいます。 グラフ理論では点をノード(node)、線をエッジ(edge)、全体をグラフ(graph)と定義します。数式で表すと$G = (V,E)$のように表しますが、$V$が頂点のVertice、$E$がEdge、$G$がGraphであるとそれぞれ解釈すると良いです。 グラフの表記法に関しては主に$2$通りあり、「①図を用いる」と「②隣接行列を用いる」をそれぞれ抑えておくと良いです。例があるとわかりやすいので下記のWikipediaの例を元

                                                                  ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森
                                                                • GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例

                                                                  こんにちは。わいけいです。 今回の記事では、生成AI界隈ではかなり浸透している RAG について改めて解説していきます。 「低予算で言語モデルを使ったアプリを開発したい」というときに真っ先に選択肢に上がるRAGですが、私自身もRAGを使ったアプリケーションの実装を業務の中で何度も行ってきました。 今回はその知見をシェア出来れば幸いです。 RAG(Retrieval-Augmented Generation)とは まず、 そもそもRAGとは何ぞや? というところから見ていきましょう。 RAG(Retrieval-Augmented Generation) は自然言語処理(NLP)と特に言語モデルの開発において使用される技術です。 この技術は、大規模な言語モデルが生成するテキストの品質と関連性を向上させるために、外部の情報源からの情報を取得(retrieval)して利用します。 要は、Chat

                                                                    GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例
                                                                  • rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

                                                                    rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

                                                                      rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
                                                                    • 【2024年】ITエンジニア本大賞まとめ

                                                                      アジャイルプラクティスガイドブック チームで成果を出すための開発技術の実践知 チーム・組織にプラクティスを導入し、根付かせるために! 116の手法を一冊にまとめた“実践”の手引き チームでのアジャイル開発には、開発技術やツールなどの「技術プラクティス」の活用が重要です。 プラクティスはそれぞれの目的や役割を意識することで効果を発揮します。しかし、目まぐるしく状況が変化する開発では、当初の目的を忘れて、プラクティスに取り組むこと自体が目的化してしまうチームも少なくありません。 本書は、チーム・組織でアジャイル開発に取り組んできた著者が、プラクティスの効果的な選択・活用のしかたについて、自らの実践経験に基づいてまとめたガイドブックです。 架空の開発現場を舞台にしたマンガとともに、チーム開発の様々なシーンで役立てられるプラクティスを、幅広くかつわかりやすく解説しています。開発現場に備えておけば、

                                                                        【2024年】ITエンジニア本大賞まとめ
                                                                      • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                                                        LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                                                          歴代チャットボットと最近のLLMのまとめ - Qiita
                                                                        • GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z

                                                                          Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。 GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。 ただし値段はChatGPT APIの10倍。元に戻った感じ。 これはどっちを使うべきか結構悩むぞ。 こんな感じで呼ぶ % curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer APIKEY'\ -d '{ "model": "gpt-4", "messages": [{"role": "user", "content": "宮崎駿について"}], "temperature": 0.7 }'答えはこ

                                                                            GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z
                                                                          • 「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開

                                                                            株式会社ANOBAKAは、直近の大規模言語モデル(LLM:Large Language Models)の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル(LLM)カオスマップ」2023年度6月版を公開したと発表した。 大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルだ。2022年11月に発表され大きな話題となったChatGPTも、2022年初頭にトレーニングした「GPT-3.5シリーズ」を対話向けにファインチューニングしたものであり、大規模言語モデルの応用例の一つだ。 米国同様、日本でも今後アプリケーションレイヤーのGenerative AIスタートアップが多数勃興することが予測されるという。アプリケーションレイヤーのGenerative

                                                                              「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開
                                                                            • 推薦システムにおいて線形モデルがまだまだ有用な話 | CyberAgent Developers Blog

                                                                              本記事は、CyberAgent Advent Calendar 2022 19日目の記事です。 目次 はじめに 問題設定 協調フィルタリングのための線形モデル iALS EASE 関連する非線形モデル 実務活用 おわりに はじめに メディア DSC所属の機械学習エンジニアで、タップルの推薦システムを担当している橋爪 (@runnlp)です。 最近、推薦システムを触り始めました。推薦手法は、協調フィルタリング、コンテンツベース、ハイブリッドなど様々ですが、今回は昔から今に至るまで長く使われている協調フィルタリングについてです。 協調フィルタリングではDeep系のモデルがたくさん出る中で、RecSys2022で発表された論文では10年以上前から使用されている線形モデル(iALS)がDeep系のモデルに匹敵する結果であると報告されており興味深いです。また、推薦システムを開発するにあたって、問題設

                                                                                推薦システムにおいて線形モデルがまだまだ有用な話 | CyberAgent Developers Blog
                                                                              • Pythonについて思うこと | 雑記帳

                                                                                みなさん、Pythonは好きですか? この記事では、私がPythonという言語とそのエコシステムについて思うところを書いていきます。全体を通したストーリーみたいなのはなくて、トピックごとに書いています。 私のPython経験は3年弱です。Pythonについてまだまだ新米だという自覚はありますが、そこは有り余る才能でカバーしてこの記事を書いています。 静的型 Pythonには静的型がありません。型ヒントはありますが、インタープリターにとっては飾りにすぎません。 mypyとかの型チェッカーはありますが、「それさえあれば万事ハッピー」なものではなく、既存のコードを適宜書き換えないと型チェッカーでまともな結果を得るのは難しそうです。型検査を念頭に書かれていない(型ヒント付きの)コードをそのままmypyにかけても大量のエラー・警告が出てくるでしょう(ちなみに、型ヒントなしの関数はmypyのデフォルト

                                                                                • 心の中の声が聴こえない?「無内言症」とその影響 - ナゾロジー

                                                                                  「内なる声」なしで生きる人々がいる内なる声、または内言(inner speech)は、私たちが心の中で行う自己対話のことを指し、他人とコミュニケーションをとるために発する言葉は「外言」として区別されています。 マンガにおいては「吹き出し」として表記される言葉が外言、心の声(モノローグ)として記載される部分が内言と言えるでしょう。 認知科学において内言は計画、問題解決、自己反省、感情の調整など、多くの認知活動に関与し、私たちが日常生活で意思決定を行い、感情を整理し、社会的状況に適応するのを助けてくれていると考えられています。 また、外国語をコミュニケーションに使用するためには、一定期間内なる声を用いて練習する必要があり、この内なる声が効果的に使えるようになって初めて、第二言語の習得が進むと言われています。 これまでの内なる声に関する研究でも、内なる声は前頭前野と側頭葉の特定の領域で生成される

                                                                                    心の中の声が聴こえない?「無内言症」とその影響 - ナゾロジー