並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 830件

新着順 人気順

コーパスとはの検索結果41 - 80 件 / 830件

  • Wordleの漢字バージョン「漢字ル」を作った - 詩と創作・思索のひろば

    漢字ル こういうやつです。ぜひトライしてみてくださいね。 プロトタイピングのつもりができてしまった! 漢字版 Wordle。激ムズ 漢字ル 1 8/20 ⬜⬜🟥🟧 ⬜🟥⬜⬜ ⬜⬜⬜⬜ ⬜⬜⬜⬜ 🟥🟥⬜⬜ 🟧⬜🟥⬜ 🟩⬜⬜⬜ 🟩🟩🟩🟩https://t.co/jgITM4Edb4 pic.twitter.com/oQLiWL8kun— 美顔器 (@motemen) 2022年2月2日 本家の Wordle を知らない人向けに解説すると、四字熟語当てクイズです。指定された回数のうちに当てないといけませんが、試行のたびに文字が合っているかどうかを教えてくれるので、絞り込みながら推理していきます。 漢字ルの独特なところは、文字単体だけではなく、漢字を構成するパーツ単位でもヒントが出るところ。以下のように、「匕」「耂」といったパーツが(たとえば「老」に)マッチしているようなヒ

      Wordleの漢字バージョン「漢字ル」を作った - 詩と創作・思索のひろば
    • Google Cloud、ジェネレーティブ AI を 開発者、企業、政府に提供 | Google Cloud 公式ブログ

      ※この投稿は米国時間 2023 年 3 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。 ジェネレーティブ AI は、インタラクティブなマルチモーダル体験の新しい波の到来を告げるものであり、情報、ブランド、そして互いとの関わり方を変えるものです。Google Cloud は、AI に対する Google の数十年にわたる研究、革新、投資の力を活用し、企業や政府に対して、シンプルな自然言語のプロンプトからテキスト、画像、コード、動画、音声などを生成する機能を提供します。 この技術の可能性を実現することは、すべての開発者、企業、政府の手にこの技術が提供されることを意味します。これまで、組織がジェネレーティブ AI にアクセスすることは難しく、カスタマイズはおろか、時には信頼を損ないかねない不正確な情報が生成されることもありました。10 年前、企業や開発者が新しい

        Google Cloud、ジェネレーティブ AI を 開発者、企業、政府に提供 | Google Cloud 公式ブログ
      • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

        こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま

          ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
        • 自然言語ライブラリ「wordfreq」がAIで汚染され更新不可能になったと作者が報告

          さまざまなデータベースをもとに、自然言語の使用頻度を調べるためのPythonライブラリが「wordfreq」です。そんなwordfreqが、「AIで汚染され更新不可能となってしまった」と開発者のRobyn Speer氏が報告しています。 wordfreq/SUNSET.md at master · rspeer/wordfreq · GitHub https://github.com/rspeer/wordfreq/blob/master/SUNSET.md wordfreqがデータベースとして利用しているのは、2021年までにオンライン上で公開されていた自然言語のスナップショットです。しかし、「2021年以降、人間の使用言語に関する信頼できる情報を持っている人がいなくなった」ことを理由にwordfreqを更新することができなくなったとSpeer氏が報告しました。 記事作成時点で、インター

            自然言語ライブラリ「wordfreq」がAIで汚染され更新不可能になったと作者が報告
          • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

            特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

              公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
            • 【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW

              最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを

                【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW
              • 28歳、一念発起して未経験からデータサイエンティストを志した2年間の軌跡 - Qiita

                はじめに 経済産業省の試算によるとAIやビッグデータといったデータサイエンティストが関わる分野では2020年に4.8万人が不足すると言われています。 まだまだ、世の中的に需要があり、将来性のある職業ですので、これから目指そうと思われている方も少なくないのではないでしょうか。 私も時代の流れに乗って、データサイエンティストを目指した人の一人です。 「一念発揮して未経験からデータサイエンティストを目指した普通の社会人が、2年後どのような姿になったのか?」 ということに、少しでも興味のある方に読んで頂けましたら幸いです。 そもそもデータサイエンティストとは データサイエンティストは大きく分けて2種類あると考えています。 企業の課題解決のために大規模データを分析し、その結果をもとに状況の改善をすべく施策立案を行うデータアナリスト・コンサルタント寄りのDS サービスに機械学習を用いた機能を実装したり

                  28歳、一念発起して未経験からデータサイエンティストを志した2年間の軌跡 - Qiita
                • MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog

                  こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。 github.com 本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。 自然言語処理の要素技術に興味のある方 データ構造・アルゴリズムに興味のある方 Rustでの自然言語処理に興味がある方 Vibratoについて 最小コスト法による形態素解析 単語ラティスの構築 最小コスト経路の計算 高速化の取り組み 辞書引きのキャッシュ効率化 実装での注意点 連接コスト参照のキャ

                    MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog
                  • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

                    はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

                      大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
                    • iPhoneの自撮りで本物そっくりな動く3Dリアルアバター 米Metaが技術開発

                      Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米MetaのReality Labsの研究チームが開発した「Authentic Volumetric Avatars from a Phone Scan」は、スマートフォンで自撮りした短時間のスキャン画像から、本物そっくりの3D頭部アバターを生成するシステムだ。異なる視点やフォトリアリスティックな表情を表現し、高い忠実度で再現する。 現在、実在する人物のアバターを作成するためには膨大な人物データを取得する必要があり、そのデータを収集するには大規模なマルチビューキャプチャーシステムを必要とする。そのため軽量なデータキャプチャー、低遅延、許容できる品質でのアバター作成プロセスを自動化することが

                        iPhoneの自撮りで本物そっくりな動く3Dリアルアバター 米Metaが技術開発
                      • メンタルレキシコンとは?わかりやすく解説・心理学との関係 英語学習への効果とは? - ポリグロットライフ | 言語まなび∞ラボ

                        はじめに 今回はメンタルレキシコンについてわかりやすく解説していきます。メンタルレキシコンとは、どのような意味や性質を持ち、学ぶ意義は何なのかを考えていきます。心理学との関係や英語学習及び語彙学習への効果についても考えていきます。メンタルレキシコンを正しく理解して、正しい効率的な語彙学習をぜひ取り入れてみてください。 ↓↓第二言語習得研究に基づく英語学習動画をアップしていきます。 www.youtube.com メンタルレキシコンとは? メンタルレキシコンの意味 メンタルレキシコンの性質 メンタルレキシコンを学ぶ意義 メンタルレキシコン内の語彙知識モデル 階層的ネットワークモデル 活性化拡散モデル 母国語のメンタルレキシコン 子供の語彙の増加 即時マッピング 第二言語学習への示唆 バイリンガルの語彙発達 バイリンガルの言語的特徴 バイリンガルレキシコン メンタルレキシコンと心理学 二重符号

                          メンタルレキシコンとは?わかりやすく解説・心理学との関係 英語学習への効果とは? - ポリグロットライフ | 言語まなび∞ラボ
                        • NISAは「ニーサ」なのか「ナイサ」なのか - 詩と創作・思索のひろば

                          [B! togetter] アメリカのVTuberさんが『日本人はカスコー(Costco)のことをコストコって言うんやで 発音かわゆす』みたいなお話をなさっていた「tを読まないんか」 このブコメに「NISAも英語読みならniceのようにナイサと呼ぶべき」というものがあり、それは違うんじゃね? と直感的には思ったものの、そんなに説明できる感覚でもないなと思ったので調べてみた。 結論としては「ニーサ」で問題はないだろうと思う。 英単語を構成する文字のうち子音をC、母音をVで表すことにする(一般的な表記のようです)。ここでは「CiCeという形で表される英単語のiにおける発音のルールが、CiCaという形式にも適用されるのか?」という疑問に否定的な回答をしたい。 そのために、 まずCiCaの形(NISA)をとる既知の英単語における "i" の発音がどのようであるか、 その後、CiCeの形(nice)

                            NISAは「ニーサ」なのか「ナイサ」なのか - 詩と創作・思索のひろば
                          • 夢中になった技術が「打ち込める仕事」になるまで ─ OSS検索エンジンの開発にコミットし事業にも貢献する - Findy Engineer Lab

                            はじめまして、 @mocobetaと申します。 パッケージソフトウェアベンダー、コンサルティング会社、Webサービス企業などを経て、現在は株式会社LegalForceというスタートアップの研究開発セクションでソフトウェアエンジニアをしています。 個人としては、Python形態素解析ライブラリjanomeを開発するとともに、OSS検索エンジンライブラリApache Luceneのコミッターをしています。ちなみに本記事のアイキャッチ画像は、絵師さんに描いてもらったjanomeのキャラクターです。とてもかわいく描いていただいて、お気に入りの1枚です。 この記事では、進路とエンジニアとしての力不足に悩んでいた私の若手時代から、10年(以上)の模索期間を経て、ライフワークにしたいと思える技術に出会い、なんとか好きな仕事で食べていけるようになるまでを振り返ります。アップダウンの激しいIT業界において、

                              夢中になった技術が「打ち込める仕事」になるまで ─ OSS検索エンジンの開発にコミットし事業にも貢献する - Findy Engineer Lab
                            • 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services

                              Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

                                日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services
                              • 英単語の覚え方・コツ 第二言語習得研究・最新の脳科学研究に基づく学習方法 - ポリグロットライフ | 言語まなび∞ラボ

                                はじめに 今回は英単語の覚え方・コツを考えていきます。第二言語習得研究・最新の脳科学研究に基づいて効果的な英単語学習方法を紹介していきます。どれぐれいの語彙が必要なのか、どれぐらい深く学習するべきかという基礎知識を確認した後で、第二言語習得研究・脳科学研究に基づく学習のヒントの事例や研究を紹介していきます。最後に学習スタイル診断を紹介するので、自分に合った学習戦略み基づいて英単語学習をぜひはじめてみてください。 第二言語習得研究から考える英語学習方法はこちら↓↓ www.sunafuki.com 英語が話せるようになる実践トレーニングはこちら↓↓ www.sunafuki.com シャドーイングの実践方法はこちら↓↓ www.sunafuki.com パターンプラクティスの正しいやり方はこちら↓↓ www.sunafuki.com 参考文献 「脳科学的に正しい英語学習法」 「英語の学び方入

                                  英単語の覚え方・コツ 第二言語習得研究・最新の脳科学研究に基づく学習方法 - ポリグロットライフ | 言語まなび∞ラボ
                                • GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録

                                  OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。 私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、(アーキテクチャではなく)学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。 深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。 そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。

                                    GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
                                  • 「書く」ことも「書かない」ことも尊重される社会であってほしい。言語学研究者の田川拓海さんが語る「ずぼらなブログのすすめ」 - 週刊はてなブログ

                                    はてなブログのユーザーに、自身とブログについて寄稿していただく【「ブログを書く」ってどんなこと?】シリーズ。今回は、はてなのサービスで15年以上ブログを書き続けている言語学者の田川拓海(id:dlit/@dlit)さんに「ずぼらなブログのすすめ」について寄稿いただきました。 長年ブログを運営している田川さんですが、時には2,3カ月記事を更新しないこともあるそうです。しかし、更新頻度にとらわれず、「ずぼらに」やってきたからこそ、続けられたのだ、と語ります。研究者としての視点も交えながら、「ブログを書くこと」、そしてそれと表裏一体である「ブログを書かないこと」について、じっくりと語っていただきました。 はじめに この記事で伝えたいことはほとんどタイトルで言い表すことができてしまっているのですが,もう少し具体的に言い換えると定期的に更新するような「ちゃんとした」ブログじゃなくたっていいんじゃない

                                      「書く」ことも「書かない」ことも尊重される社会であってほしい。言語学研究者の田川拓海さんが語る「ずぼらなブログのすすめ」 - 週刊はてなブログ
                                    • RLHF (人間のフィードバックからの強化学習) の図解|npaka

                                      以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

                                        RLHF (人間のフィードバックからの強化学習) の図解|npaka
                                      • 言語の研究者はことばの規範とどう付き合う(べき)か,についてちょっとだけ - 誰がログ

                                        はじめに 下記の話題に関して,「言語の研究者は(軽々しく/何があっても)ことば遣いに関する規範に口出しするのは良くない」という反応を見かけたので,関連して今の自分の考えを少し書いておこうと思いました。 togetter.com 解説や問題の整理という類のものではなく,実際の研究者がどう考えているかということの1例だと思ってください。とりあえず以下ジェンダーに関わる話はぜんぜんしていません。というか書いた後に思ったのですがとてもごちゃごちゃしているので,もっと良い議論ができる人の叩き台になれば僥倖です(叩けるほどの強度もないかも)。 言語学と規範 言語学の入門では,どれくらい詳しくやるかは差があるでしょうが,必ずと言っていいほど「言語学は規範的ではなく記述的である」というような話が出てきます。重要なポイントの1つなので,内容をかなり絞り込んで作った下記の「言語学入門入門」でも取り上げています

                                          言語の研究者はことばの規範とどう付き合う(べき)か,についてちょっとだけ - 誰がログ
                                        • noteは機械学習をどう活用している?MLチームの開発指針と取り組みまとめ 【2022年版】|noteエンジニアチームの技術記事

                                          本記事ではnoteのMLチームの取り組みについて、機能と概要をそれぞれ紹介します。 紹介する機能はnote全体の一部ではありますが、MLチームの全体像を掴むことができます。 ▼この記事でわかること▼ MLチームが取り組んでいる内容が全体的に理解できる note内でどのように機械学習が利用されているのかがわかる MLチームの全体的なアーキテクチャと開発指針を知ることができる 前提noteの取り組みを説明する前に、まずはMLチームの開発とアーキテクチャについて簡単に説明していきます。 現状の開発について 開発の規模 / 現在のアーキテクチャなどの影響もあり、「バックエンドエンジニア」と「MLエンジニア」の開発の垣根が薄い MLエンジニアは機械学習以外にも、バックエンド開発やアーキテクチャのリプレイスなど、多様な開発能力が求められる アーキテクチャ図2022年10月時点アーキテクチャを決定する上

                                            noteは機械学習をどう活用している?MLチームの開発指針と取り組みまとめ 【2022年版】|noteエンジニアチームの技術記事
                                          • オープンソースで商用利用可能な大規模言語モデル「Falcon」が登場、オープンソースモデルの中では最高の性能に

                                            アラブ首長国連邦の首都アブダビに拠点を置く研究機関「Technology Innovation Institute」がオープンソースの大規模言語モデル「Falcon」をリリースし、機械学習関連のデータ共有サイト「Hugging Face」にてモデルを公開しました。 Falcon LLM - Home https://falconllm.tii.ae/ The Falcon has landed in the Hugging Face ecosystem https://huggingface.co/blog/falcon tiiuae/falcon-40b · Hugging Face https://huggingface.co/tiiuae/falcon-40b Falconモデルは400億個のパラメーターをもつ「Falcon-40B」モデルと、70億個のパラメーターをもつ「Falco

                                              オープンソースで商用利用可能な大規模言語モデル「Falcon」が登場、オープンソースモデルの中では最高の性能に
                                            • 高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました

                                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。LINEの小林滉河(@kajyuuen)です。NLPチームで固有表現抽出、有害表現の検知、LINEスタンプ推薦の改善など自然言語処理に関する仕事をしています。 この記事ではLINEが公開した言語モデル「LINE DistilBERT」について紹介します。 https://huggingface.co/line-corporation/line-distilbert-base-japanese https://github.com/line/LINE-DistilBERT-Japanese LINE DistilBERTは次のような特徴を持つ日本語言語モデルです。 高性能・高速・軽量 Hugging Faceのtra

                                                高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました
                                              • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

                                                ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

                                                  学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
                                                • 論文を書くときに役立つサイト・文献まとめ - いつか博士になる人へ

                                                  「論文を書くことは技術である。技術を習得するのに才能は要らない。理にかなったことを地道にトレーニングすれば、技術は確実に向上する」*参考『論文の書き方』石黒圭 私はこのことを学生の時に教わりました。 そして今日まで書いてきた論文のいくつかは、幸いにして少なくない数の人々に読んでもらうことができました。 この記事では、私が論文を書く技術を習得する上で役に立ったウェブサイト・文献を11個紹介します。 これから初めて英語で論文を書こうとする人に、特におすすめのものを選びました。 以下では、それらを目的別の項目(論文の書き方、英語の使い方、図表の作り方など)にグループ分けして紹介します。 論文の書き方 1. 理科系の作文技術 (中公新書 (624)) 木下是雄 定番の一冊。 科学論文を書くために必要な基礎知識が網羅されています。 立案の仕方 文章の組み立て方(序論・本論・結び) パラグラフの作り方

                                                    論文を書くときに役立つサイト・文献まとめ - いつか博士になる人へ
                                                  • 検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ

                                                    エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ

                                                      検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
                                                    • SQLで始める自然言語処理 - やむやむもやむなし

                                                      こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

                                                        SQLで始める自然言語処理 - やむやむもやむなし
                                                      • 「ChatGPT」のような生成系AIを高速化するサーバー向けGPUをNVIDIAが発表

                                                        「ChatGPT」のような生成系AIを高速化するサーバー向けGPUをNVIDIAが発表 ライター:米田 聡 GTC 2023の基調講演に登場したJensen Huang氏 2023年3月21日,NVIDIAが主催する恒例のGPU技術関連イベント「GTC 2023」がスタートした。3月22日に行われた同社CEOであるJensen Huang(ジェンスン・フアン)氏の基調講演では,さまざまな新しいAI関連製品やサービスが発表となった。 本稿では,基調講演の一部から,ゲーマーでも知っておく価値がありそうなものにしぼって概要を紹介したい。 計算機リソグラフィ分野に大躍進をもたらす「cuLitho」 NVIDIAは自社で工場を持たない,いわゆるファブレスの半導体メーカーである。ただ,ファブレスといっても半導体の製造技術と無関係でいられるわけではない。とくにGPUは,最先端の製造技術を用いる複雑で大規

                                                          「ChatGPT」のような生成系AIを高速化するサーバー向けGPUをNVIDIAが発表
                                                        • 「オーバーシュート overshoot」なる用語について(この用語で「爆発的な感染拡大」を言う英語の実例がほとんど確認できない件)

                                                          中途半端な英語使いが英国からのニュースを東京で読み、あちこちふらふらうろうろ。時々嘘。 はてブ = http://b.hatena.ne.jp/nofrills Twitter = http://twitter.com/nofrills Twitterのログ = http://twilog.org/nofrills ◆「なぜ、イスラム教徒は、イスラム過激派のテロを非難しないのか」という問いは、なぜ「差別」なのか。(2014年12月) ◆「陰謀論」と、「陰謀」について。そして人が死傷させられていることへのシニシズムについて。(2014年11月) ◆知らない人に気軽に話しかけることのできる場で、知らない人から話しかけられたときに応答することをやめました。また、知らない人から話しかけられているかもしれない場所をチェックすることもやめました。あなたの主張は、私を巻き込まずに、あなたがやってください

                                                            「オーバーシュート overshoot」なる用語について(この用語で「爆発的な感染拡大」を言う英語の実例がほとんど確認できない件)
                                                          • 働きながら修士課程1年目を終えて - 怠惰を求めて勤勉に行き着く

                                                            本エントリは社会人学生 Advent Calendar 2020の19日目です。ただ今月の後半は個人的事情で非常に忙しいことが予想されるので、本日書いてしまってまだ筆の熱が残っている内に公開してしまおうと思います。 改めて自己紹介をさせてください。37歳の職業ソフトウェア技術者です。現在フルタイムで働きながら、北陸先端科学技術大学院大学(通称JAIST)の博士前期課程で情報科学を専攻しています。実は本アドベントカレンダーは去年も参加しました。そちらには進学の動機や入学したばかりの初々しい気持ちが表明されているような気がします。 fushiroyama.hatenablog.com さて、本エントリで何を書こうか少し悩みました。考えた結果、前半で「1年目を終えた率直な感想」を、後半で「JAISTで社会人大学院生をやること」について書こうと思います。特に後半には、この1年でのべ100人ぐらいに

                                                              働きながら修士課程1年目を終えて - 怠惰を求めて勤勉に行き着く
                                                            • Azure OpenAI Serviceの世界へようこそ|父

                                                              はじめに賽は投げられた2022年11月にOpenAIが公開したAIチャットボットChatGPTは、それまでのチャットボットの常識を大きく凌駕するその余りの流暢な受け答えから瞬く間に技術系コミュニティで話題沸騰となり、わずか2ヶ月でアクティブユーザー数は1億人を超え、その影響範囲はすぐさま技術系コミュニティの内側にとどまるものではなくなりました。プログラマが、大学生が、研究者が、物書きがChatGPTを試してはその自然な回答に驚愕しました。翌23年4月には、東京大学理事・副学長で教育・情報担当の太田邦史博士がChatGPTやStable Diffusion等の「生成系AI」の急速な発展とその著しい品質の向上を受けて「人類はこの数ヶ月でもうすでにルビコン川を渡ってしまったのかもしれない」とする声明を発表しました。 人類はこの数ヶ月でもうすでにルビコン川を渡ってしまったのかもしれないのです。むし

                                                                Azure OpenAI Serviceの世界へようこそ|父
                                                              • 大規模言語モデルの開発者が知っておくと役立つさまざまな数字

                                                                Googleの人工知能部門の責任者を務めるスゴ腕エンジニアのジェフ・ディーンがかつて作成した「すべてのエンジニアが知っておくべき数字」に習って、「大規模言語モデル(LLM)の開発者が知っておくべき数字」が元Googleのエンジニアだったワリード・カドスさんによってまとめられています。 ray-project/llm-numbers: Numbers every LLM developer should know https://github.com/ray-project/llm-numbers ◆プロンプト編 40-90%:プロンプトに「簡潔に」を追加することで節約できる量 LLMの返答はトークン単位で課金されるため、LLMに簡潔に返答するよう要求すると大幅にコストを削減可能です。単にプロンプトに「簡潔に」を追加するだけでなく、例えば10個の案を出すというプロンプトを行う時に代わりに5個

                                                                  大規模言語モデルの開発者が知っておくと役立つさまざまな数字
                                                                • AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開

                                                                  アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。 「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。 「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。 「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。 データはAmazon S3上でホストされているので、AWSで

                                                                    AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開
                                                                  • 【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita

                                                                    要点 T5(Text-To-Text Transfer Transformer、論文、日本語解説記事)の日本語モデル(事前学習済みモデル)を作り、公開しました。ご活用ください。 T5とは、様々な自然言語処理タスクの入出力がともにテキストになるよう問題形式を再定義することにより、一つの事前学習済みモデルを多様なタスク用に転移学習させることができる高い柔軟性を持ち、かつ、性能も優れている深層ニューラルネットワークです。 転移学習の例: 文章分類、文章要約、質問応答、対話応答、機械翻訳、含意関係認識、文の類似度計算、文法的妥当性判定、タイトル生成、スタイル変換、誤字修正、検索結果のリランキングなど(固有表現抽出などのシーケンスラベリングの実施例はない?) 日本語T5モデルはHugging Face Model Hubからダウンロードできます。 ベンチマークとして、ある分類問題について、既存のmT

                                                                      【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita
                                                                    • 「RVC」+「VC Client」で自分の声を任意の声にリアルタイム変換しよう! - Eヤツのブログ

                                                                      【導入】 ・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。 ・大まかな記事の流れは「RVCで学習モデルを作る」→「学習モデルをVC Clientに入れる」→「リアルタイムボイチェン完成!」です。 ・「RVC」という超凄い非リアルタイム音声変換ソフトが話題になったと思ったら、翌日に「VC Client」という超凄いソフトがリアルタイム音声変換に対応したのを聞いたので、急いで記事を書きました。 ・この記事ではずんだもんボイスになることを目標としていますが、学習先の音声さえあればどんな音声にもなれます。 【手順】 ①~RVCのダウンロード~ ・以下のURLを開いて、「RVC-beta.7z」をDLします。(要Hugging Faceアカウント)(Hugging Faceアカウントを持ってない人は無料なので作りましょう) https://huggi

                                                                        「RVC」+「VC Client」で自分の声を任意の声にリアルタイム変換しよう! - Eヤツのブログ
                                                                      • LINE、日本語の大規模言語モデル公開 オープンソースで 商用利用もOK

                                                                        LINEは8月14日、日本語に特化した大規模言語モデル(LLM)「japanese-large-lm」を発表した。オープンソース(OSS)として公開し、商用利用も可能(Apache License 2.0)としている。 公開したLLMは、36億パラメーターと17億パラメーターの2つ。両モデルともHuggingFace Hubからアクセスできる。Web由来のテキストから大規模かつ高品質なデータ構築を行うため、OSSライブラリ「HojiChar」を使ったフィルタリング処理を実施。モデルの訓練には、LINE独自の大規模日本語Webコーパス(最終学習は約650GBのコーパスで実施)を利用したという。 LINEは独自LLM「HyperCLOVA」の開発を長年手掛けているが、今回のモデルは別の開発ライン(LINEのMassive LM開発ユニット)にて構築したもの。同チームでは、指示文に対して適切な出

                                                                          LINE、日本語の大規模言語モデル公開 オープンソースで 商用利用もOK
                                                                        • 今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ

                                                                          ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点 3. Language Models as Knowledge Bases? 面白いと思った点 余談 4. A Structural Probe for Finding Syntax in Word

                                                                            今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ
                                                                          • 「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました|ELYZA, Inc.

                                                                            本記事のサマリーELYZA は、「Llama-3-ELYZA-JP」シリーズの研究開発成果を公開しました。700億パラメータのモデルは、日本語の生成能力に関するベンチマーク評価 (ELYZA Tasks 100、Japanese MT-Bench) で「GPT-4」を上回る性能を達成しました。各モデルは Meta 社の「Llama 3」シリーズをベースに日本語で追加学習を行なったものです。 ■「Llama-3-ELYZA-JP-70B」 700億パラメータモデル。「GPT-4」を上回る日本語性能を達成。無料で利用可能なデモを用意しています。 ■「Llama-3-ELYZA-JP-8B」 80億パラメータと軽量ながらも「GPT-3.5 Turbo」に匹敵する日本語性能を達成。モデルを商用利用可能な形で一般公開しました。 使用したAPIのバージョンなど、より詳細な評価結果については本記事の後段

                                                                              「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました|ELYZA, Inc.
                                                                            • 英語ライティングの勉強方法・独学方法 第二言語習得研究に基づく英語学習方法や最新の研究も紹介  - ポリグロットライフ | 言語まなび∞ラボ

                                                                              はじめに 今回は第二言語習得研究に基づく正しい英語ライティングの勉強方法について解説していきます。初心者の方でも分かりやすく丁寧に解説しているのでぜひ参考にしてみてください。プロセスライティングの学習効果など、最新の研究も紹介しています。まず、英語ライティングの種類や効果的なライティング指導を解説し、英語ライティングの添削や学習のポイントをまとめています。さらに英語パラグラフライティングを解説し、最後に独学方法を考えてみました。 ↓↓ Youtubeチャンネルも力を入れていくのでぜひ登録お願いします。 www.youtube.com 英語ライティングとは 第二言語習得研究におけるライティングとは ライティング産出の認知プロセスモデル 英語ライティングの種類 ダイアリーライティング(学ぶために書く) アカデミックライティング(書くために書く) 効果的な英語ライティング指導とは 欧米文化との対

                                                                                英語ライティングの勉強方法・独学方法 第二言語習得研究に基づく英語学習方法や最新の研究も紹介  - ポリグロットライフ | 言語まなび∞ラボ
                                                                              • コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ

                                                                                はじめに コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献 「英

                                                                                  コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
                                                                                • 形態素解析を行うだけのバッチをつくる - クックパッド開発者ブログ

                                                                                  研究開発部の原島です。今日は表題の渋いバッチをつくった話をします。 あっちでも形態素解析、こっちでも形態素解析 みなさん、形態素解析してますか?してますよね?クックパッドでもさまざまなプロジェクトで形態素解析をしています。 いや、むしろ、しすぎです。プロジェクト A でレシピを解析し、プロジェクト B でもレシピを解析し、プロジェクト C でもレシピを解析し、... といった具合です。ちなみに、形態素解析(の結果)が必要なプロジェクトとしてはレシピの分類やレコメンド、各種分散表現(e.g., word2vec)や BERT の学習などがあります。 もちろん、最終的に得たい解析結果が違うのであれば問題ありません。しかし、私が見たかぎり、ほとんどの場合は同じ(もしくは、同じにできそう)でした。であれば、 解析器をインストール(→ Dockerfile を試行錯誤) 解析対象を取得(→ SQL

                                                                                    形態素解析を行うだけのバッチをつくる - クックパッド開発者ブログ