タグ

ブックマーク / www.ogis-ri.co.jp (32)

  • はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場

    今回は文章のベクトル化を扱います。文章のベクトル化は 第9回 で扱っていますが、当時に比べてデータセット、事前学習モデル、ライブラリ等でいろいろと状況が好転しているので、改めて扱ってみることにしました。最近は大規模データセットを用いた事前学習が公開されているので、作り比べてみます。 1. はじめに 今回は sentence-transformers1 で文章のベクトル化にチャレンジしてみます。文章をベクトル(埋め込み表現)化することで、文章間の意味合い的な比較が可能になり、類似文章検索やクラスタリングなどが可能になります。 このライブラリは 第9回 で紹介済みですが、当時のバージョンは 0.2.5.1 であり、その後に損失関数が追加されていたり、サンプルコードが充実したりとかなりの更新が入って執筆時点で 2.1.0 になっています。ついでに言うと 第9回 は結構アクセス数があるみたいなので

    はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場
    yuiseki
    yuiseki 2023/09/09
  • はじめての自然言語処理 Hugging Face Transformers で T5 を使ってみる | オブジェクトの広場

    前回が分量的にやたらと重かったので、今回はその反省(反動?)を踏まえて軽い感じでいってみます。第7回で紹介した T5 ですが Hugging Face の Transformers でもサポートされてますので、その使用方法をご紹介したいと思います。 1. はじめに 今回は久しぶりに T5 の話です。T5 に関しては第7回、第8回で一度紹介しているので、未読の方は記事に目を通してから戻ってきて頂けると、より理解がしやすいと思います。 さて、 T5 ですが Google のオリジナルコード(以下 “t5"と記述)1は敷居が高いと感じる方もいらっしゃるのではないでしょうか。 Estimator API ベースのコードや gin による設定など慣れていないと、とっつきにくいのではないかと思います。 そこで今回は Hugging Face の Transformers 2を使って T5 を動かす方法

    はじめての自然言語処理 Hugging Face Transformers で T5 を使ってみる | オブジェクトの広場
  • はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場

    前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日語コーパス3及びやさしい日語拡張コーパス4を用いたやさしい日語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います

    はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
    yuiseki
    yuiseki 2022/11/08
  • はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場

    今更ですが今年の2月に spaCy 3.0 が公開されました。 3.0 で導入された新機能の中で目玉と言えるのは、やはり Hugging Face Transformers (以下、単にTransformers) のサポートや PyTorch, Tensorflow との連携になるでしょう。今回はその辺りを実際に学習を動かしながら紹介したいと思います。 1. はじめに 今回は今年の2月に公開された spaCy 3.0 の話です。 spaCy は第4回でも紹介しましたが、研究者向けというよりは自然言語処理アプリ開発者向けのオープンソース自然言語処理ライブラリになります。日語を含めた様々な言語の学習済みモデルが存在しており、 spaCy をインストールして、学習済みモデルをダウンロードするだけで、分かち書き、品詞や依存関係の推定、単語や文の類似度の判定など様々な機能を使用することができます。

    はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場
  • はじめての自然言語処理 類似文書検索の手法と精度比較 | オブジェクトの広場

    自然言語処理とは、人間が自然に使っている英語や日語などの言語をコンピュータで処理する技術です。自然言語処理でできることには機械翻訳、要約生成、感情分析などがありますが、今回は比較的シンプルな例として類似文書検索に焦点を当ててみたいと思います。類似文書検索はテーマとしては真新しいものではありませんが、記事では単語の分散表現を用いる手法や Watson Discovery も含めた各種の類似文書検索手法について、日語データに対して精度比較試験をした結果を紹介します。複数の手法を同一の日語データで比較した記事はあまり見ないので面白いのではないでしょうか。 1. 始めに 記事では類似文書検索の各手法について、単語の分散表現を用いる手法や Watson Discovery も含めて精度比較試験をした結果を紹介します。まず各手法の概要を紹介しますが、ここでは数学的な細かい説明などは省くので概

    はじめての自然言語処理 類似文書検索の手法と精度比較 | オブジェクトの広場
  • OOエンジニアの輪! 〜 第20回 高林哲さんの巻 〜

    特に無し ( いろんな偉大な人はいるんですが、別の面では別の人の方がおもしろかったりして、 みんなそれぞれおもしろいから、特にこの人、というのはないです。) CSL でのお仕事 -- まず最初に、現在のお仕事について、簡単にお伺いしたいんですが。 仕事は、ソニー CSL ( ソニーコンピュータサイエンス研究所。以下、CSL ) というところにいて、 アシスタントリサーチャーという 肩書きで、研究職をやっているということになっています。 社員は ソニー社からの出向を除くと、大体 20 人位ですね。 ビルの 2F と 3F を借りていて、僕は 3F にいるんですけど、 3F は基盤研究室といって物理や脳科学などのさまざまな基礎的な研究が行われていて、 2F の方はインタラクションラボといって、 様々な新しいものをコンピュータと結びつけるインタラクションの研究が行われています。 CSL では

    yuiseki
    yuiseki 2021/06/25
  • 単一責任の原則(Single responsibility principle)について、もう一度考える | オブジェクトの広場

    単一責任の原則(Single responsibility principle)について、もう一度考える はじめに オブジェクトの広場をご覧の皆様ならば、「SOLID原則」という言葉を聞いたことがあるかもしれません。 SOLIDとは、以下の5つのソフトウェア設計原則を並べたバクロニムです。 Single Responsibility Principle:単一責任の原則 Open/closed principle:オープン/クロースドの原則 Liskov substitution principle:リスコフの置換原則 Interface segregation principle:インターフェース分離の原則 Dependency inversion principle:依存性逆転の原則 ソフトウェアエンジニアが知っておくべき設計原則のセットとして、Clean Architecture や

    単一責任の原則(Single responsibility principle)について、もう一度考える | オブジェクトの広場
  • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

    前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCyspaCyフロントエンドとする日NLPライブラリの GiNZA について紹介します。 1. 始めに 記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日語を処理する際の基的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

    はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
    yuiseki
    yuiseki 2020/08/07
  • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

    今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

    はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
  • アジャイルモデルのエッセンス: アジャイルに作れる成果物

    by Scott W. Ambler, Copyright 2003 効果的にアジャイルモデリングを行うには、さまざまな種類のモデリング手法を知っておく必要があります。残念ながら、これは口で言うほど簡単なことではありません。このページはまだ作成中ですが、さまざまなモデリング成果物の概要へリンクしています。各ページには、その成果物についの解説と、1、2の例、推奨文献へのリンクが含まれています。 モデリング成果物 ビジネスルール ビジネス/質ユースケース 変更案 CRC(Class Responsibility Collaborator)モデル 制約事項 取り決めモデル データフロー図(DFD) 質/ビジネスユースケース 質ユーザインターフェースプロトタイプ ユーザ機能 自由形式の図 フローチャート 用語集 Logical Data Model (LDM) ネットワーク図 オブジェクトロ

  • アジャイル開発におけるモデリング | オブジェクトの広場

    ほぼ 3 年ぶりの連載再開です. 3 年前に今回の原稿を書き始めた際にちょっと気負い過ぎて筆が止まり, 忙しさにかまけているうちにあっという間に 3 年間が経ってしまいました. この 3 年間で, 日ではアジャイル開発への関心がやや停滞していますが, 米国では驚くほど盛り上がっており, 今やウォーターフォール型開発を凌ごうという勢いです. 今年の 9 月に WCSQ (World Congress for Software Quality) という会議でアジャイル開発での設計の実践経験について発表するという機会を頂き, とにかくその発表内容に至るまでに考え, 実践したことを記事に書こうと気を取り直しました. 今回の記事では, ウォーターフォール型開発におけるモデリングの問題点を説明し, さらにアジャイル開発でモデリングを取り入れる 2 つのアプローチを紹介します. 1. ウォーターフォー

    アジャイル開発におけるモデリング | オブジェクトの広場
  • [ 技術講座 ] Domain-Driven Designのエッセンス -目次-|オブジェクトの広場

    技術講座] DDD難民に捧げる Domain-Driven Designのエッセンス 第 1 回 ドメイン駆動設計とは 第 2 回 DDDの基礎と実践 第 3 回 大規模なプロジェクトへの適用 DDDパターンカタログ パターン名 参考訳 I. Putting the Domain Model to Work Ubiquitous Language ユビキタス言語 Model-Driven Design モデル駆動設計 Hands-On Modeler 実践的モデラー II. Building Blocks of a Model-Driven Design Layered Architecture 層状アーキテクチャ Smart UI (アンチパターン) 利口なUI Entities エンティティ Value Objects 値オブジェクト Services サービス Modules モジ

  • Jonathan Rasmusson さんインタビュー ( 後編 )

    前編を公開してから9ケ月も経過してしまいましたが、ようやく「アジャイルサムライ」の著者であるRasmusson さんインタビューの後編の原稿をまとめることができました。 インタビュー後編では、以下について伺った内容を紹介します。 1. 「アジャイルサムライ」の内容について 2. モチベーションとコーチング 3. 日常生活 4. 「アジャイルサムライ」の執筆 5. 今後の夢 1. 「アジャイルサムライ」の内容について -- 次の質問は、Jonathanさんの著書である「アジャイルサムライ」についてのものです。私は「アジャイルサムライ」を読んで少し混乱しました。 アジャイル開発フレームワーク「スクラム」ではプロダクトオーナーとスクラムマスターという2つの役割を設定しますが、「アジャイルサムライ」ではアジャイルコーチ、プロジェクト管理者、顧客が登場します。 なぜスクラムと異なる役割を推奨されてい

  • OOエンジニアの輪! -INDEX-

    オブジェクト指向技術者の方々に毎回お話を伺いながら、次のゲストも紹介していただこうというインタビュー。10年に渡り43回のインタビューを実施、総勢44名もの方々からお話を伺うことができました。

    OOエンジニアの輪! -INDEX-
    yuiseki
    yuiseki 2012/12/15
  • OGIS-RI OBJECT SQUARE

    今月もオブジェクトの広場をどうぞお楽しみください。記事に対する感想は、ぜひ公式Facebookページのコメント欄までお願いいたします。(2024.06.26) もっとじっくり AWS CDK のコンセプト 第7回 トークン AWS CDK アプリを開発していると、ふいに ${Token[TOKEN.101]} のようなちょっと変わった見た目の値を目にすることがあります。それが今回とり上げるトークンです。いえ、正確にはエンコードされたトークンです。 トークンはあちこち見えないところで、いつのまにか使っているものです。普段はあまり気にする必要のないその仕組みについて、背景にある課題や関連する概念とともにじっくり見ていきましょう。 はじめての自然言語処理 第31回 OpenAI text-embedding-3-large と Cohere Rerank 3 の精度評価 今回は OpenAI t

    OGIS-RI OBJECT SQUARE
    yuiseki
    yuiseki 2012/12/15
  • 組み込みアジャイルコーチ James Grenning さんインタビュー ( 前編 ) | オブジェクトの広場

    去る8月にアメリカ・テキサス州ダラスで開催された Agile 2012 にて James Grenning さんにインタビューを実施させていただきました。James さんは、組み込みソフトウェア開発におけるアジャイル開発のコーチ・トレーナー・コンサルタント、『Test Driven Development for Embedded C』[1] の著者、アジャイルソフトウェア開発宣言の著者17名の1人、そしてアジャイルな見積り手法「プランニングポーカー」[2] の考案者でもあります。 インタビューでは、日の「 Test Driven Development for Embedded C読書会 」参加メンバーから挙がった以下の話題についての質問を順次尋ねる形で進めました。 ・ 組み込みソフトウェアに対するアジャイル開発やTDDの導入 ・ モデリングやアーキテクチャ設計と TDD の関係 ・

    yuiseki
    yuiseki 2012/10/10
  • 事例で学ぶデザインパターン 第1回 | オブジェクトの広場

    事例で学ぶデザインパターン 第1回 デザインパターンの概要と理解のポイント デザインパターンを理解し、よりよい設計の知恵を得よう! (株)オージス総研 福田 直樹 デザインパターンの解説は、ここ数年書籍や雑誌の記事などで多く目にします。しかし、デザインパターンというと小難しいイメージだったり、一部のマニアックな設計者だけが使うものだ、というような感覚を持たれている方もいらっしゃるのではないでしょうか。また、何となくは理解できた気はするけれども、効果が実感できずに適用に二の足を踏んでいるという方もいらっしゃると思います。 今回は、ケーススタディにデザインパターンを適用した設計を検討し、主にデザインパターンを適用しない場合と適用した場合の違い、メリット、考慮点を示すことによって各デザインパターンを理解をしていただくような形で進めたいと思います。読んでいただく方のデザインパターン学習の動機付けに

  • Jonathan Rasmusson さんインタビュー ( 前編 ) | オブジェクトの広場

    永和システムマネジメントさんのご厚意により、去る 3 月に Agile Japan 2012 での基調講演を提供するために来日された Jonathan Rasmusson さんに対するインタビューを実施させて頂きました。 Jonathan さんは、「アジャイルサムライ」というアジャイル開発の入門書の著者です。 「アジャイルサムライ」は日で空前のブームを巻き起こしており、現在日の各地で勉強会(道場)が開催されています。 インタビューでは、以下の 4 つの分野に渡り、Jonathan さんに質問をしました。 1. Jonathanさんのこれまでの経歴 2. アジャイル開発一般 3. アジャイルサムライ 4. プライベートな生活 今月と来月の 2 回に渡り、Jonathan さんへの突撃インタビューの結果をお届けします。 1. Jonathanさんのこれまでの経歴について -- 今日は、イン

    Jonathan Rasmusson さんインタビュー ( 前編 ) | オブジェクトの広場
  • [ 技術講座 ] Domain-Driven Designのエッセンス 第1回|オブジェクトの広場

    DDD難民に捧げる Domain-Driven Designのエッセンス 第1回 ドメイン駆動設計とは 株式会社オージス総研 アドバンストモデリングソリューション部 佐藤 匡剛 Domain-Driven Design Tackling Complexity in the Heart of Software Eric Evans 著 Addison-Wesley, 59.99ドル 560ページ ISBN: 0-321-12521-5 「ドメインモデリング」は、アプリケーション開発において最も重要な部分だとされています。しかしその割には、フレームワークの使い方やアーキテクチャの設計方法など技術に関する解説書はたくさんあるものの、ドメインモデリングそのものを扱った書籍はほとんど無かったと言ってもいいでしょう。Eric Evansの『Domain-Driven Design』(以降DDD)は、「

  • [ 技術講座 ] Domain-Driven Designのエッセンス 第2回|オブジェクトの広場

    DDD難民に捧げる Domain-Driven Designのエッセンス 第2回 DDDの基礎と実践 株式会社オージス総研 アドバンストモデリングソリューション部 佐藤 匡剛 Domain-Driven Design Tackling Complexity in the Heart of Software Eric Evans 著 Addison-Wesley, 59.99ドル 560ページ ISBN: 0-321-12521-5 連載は、全3回の予定でEric Evansの書籍『Domain-Driven Design』(以降DDD)を紹介しています。前回はDDDの概要を説明し、第I部「Putting the Domain Model to Work」からDDDの基原則となる3つのパターンを紹介しました。今回は続く第II部と第III部から、(アンチパターンを1つ含む)16のDDDパタ