並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 250件

新着順 人気順

UniDicの検索結果1 - 40 件 / 250件

  • 2019年末版 形態素解析器の比較 - Qiita

    形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

      2019年末版 形態素解析器の比較 - Qiita
    • 形態素解析ツールの比較 (NLP2018) - Qiita

      NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

        形態素解析ツールの比較 (NLP2018) - Qiita
      • Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG

        こんにちは、検索基盤部 検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。 以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日本語による形態素解析を実現するまでの手順をご紹介します。 techblog.zozo.com 目次 目次 はじめに Elasticsearchで全文検索を実現させる手順 全文検索のためのマッピング定義 Analyzerの構造 日本語対応のAnalyzer 日本語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能 カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の

          Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG
        • Unix を使える学生は急速に減っている - 武蔵野日記

          午前3時から NLP(自然言語処理)若手の会シンポジウム・情報処理学会自然言語処理研究会関係の仕事を黙々とする。大学運営関係のお仕事は9月中旬までないので、いまのうちに溜まった仕事を片付け、9月の準備をしておき、10月以降に備えたい(授業が週3コマある)。 (2014-08-21 追記)タイトルだけ見て反応する人が多いので、よくあるコメントについて冒頭で説明しておく。 「最近の若い者はなっとらん」と言っているだけで、教育もしていないなら当然。→8月20日に追記したが、教員なので教育するのが仕事の一部であり、研究室に配属された学生は最初週20時間(1個2時間×10個)の勉強会に出てもらい、それぞれ合計すると演習を解いたりするのに週20時間かかるようなので、合計週40時間基礎勉強に使ってもらっている。(参考: 研究室の勉強会のスケジュール) 必要性がないとやらないのでは?→世の中の99%の人に

            Unix を使える学生は急速に減っている - 武蔵野日記
          • 形態素解析 - Wikipedia

            日本語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日本語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

              形態素解析 - Wikipedia
            • Elasticsearchのための新しい形態素解析器 「Sudachi」 - Qiita

              tl;dr (要約) Kuromojiに代わる新しい形態素解析器「Sudachi」 なにが良いの? 最新の辞書 企業(ワークスアプリケーションズ)による継続的な更新 複数の分割単位 → 検索用途での再現率と適合率の向上 プラグインによる拡張 省メモリ Elasticsearchで使いたい プラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください 注: この記事の執筆者はSudachiの開発に関わっています さまざまな形態素解析器 形態素解析は、伝統的な自然言語処理(Natural Language Processing, NLP)において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利

                Elasticsearchのための新しい形態素解析器 「Sudachi」 - Qiita
              • 形態素解析辞書 UniDic

                人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

                • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

                  MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

                  • KyTea (京都テキスト解析ツールキット)

                    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

                    • サービス特性にあった検索システムの設計戦略 - クックパッド開発者ブログ

                      こんにちは!研究開発部ソフトウェアエンジニアの林田千瑛(@chie8842)です。あまりたくさん飲めないけど日本酒が好きです。 クックパッドが提供するサービスの検索や推薦機能の構築・改善を行っています。 本稿では、クックパッド本体の検索改善や推薦システム構築の傍らで、新規サービスであるクックパッドマート向けの検索システムをつくったので、その際の設計や精度改善の工夫について書きます。 新規サービスクックパッドマートと検索 クックパッドマートは、生鮮食品に特化したECサービスで、ステーションと呼ばれる場所に購入した食品を届けてくれるという特徴をもっています。2018年夏にサービス開始して以来順調にユーザ数を伸ばしています。中でも商品検索機能は、クックパッドマートの追加機能として9月にリリースしました。 検索システムの要件 プロダクトチームの当初の要件は以下のとおりでした。 まずは 1ヶ月で リ

                        サービス特性にあった検索システムの設計戦略 - クックパッド開発者ブログ
                      • 形態素解析の茶筅

                        ChaSen -- 形態素解析器 はじめに 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。 新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布 ダウンロード あらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書(奈良先端大より公開予定) NAIST-Chinese-dic 中国語語辞書(奈良先端大より公開予定) 著作権および仕様条件について 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフ

                        • ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った

                          概要 簡単に使える Pure JavaScript の形態素解析器 kuromoji.js を書きました。今回は、簡単に kuromoji.js を紹介したあと、セットアップ方法を解説します。ついでにロードマップ的なものも晒してみます。みんなでブラウザ NLP しよう! kuromoji.js とは 言わずと知れた Java の形態素解析器 Kuromoji を JavaScript に移植したものです。 kuromoji.js の GitHub リポジトリ と言っても、機械的に Java から JavaScript に置き換えたものではないため、API も違いますし、メソッド名やその内部も大幅に異なります。そもそも自分が形態素解析について勉強するために書き始めたため機械的なトランスレートに興味がなかったこと、また言語ごとに使いやすい API は異なると考えていることが理由です。 Node

                            ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った
                          • MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog

                            こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。 github.com 本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。 自然言語処理の要素技術に興味のある方 データ構造・アルゴリズムに興味のある方 Rustでの自然言語処理に興味がある方 Vibratoについて 最小コスト法による形態素解析 単語ラティスの構築 最小コスト経路の計算 高速化の取り組み 辞書引きのキャッシュ効率化 実装での注意点 連接コスト参照のキャ

                              MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog
                            • Pythonの入門書としても使える『言語処理のためのプログラミング入門』 - StatsBeginner: 初学者の統計学習ノート

                              Python及びテキストマイニングの超初心者向け入門書として 友人と週1回ペースで行っている統計&プログラミングの勉強会で、以前、Pythonの入門書は何がいいだろうかと考えて本書を取り上げました。当時ブログにはまとめていなかったのでまとめておきます。 言語研究のためのプログラミング入門: Pythonを活用したテキスト処理 作者: 淺尾仁彦,李在鎬出版社/メーカー: 開拓社発売日: 2013/06/25メディア: 単行本この商品を含むブログ (3件) を見る 本書はほんとにプログラミングというものに全く触れたことがない人向けのものなので、内容はちょっと簡単すぎた感もあるのですが、勉強会ではRばかりやってきてPythonには皆慣れているわけではないし、テキストマイニングの入門という意味もこめて一応やりました。初心者でもすぐ理解できる内容なのでさっさと終わらせようと思い、1回2章ずつのペース

                                Pythonの入門書としても使える『言語処理のためのプログラミング入門』 - StatsBeginner: 初学者の統計学習ノート
                              • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

                                -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

                                • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

                                  はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

                                    大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
                                  • Java製形態素解析器「Kuromoji」を試してみる

                                    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

                                    • 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services

                                      Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

                                        日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services
                                      • 高速な文字列探索:Daachorseの技術解説 - LegalOn Technologies Engineering Blog

                                        こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは現在、高速なパターンマッチングマシン Daachorse(ダークホース)を開発・運用しています。文字列処理の基礎である複数パターン検索を提供するRust製ライブラリです。以下のレポジトリで公開されています。 github.com 本記事はDaachorseの技術仕様を解説します。具体的には、 複数パターン検索に関係する基礎技術(トライ木・Aho–Corasick法・ダブル配列) Daachorseの実装の工夫と性能 を解説します。 以下のような方を読者として想定します。 文字列処理アルゴリズムやデータ構造に興味のある方 自然言語処理の要素技術に興味のある方 Rustライブラリに興味がある方 Daachorseについて 複数パターン検索の基

                                          高速な文字列探索:Daachorseの技術解説 - LegalOn Technologies Engineering Blog
                                        • 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services

                                          Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の

                                            日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services
                                          • 日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run

                                            みなさん、和布蕪は好きですか。私は食べたことがありません。 さて、MeCab は優秀な日本語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。食わず嫌いは感心できませんねぇ。 日本語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日本語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触

                                              日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run
                                            • 高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました

                                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。LINEの小林滉河(@kajyuuen)です。NLPチームで固有表現抽出、有害表現の検知、LINEスタンプ推薦の改善など自然言語処理に関する仕事をしています。 この記事ではLINEが公開した言語モデル「LINE DistilBERT」について紹介します。 https://huggingface.co/line-corporation/line-distilbert-base-japanese https://github.com/line/LINE-DistilBERT-Japanese LINE DistilBERTは次のような特徴を持つ日本語言語モデルです。 高性能・高速・軽量 Hugging Faceのtra

                                                高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました
                                              • AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開

                                                アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。 「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。 「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。 「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。 データはAmazon S3上でホストされているので、AWSで

                                                  AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開
                                                • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

                                                  MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2013-02-18 MeCab 0.996 configure script の不備によりiconvへのリンクに失敗する問題を修正 ユーザ辞書用CSVファイルのコストと左/右文脈IDを付与し, 新たなCSVファイルを生成する機能の追加 解析結果からLattice を作成する Lattice::set_result() メソッドを追加. 単体テスト時のスタブの作成等に利用可能 2013-01-24 MeCab 0.995 部分解析機能の再実装 部分解析機能のためのAPI (Lattice:set_boundary_constarint, Lattice::set_feature_constraint) の追加 2012-06-03

                                                  • 形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合) - StatsBeginner: 初学者の統計学習ノート

                                                    MeCabのPythonバインディングはPython3で使えない? 日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました(過去エントリ)。 MeCabの公式サイトにいくとPythonバインディングというのが配布されていて、Python上でMeCabを使うことができるのですが、これだとPython2系でしか使えません。 もともとこのPythonバインディングは、MeCabのプログラムからSWIGというツールを用いて自動生成したものらしく、この生成をやり直せばPython3系でも使うことができるようになります。 [追記]じつは、コメント欄で指摘を頂き、pipでmecab-python3というのが配布されていることが分かったので、公式サイトに置いてあるやつを使わずに、後述のとおりpipからインストールすれば全て解決しますw[/追記] ここ

                                                      形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合) - StatsBeginner: 初学者の統計学習ノート
                                                    • 形態素解析器 kagome v2 をリリースした - 押してダメならふて寝しろ

                                                      概要 ホント誰得でもないのは重々承知していますが、思い立って 形態素解析器 kagome v2 をリリースしました。とはいっても、だいたいの機能は今ある kagome でも実装済みで、今さら変更してもどうよ・・・という感じではあります。 なので、モチベーションを維持するのが非常に難しくて、だらだらと時間だけがかかってしまいました。 折角作ったのでリリースノートです。 TL;DR; v2 で実現した事 辞書の分離 / バージョン管理 辞書毎に異なる素性項目の扱いの共通化 韓国語辞書対応 辞書の分離 辞書を別リポジトリに分離しました。これにより、長年(?)懸案だった辞書のバージョン管理が可能になりました。go.mod で指定すれば、どのバージョンの辞書を利用しているかがわかります。 また、これにより、これまで kagome.ipadic のような単独辞書を利用するだけのためのライブラリを別に切

                                                        形態素解析器 kagome v2 をリリースした - 押してダメならふて寝しろ
                                                      • TensorFlowとGPUインスタンスで英日翻訳 - Qiita

                                                        Deep learningのライブラリとして有名なTensorFlowには英仏翻訳のチュートリアルがありますが、AWSのGPUインスタンスを使って英日翻訳で試してみたので紹介します。 環境 TensorFlow 0.9 AWS g2.2xlarge instance Ubuntu Server 14.04 Python 3.5 TensorFlowをAWSのGPUインスタンスで動かす方法については、以下の記事の通りに行いました。 Setting up TensorFlow 0.9 with Python 3.5 on AWS GPU-instance 初期のTensorFlowはAWSとの相性が悪くパッチを当てる必要があると言われていましたが、バージョン0.9ではすんなりとインストールできました。 注意点として、GPUインスタンスの使用にはAWS側に申請して1日ほど待つ必要があったのと、そ

                                                          TensorFlowとGPUインスタンスで英日翻訳 - Qiita
                                                        • NLP論文ネタ一覧

                                                          by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000本分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日本語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の

                                                          • メルカリは「軽トラ」の検索結果をどう改善したか? 商品検索におけるUI/UXと、新たな挑戦

                                                            2019年9月25日、クックパッド株式会社にて「Cookpad Product Kitchen #4」が開催されました。今回のテーマは「ユーザー体験を支える検索・マッチング技術」。あらゆるサービスに採用されている「検索」機能。そんな検索機能における技術と工夫について、様々なIT企業のエンジニアたちが一堂に会し、自らの知見を語ります。プレゼンテーション「メルカリ商品検索のUI/UXと新たな挑戦 」に登壇したのは、株式会社メルカリ 元Director of Search/AI/Data Scienceの森山大朗氏。講演資料はこちら メルカリ商品検索のUI/UXと新たな挑戦 森山大朗 氏(以下、森山):みなさんこんばんは。メルカリで検索の責任者をやっています森山大朗です。今日は、光栄にもログミーTechの記事を見ていただいたことがきっかけでこの場を作っていただいたということなので、がんばって話そ

                                                              メルカリは「軽トラ」の検索結果をどう改善したか? 商品検索におけるUI/UXと、新たな挑戦
                                                            • 形態素解析の今とこれから

                                                              [9:35-10:00] 「形態素解析システム JUMAN++ 」 河原大輔, Arseny Tolmachev (京都大学 大学院情報学研究科) [発表資料] 本発表では、形態素解析システムJUMAN++について紹介する。JUMAN++は、RNN言語モデルを利用することによって、単語の並びの意味的な自然さを考慮した解析を行う。また、基本辞書として、3万語程度についてさまざまな語彙情報・意味情報を人手で正確に整備した辞書をJUMANから継承して用いている。その範囲を超える語彙については、Wikipediaやウェブコーパスなどからの自動獲得した辞書を用いている。本発表では、JUMAN++の基本的な考え方から実装方法、また他の形態素解析シテムとの比較について説明する。 [10:00-10:25] 「汎用形態素解析システムMeCab」工藤拓 (グーグル合同会社) [発表資料] MeCabは研究、

                                                              • いくら相手のためだと思っていても、押し付けてはいけない - 武蔵野日記

                                                                午前中、大阪大学の留学生センターで日本語を教えてらっしゃる先生が、研究で使う茶筌のインストールを手伝ってほしい、というので masakazu-i くんとお手伝い。 実はこちらの先生がマシンを買い替える (OS をアップグレードする) 度に「ChaSen が動かなくなりました、助けてください」と連絡があってお手伝いしているのだが、前回も MeCab を入れようとして「MeCab と ChaSen では出力形式が違うので困るのです」と結局 ChaSen を入れることになった、という経緯があったため、今回も ChaSen かなぁ、と腹をくくっていた。 MeCab に詳しい人は「あれ、mecab には出力形式で -Ochasen とすれば chasen 形式にできるんじゃないの?」と思うかもしれないが、先方が使っていた Excel マクロで利用する形式と微妙に出力形式が違うので、mecabrc を

                                                                  いくら相手のためだと思っていても、押し付けてはいけない - 武蔵野日記
                                                                • 日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm

                                                                  前にこんなツイートをしたけどもうちょっとちゃんとメモっておく ゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです 勝手なイメージだと、MeCab →一番使われてる 。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解する いわゆる学校でならった文法とは違う文法を使っているので注意が必要 ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる 形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ

                                                                    日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
                                                                  • 京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改

                                                                    KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。 かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根本的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。 そこに新しくKyTeaが現れた。

                                                                      京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改
                                                                    • 形態素解析器 Sudachi の辞書が手に入ったので Go で遊んでみた - 押してダメならふて寝しろ

                                                                      はじめに Sudachi はワークスアプリケーションズが絶賛開発中の形態素解析器で,Java で書かれています. 今一番新しい注目すべき形態素解析器で,次のような機能が特徴としてあげられています. 複数の分割単位の併用 必要に応じて切り替え 形態素解析と固有表現抽出の融合 多数の収録語彙 UniDic と NEologd をベースに調整 機能のプラグイン化 文字正規化や未知語処理に機能追加が可能 同義語辞書との連携 (後日公開予定) github.com 開発のステータスは公式には発表されていない(?)ようですが,開発中で本リリースはこれからかな・・・と思います.(実際のところ,スケジュールなどはどうなんでしょうか?) 最近,Sudachi の辞書がレポジトリからダウンロードできるようになったので,kagome の辞書に加工して少し遊んでみました. 以下,公式情報ではない&開発で変更される

                                                                        形態素解析器 Sudachi の辞書が手に入ったので Go で遊んでみた - 押してダメならふて寝しろ
                                                                      • 新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた

                                                                        このようにすることで、 そもそも mecab-ipadic-NEologd に意味はあるの? mecab-ipadic-NEologd で分かち書きして悪影響は無いの? mecab-ipadic-NEologd を週2回も更新することに意味はあるの? などの典型的な疑問について考察する材料を得たいと考えました。 学習器と特徴ベクトルの作り方 学習器は LIBLINEAR を使用しました。LIBLINEAR で学習するときのパラメーターですが、今回は辞書やデータごとに最適なパラメーターを探すことが今回の目的ではありません。そこで、別の期間のデータと MeCab 用の辞書を用意して、事前に実験と相対的に同様なデータと辞書の関係を作って探索することにしました。その結果、「s=5, c=0.8, B=-1」という設定が比較対象の UniDic にとって総合的に有利だったのでそれを採用しました。 各

                                                                          新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた
                                                                        • Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ

                                                                          TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。 長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。 検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。 サンプル実装: github.com 背景 この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transformers *1。 BERT等のTransformer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。 最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。

                                                                            Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
                                                                          • 【高等学校情報科 情報Ⅰ】教員研修用教材:MeCabによる形態素解析とWordCloudの作り方(python) - Qiita

                                                                            はじめに 今回は文部科学省のページで公開されている情報Ⅰの教員研修用教材の「質的データの分析」についてみていきたいと思います。 ここでは、MeCabによる形態素解析とWordCloudをRで実装する例が書かれています。 今回はその内容をpythonに置き換えていきたいと思います。 高等学校情報科「情報Ⅰ」教員研修用教材(本編):文部科学省 第4章情報通信ネットワークとデータの活用・巻末 (PDF:10284KB) PDF 環境 ipython Colaboratory - Google Colab 概要 今回は、「情報Ⅰ」教員研修用教材の「第4章情報通信ネットワークとデータの活用・巻末」について、 学習23 質的データの分析 のRの箇所をpythonに書き換えたいと思います。 テキストマイニングについて 1 形態素解析について pythonのソースコード MeCabを使えるように前準備しま

                                                                              【高等学校情報科 情報Ⅰ】教員研修用教材:MeCabによる形態素解析とWordCloudの作り方(python) - Qiita
                                                                            • ある個人開発 OSS の歩み: 5 歳になった Janome のこれまでと,これから - Speaker Deck

                                                                              Transcript ͋Δݸਓ։ൃ OSS ͷาΈɿ 5 ࡀʹͳͬͨ Janome ͷ͜Ε·Ͱͱɼ͜Ε͔Β PyConJP 2020 ଧాஐࢠ ࣗݾ঺հ ଧాஐࢠ ڵຯɿݕࡧʢຊۀʣɼػցֶशɼࣗવݴޠॲཧ ❤ OSS : Janome ։ൃऀɼApache Lucene committer ॴଐɿʢגʣLegalForce ݚڀ։ൃΤϯδχΞ @moco_beta Agenda Janome ͷ঺հ ॳظϦϦʔε͔Β͜Ε·Ͱ 0.4.0 ϦϦʔεͷ͓஌Βͤ ͜Ε͔Β΍͍͖͍ͬͯͨ͜ͱ https://mocobeta.github.io/janome/ 扉絵の この子は絵師さんに描いてもらいました (*´Ŗ`*) Hello, Janome $ pip install janome $ python >>> from janome.tokenizer import Tokenizer >

                                                                                ある個人開発 OSS の歩み: 5 歳になった Janome のこれまでと,これから - Speaker Deck
                                                                              • 自然言語処理用語と解析器まとめ - Qiita

                                                                                この記事では自然言語処理の入門者の方に向けに、自然言語処理の重要ワードと日本語用の主要な解析器をまとめました。 基本用語 自然言語(しぜんげんご、英: natural language)とは、人間によって日常の意思疎通のために用いられる、文化的背景を持って自然に発展してきた記号体系である。大別すると音声による話し言葉と文字や記号として書かれる書き言葉がある。 自然言語 - Wikipedia 我々が日常生活で使っている言語(話し言葉と書き言葉)のこと。自然言語以外の言語としては、例えばプログラミング言語や数式などが該当する。 自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。 自然言語処理 - Wikipedia 自然

                                                                                  自然言語処理用語と解析器まとめ - Qiita
                                                                                • IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab)

                                                                                  以下のフォームに文章を入力して「解析」ボタンを押下すると、チェックした辞書を使用したMeCabの解析結果が表示されます。 実行回数は1つのIPアドレスに付き1日30回に制限させて頂いております。また解析する文字列の長さの上限は512文字です。すいません、レン鯖なので無茶はできんとです。あと、Firefox3.5,Chrome3,IE8で動作を確認しています。古典的ブラウザでは動作しないかもしれません。 MeCab0.98を使用しています。解析を実行した文字列については一切のログを取っていませんので安心してお使いください。 IPA (mecab-ipadic2.7.0-20070801) NAIST (mecab-naist-jdic-0.6.1-20090630) UniDic現代語版 (unidic-mecab-1.3.12) UniDic近代文語版 (UniDic-MLJ-mecab_