並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 29 件 / 29件

新着順 人気順

UniDicの検索結果1 - 29 件 / 29件

  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

    • 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services

      Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

        日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services
      • IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab)

        以下のフォームに文章を入力して「解析」ボタンを押下すると、チェックした辞書を使用したMeCabの解析結果が表示されます。 実行回数は1つのIPアドレスに付き1日30回に制限させて頂いております。また解析する文字列の長さの上限は512文字です。すいません、レン鯖なので無茶はできんとです。あと、Firefox3.5,Chrome3,IE8で動作を確認しています。古典的ブラウザでは動作しないかもしれません。 MeCab0.98を使用しています。解析を実行した文字列については一切のログを取っていませんので安心してお使いください。 IPA (mecab-ipadic2.7.0-20070801) NAIST (mecab-naist-jdic-0.6.1-20090630) UniDic現代語版 (unidic-mecab-1.3.12) UniDic近代文語版 (UniDic-MLJ-mecab_

        • 形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

          形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。 ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,

            形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室
          • 「UniDic」国語研短単位自動解析用辞書

            「Web茶まめ」は複数のUniDic辞書で形態素解析のできるオンラインツールです。インストール作業も不要で使えるため、UniDicで形態素解析をしてみたい場合、まずはこちらをお試しください。

            • [O] UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました

              UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました Tweet [NLP] 今年3月中旬 [2015-03-13] に mecab-ipadic-NEologd をリリースして以来、mecab-ipadic-NEologd はとても順調に普及しています。 さて、今回は UniDic に新語や固有表現、Unicode 絵文字などを足すことができる mecab-unidic-NEologd を公開しました。 mecab-ipadic-NEologd を生成する手法を使っています。 https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md シードデータの性質上、構築されるシステム辞書には国語研短単位の条件を満たさないエントリも入りますので、あら

              • UniDic プロジェクト日本語トップページ - OSDN

                UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

                  UniDic プロジェクト日本語トップページ - OSDN
                • UniDic/中古和文UniDic - 言語データベースとソフトウェア

                  UniDic 2022/04/01 このページは更新は終了しています。UniDicの情報はこちらのページをご覧ください。 http://clrd.ninjal.ac.jp/unidic 2012/05/02 科研費報告書『和文系資料を対象とした形態素解析辞書の開発』(2012),『中古和文UniDic 短単位規程集』(2012)のPDFを公開しました。 形態素解析辞書 : 中古和文UniDic† UniDicの情報をまとめた新しいサイトがオープンしました。このページの内容は古い情報です。今後はこちらのページをご覧ください。 →https://clrd.ninjal.ac.jp/unidic/

                  • MeCab で UniDic 辞書を使ってみる / 桃缶食べたい。

                    MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。 今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ

                    • 国立国語研究所、形態素解析辞書「近代文語UniDic ver.1.3」及び「中古和文UniDicver.1.3」を公開

                        国立国語研究所、形態素解析辞書「近代文語UniDic ver.1.3」及び「中古和文UniDicver.1.3」を公開
                      • 形態素解析ウェブアプリUniDic-MeCab(複合名詞判定+サ変動詞判定ver付き)

                        そのまま→「自動車」は「自動」と「車」に,「日本国憲法」は「日本」「国」 「憲法」になります。 複合名詞判定→名詞,接頭辞,接尾辞の連続を複合名詞と判定します。「自動車」と「日本国憲法」の形で抜き出せます。ただし,文境界は区切ります。

                        • UniDic/近代文語UniDic - 総合

                          近代文語UniDic ver.0.8 利用条件 † 近代文語UniDic ver.0.8 の著作権は,小木曽智信,小椋秀樹,近藤明日子 および The UniDic consortiumが保持する。 近代文語UniDic ver.0.8 を複製又は改変することは,個人的な利用に限り認める。 近代文語UniDic ver.0.8 及びこれを改変したものを再配布してはならない。 近代文語UniDic ver.0.8 を利用して行った研究等の成果を公表する場合は,近代文語UniDic ver.0.8 を利用したことを明記すること。 営利を目的として,近代文語UniDic ver.0.8 を利用する場合は,事前に著作権者と協議すること。 近代文語UniDic ver.0.8 を利用することによって,直接的・間接的に生じたいかなる損害についても,著作権者は賠償する責任を負わない。 本文書に定めのない

                          • [小ネタ] mecab + unidic で出力フォーマットを整形する方法

                            編集長の佐藤(http://cocky.exblog.jp/)です。 最近当ブログも投稿が少ないのでちょっと小ネタをひとつ。 形態素解析といえばおなじみmecabですが、最近は標準のIPADICではなく、代わりにUniDicを使うケースがちょっとずつ出てきてます。特にVer.2.0.1以降はGPL/LGPL/BSDのトリプルライセンス化されたことでライセンス上の問題がなくなったので、その点でも使いやすくなりました。 ただmecabでUniDicを使うと、なぜか標準だと「–node-format」などの出力整形が効きません。しかもUniDicの場合、吊るしの状態で使うと「-Oyomi」などの出力フォーマット指定もできません(UniDicのdicrcに書いてないので当たり前ですが)。 でもIPADICと比べると、UniDicの方が辞書の収録語数などが圧倒的に多いので、どうしても「mecab +

                              [小ネタ] mecab + unidic で出力フォーマットを整形する方法
                            • UniDic - 総合

                              形態素解析辞書UniDic UniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 UniDic(現代語版)は次のダウンロードサイトから入手できます。 UniDicダウンロードサイト ↑

                              • UniDic - 言語データベースとソフトウェア

                                近代文語UniDic† 近代文語UniDicは、UniDic(現代語版)をもとにして近代文語文を解析できるようにした形態素解析辞書です。 近代文語UniDicについては次のページをご覧ください。 →近代文語UniDic ↑ 中古和文UniDic† 中古和文UniDicは、UniDic(現代語版)をもとにして中古の和文系資料(仮名文学作品,いわゆる古文)を解析できるようにした形態素解析辞書です。 中古和文UniDicについては次のページをご覧ください。 →中古和文UniDic

                                • takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる

                                  プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの MBROLAについてのエントリーを書こうと思っていたのですが、Unidicを使ったらどうなるだろうかと好奇心が沸いてしまって、前回作った mmtts.py を修正して使えるようにしてみました。 Unidic というのは、ChaSen や MeCab で使える 形態素解析辞書です。無料でダウンロードして使えるのですが、再配布は不可です。 http://www.tokuteicorpus.jp/dist/ Unidicは、国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されているという特徴を持ちますが、今回興味を持ったのはアクセントや音変化の情報が付加されていることです。この情報はGalateaTalkでも利用されているようです。そういうことを知ると、前回作った棒読み

                                    takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる
                                  • 概要 UniDic

                                    UniDicは日本語テキストに形態論情報を付与するための電子化辞書です。 UniDicは国立国語研究所のコーパスの構築に利用されています。 形態素解析辞書としてのUniDic(unidic-mecab)は形態素解析器MeCabの辞書として利用できます。 UniDicの特徴 FEATURE 国立国語研究所で規定した「短単位」という揺れの少ない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 アクセントや音変化の情報を付与することができ、音声処理の研究に利用することができます(現代語用のみ)。 言語資源としてのXML版UniDic 形態素解析辞書とは別に,言語資源として使いやすいXML形式にまとめたUniDicの公開を予定して

                                    • 茶筌chasen-2.4.2, Darts 0.31, UniDic1.3.5のインストール

                                      最新版茶筌chasen-2.4.2をDarts 0.31、UniDic1.3.5と組み合わせてインストールしました。結構落とし穴があるようなので、参考のためにブログに記します。 Darts 0.31のインストール wget http://chasen.org/~taku/software/darts/src/darts-0.31.tar.gz tar xvzf darts-0.31.tar.gz cd darts-0.31 ./configure *configure error: C++ prerrocessor "/lib/cpp" fails sanity check などのエラーが出たら、C++のコンパイラがインストールされていないということなので、gcc-c++をインストールする。 yum install gcc-c++ そして作業再開。 make make install ch

                                      • Kuromoji(Atilika)0.9-SNAPSHOTに、NEologd(ipadic、unidic)を適用してみた話 - CLOVER🍀

                                        Lucene Kuromojiとの組み合わせで、時々エントリを書いていますmecab-ipadic-NEologdですが、以前Kuromoji(Atilika)との組み合わせでは失敗したことがあります。 Kuromoji(Atilika)に、mecab-ipadic-neologdの辞書を適用できない?という話 http://d.hatena.ne.jp/Kazuhira/20150318/1426690374 Kuromoji http://www.atilika.org/ Kuromoji(GitHub) https://github.com/atilika/kuromoji で、このAtilikaのKuromojiなのですが、最近更新が活発なようで、masterブランチは0.9系になっています。 AtilikaのMavenリポジトリには、相変わらず0.7.7しかないのですが。 htt

                                          Kuromoji(Atilika)0.9-SNAPSHOTに、NEologd(ipadic、unidic)を適用してみた話 - CLOVER🍀
                                        • brewコマンドでmecab用のIPA/Juman/UniDic辞書をインストールする方法 - Qiita

                                          MeCab 用の辞書として、大きく3つあります。 私の感覚としては話し言葉にはUniDicを、文章にはIPAかJumanを用いると良いです。 IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞書 Juman 辞書, 京都コーパスに基づき CRF でパラメータ推定した辞書 UniDic 辞書, BCCWJコーパスに基づき CRF でパラーメータ推定した辞書 それぞれの違いは次の説明が分かりやすいです。 形態素解析と辞書をどのように選べばよいのか 一般に性能が良い、精度がよいものがよいというのであれば、MeCab + UniDic を利用すればよい。但し、出力される単位・品詞が後続の処理において有効であるものと無効であるものがある。付与されている各種情報に基づいて、用途による使い分けをお勧めする。 * 音韻的な情報が重要な場合 UniDic + MeCab を利用するが、

                                            brewコマンドでmecab用のIPA/Juman/UniDic辞書をインストールする方法 - Qiita
                                          • 国立国語研究所、「近代文語UniDic」ver.0.8を公開(2008-08-01) - ACADEMIC RESOURCE GUIDE (ARG) - ブログ版

                                            国立国語研究所が「近代文語UniDic」のver.0.8を公開した(2008-08-01)。 ・「近代文語UniDic」ver.0.8 http://www.kokken.go.jp/lrc/index.php?UniDic ・言語データベースとソフトウェア http://www.kokken.go.jp/lrc/ ・国立国語研究所 http://www.kokken.go.jp/ 「近代文語UniDic」は、近代文語文を解析するための形態素解析辞書で明治期の文語論説文の一般的な文章であれば、解析精度は96%から98%にのぼるという。なお、今回公開されたのは、ver.0.8という表示があるようにまだ完成版ではない。しかし、2008年度中には完成版を公開する計画で進行しているという。利用条件に合致する限りは誰でも近代文語UniDicのWindowsパッケージとバイナリ辞書をダウンロードできる

                                            • GitHub - neologd/ext-column-unidic-tokenized-surface: Column extension of a tokenized surface string with UniDic for mecab-*-NEologd

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                GitHub - neologd/ext-column-unidic-tokenized-surface: Column extension of a tokenized surface string with UniDic for mecab-*-NEologd
                                              • 現代・古典日本語の形態素解析・係り受け解析のためのunidic2ud | yasuokaの日記 | スラド

                                                私(安岡孝一)の8月21日の日記で公開したudkanbunを改造して、UniDicのMeCab辞書と、UDPipeのjapanese-gsdモデルが読めるようにした。これをさらに「Chamame2UD.py」と機能統合して、手元に辞書がある場合はローカルで高速に、ない場合はWeb APIを叩くことで低速に、動作するよう書き直してみた。unidic2udというpython3モジュールとして、PyPIからリリースしたので、ぜひ使ってみてほしい。インストールは、とりあえずは % python3 >>> import unidic2ud >>> ja=unidic2ud.load("gendai") >>> s=ja("笑顔で彼は座った") >>> print(s) # text = 笑顔で彼は座った 1    笑顔    笑顔    NOUN    名詞-普通名詞-一般    _    5   

                                                • UniDic ってなんだ (Python で人工無能) - 傀儡師の館.Python:楽天ブログ

                                                  2003.01.07 UniDic ってなんだ (Python で人工無能) カテゴリ:ことばの処理 UniDic ってなんだ ちょっと今日はプログラムはお休みだけれど、形態素解析器 MeCab (和布蕪) の作者、工藤氏のMeCabのメーリングリスト(目次の次に参加方法が書かれている) を見ていたら、UniDic に関しては 話し言葉研究に適した電子化辞書の設計 (PDF) を見るとよいと分かった。この論文は非常に分かりやすく書かれていて文系の人でも読むことができる。「自然言語処理ってなんだろう」って思う人も読んでみると面白いだろうし、言葉としての日本語に興味がある人もたまには、こういう論文を読んでみると楽しいかもしれない。たとえば、「一本、二本、三本」を口に出して読んでみよう。あれ、「本」は「ポン」と読んだり「ホン」と読んだり「ボン」と読んだりするけど、コンピュータにこれを読ませる(音

                                                    UniDic ってなんだ (Python で人工無能) - 傀儡師の館.Python:楽天ブログ
                                                  • ダウンロードファイル一覧 - UniDic - OSDN

                                                    UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

                                                      ダウンロードファイル一覧 - UniDic - OSDN
                                                    • BSD/LGPL/GPLのトリプルライセンスで公開された日本語形態素解析用辞書UniDic - 自然言語処理 on Mac

                                                      UniDicは比較的短い単位で語を分割する形態素解析システム用の日本語辞書です。標準的な表記や音声言語処理に適した発音の情報などが付けられていて、例えば「すもも」に対して標準的な表記である「李」、「言う」の発音として「ユウ」ではなく実際の発音に近い「ユー」が記述されています。以前から再配布できない形では公開されていましたが、最近、BSD/LGPL/GPLのトリプルライセンスでMeCab用の辞書unidic-mecabがリリースされました: UniDic プロジェクト日本語トップページ - OSDN unidic-mecabのバイナリ版をMacPortsのportにパッケージして、MeCabで使えるようにしてみました: $ sudo port selfupdate $ sudo port clean mecab-utf8 $ sudo port install mecab-utf8 +uni

                                                        BSD/LGPL/GPLのトリプルライセンスで公開された日本語形態素解析用辞書UniDic - 自然言語処理 on Mac
                                                      • 国立国語研究所]国立国語研究所、「近代文語UniDic」ver.1.0を公開(2009-03-31) - ACADEMIC RESOURCE GUIDE (ARG) - ブログ版

                                                        国立国語研究所]国立国語研究所が「近代文語UniDic」ver.1.0を公開した(2009-03-31)。 ・「近代文語UniDic」ver.1.0 http://www.kokken.go.jp/lrc/index.php?UniDic ・言語データベースとソフトウェア http://www.kokken.go.jp/lrc/ ・国立国語研究所 http://www.kokken.go.jp/ これは日本語形態素解析辞書UniDicに基づき近代文語文を解析できる形態素解析辞書で、明治期の文語論説文で、一般的な文章を対象とした場合、96%から98%程度の精度での解析をできるという。 ・「国立国語研究所、「近代文語UniDic」ver.0.8を公開(2008-08-01)」(新着・新発見リソース、2008-09-08) http://d.hatena.ne.jp/arg/20080908/1

                                                        • リリース unidic-mecab 2.1.2 - UniDic - OSDN

                                                          UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

                                                            リリース unidic-mecab 2.1.2 - UniDic - OSDN
                                                          • BERTモデルを用いた日本語係り受け解析ツールSuPar-UniDicリリース | yasuokaの日記 | スラド

                                                            昨年12月26日の日記で紹介したSuParを、UniDic2UDに繋いで、SuPar-UniDicという日本語係り受け解析ツールを試作してみた。現時点では、10種類のUniDic(unidic-liteを含む)を、7種類のBERTモデルと繋げられるので、合計70種類の組み合わせが楽しめる。しかも、解析結果はspaCy準拠だ。とりあえず、インストール。 $ pip3 install git+https://github.com/yzhangcs/parser --user $ pip3 install suparunidic --user

                                                            1