並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 250件

新着順 人気順

UniDicの検索結果201 - 240 件 / 250件

  • brewコマンドでmecab用のIPA/Juman/UniDic辞書をインストールする方法 - Qiita

    MeCab 用の辞書として、大きく3つあります。 私の感覚としては話し言葉にはUniDicを、文章にはIPAかJumanを用いると良いです。 IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞書 Juman 辞書, 京都コーパスに基づき CRF でパラメータ推定した辞書 UniDic 辞書, BCCWJコーパスに基づき CRF でパラーメータ推定した辞書 それぞれの違いは次の説明が分かりやすいです。 形態素解析と辞書をどのように選べばよいのか 一般に性能が良い、精度がよいものがよいというのであれば、MeCab + UniDic を利用すればよい。但し、出力される単位・品詞が後続の処理において有効であるものと無効であるものがある。付与されている各種情報に基づいて、用途による使い分けをお勧めする。 * 音韻的な情報が重要な場合 UniDic + MeCab を利用するが、

      brewコマンドでmecab用のIPA/Juman/UniDic辞書をインストールする方法 - Qiita
    • ソフトウェア公開とライセンス – nishimotzの日記

      ソフトウェアの公開とライセンスに関して議論をする場があったので、気づいたことや感じたことを書いておきます。 例えば Linux 用の一般的な(glibcを動的にリンクしている=LGPLが適用される)実行バイナリを、登録者だけが利用できるように、ダウンロードサイトにパスワード保護をかけたり、ZIPファイルにパスワード暗号化をかけたりすることは、LGPLに違反する恐れがあるそうです。 だとすると過去にGalatea Toolkitを配付した際にも不適切な状況があったかも知れません。。 大学、研究機関、研究グループなどが配付するツールやスクリプトには、再配布が禁止されているものがあります。 私の関わる分野で有名なのはHTKですが、この配布形態についてはあまり不満が聞かれません。 強いていえばHTKの派生ソフトウェアであるHTSがHTKへのパッチとして配付されていることが、利用者にとって多少不便か

        ソフトウェア公開とライセンス – nishimotzの日記
      • 国立国語研究所、「近代文語UniDic」ver.0.8を公開(2008-08-01) - ACADEMIC RESOURCE GUIDE (ARG) - ブログ版

        国立国語研究所が「近代文語UniDic」のver.0.8を公開した(2008-08-01)。 ・「近代文語UniDic」ver.0.8 http://www.kokken.go.jp/lrc/index.php?UniDic ・言語データベースとソフトウェア http://www.kokken.go.jp/lrc/ ・国立国語研究所 http://www.kokken.go.jp/ 「近代文語UniDic」は、近代文語文を解析するための形態素解析辞書で明治期の文語論説文の一般的な文章であれば、解析精度は96%から98%にのぼるという。なお、今回公開されたのは、ver.0.8という表示があるようにまだ完成版ではない。しかし、2008年度中には完成版を公開する計画で進行しているという。利用条件に合致する限りは誰でも近代文語UniDicのWindowsパッケージとバイナリ辞書をダウンロードできる

        • GitHub - neologd/ext-column-unidic-tokenized-surface: Column extension of a tokenized surface string with UniDic for mecab-*-NEologd

          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

            GitHub - neologd/ext-column-unidic-tokenized-surface: Column extension of a tokenized surface string with UniDic for mecab-*-NEologd
          • chasen legacy -- an old morphological analyzer

            ChaSen -- 形態素解析器 はじめに 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。 新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布 ダウンロード あらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書(奈良先端大より公開予定) NAIST-Chinese-dic 中国語語辞書(奈良先端大より公開予定) 著作権および仕様条件について 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフ

            • Google App Engine Java で形態素解析器の比較 | Altus-Five Labs

              以前、Google App Engine Java で形態素解析器を作成しました。以前の記事はこちら。 今回は、これに改良を加えました。 改良前に使用していた辞書は、IPAdic でしたが、これを NAIST-jdic に入れ替えてみました。 そして、せっかくなので、IPAdic と NAIST-jdic の違いを見てみようと、両方の辞書で解析して、結果を並べて表示するようにして、それをやるなら、ついでに、Yahoo!JAPAN WEB API の日本語形態素解析の解析結果も並べて表示できるようにしました。 ご興味のある方、試してみてください。 http://agolabs.appspot.com/ * IPAdic と NAIST-jdic の違いで、一番わかりやすいのはアルファベットです。 ◇ 辞書について 形態素解析器といえば、ChaSen や Mecab ですが、これらのエンジ

              • TTM: TinyTextMining で簡単なテキストマイニング - 傀儡師の館.Python:楽天ブログ

                2007.10.24 TTM: TinyTextMining で簡単なテキストマイニング カテゴリ:ことばの処理 TTM: TinyTextMining を見る。テキストファイルをドラッグアンドドロップすると、CSV 形式で結果ファイルを作ってくれる。自由記述のアンケートの分析のために作られたのかな。KH-Coder と比べると気軽に使える。 形態素解析は MeCab を使っているので、あらかじめダウンロード、インストールしておく必要がある。結果として作られるファイルは、次のものでクロス集計まで出してくれるのでけっこう便利かもしれない。 語のタグ別出現度数(単語頻度) 語のタグ別出現度数(文書頻度) 語×タグのクロス集計(単語頻度) 語×タグのクロス集計(文書頻度) 語×語のクロス集計(文書頻度) テキスト×語のクロス集計(単語頻度) 使い方は簡単で TTM: 初心者のためのインストールガ

                • PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する(その2) - Qiita

                  PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する(その2)Pythonpodcastwhisperbert はじめに 前回の記事では、Podcast配信の仕組みを踏まえて、各エピソードの音声ファイルのURLを取得し、Whisperで文字起こしするところまでを書きました。このとき、文字起こしはできたものの、なぜか句読点が入らないという問題がありました。 そこで今回は、句読点のない文章に句読点を入れる方法を取り上げます。先にお伝えしておきますが、私はこの領域には知見が浅く、「句読点の無い文章に句読点を挿入する(BERTによる予測)」の記事を大いに参考にさせていただきました。 こんな方におすすめ 文字起こしをしたものの句読点が入らず困っている あまり詳しくないもののとりあえずBERTを動かしてみたい 句読点付与の成果 先にどのような結果となったのかをお

                    PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する(その2) - Qiita
                  • 自然言語処理リソースにまつわる諸問題 - 武蔵野日記

                    午後は研究会。和歌の解析はどうしたらいいか、という話題なのだが、@togisoさんが中古和文 UniDic を作っているので、MeCab でこれを使えばいいのではないかな? 古文を対象にした研究も一定の需要はあると思うので、こういうリソースが公開されているのはありがたい。 daiti-m さんがやっていたような教師なしの単語分割がスケールすれば教師なしでやるのもおもしろいかもしれないが、とりあえず分かち書きすることが目的なのであれば、少量のデータにタグ付けして学習するのがコスト的には妥当な判断だろう。(論文を見ると上記 UniDic は源氏物語と大和物語と土佐日記と紫式部日記合計64,000語にタグ付けしたコーパスから学習しているようだ) 先日注文していたNTTの「基本語データベース」が到着。 基本語データベース:語義別単語親密度 作者: 天野成昭,小林哲生出版社/メーカー: 学研プラス発

                      自然言語処理リソースにまつわる諸問題 - 武蔵野日記
                    • 【自然言語処理】BERTを利用して論文のアブストラクトから類似文章を解析 - Qiita

                      1.本記事の目的、学習内容 2.今回学習したBERTについて 3.実施手順一覧 4.学習内容の考察 ###1.本記事の目的、学習内容 自身の学んでいる、また仕事としている分野において調査を進めていく際に関連論文のアブストラクトを検索し抽出し、より類似性の高い記事をピックアップを行うことで調査を効率化することを目標として自然言語処理を学習しています。 ###2.今回学習したBERTについて BERTとは、2018年にGoogleから発表された自然言語処理モデルのことです。 最大の特徴は「文脈を読むことが可能になった」ことで、多様なタスクにおいて当時の最高スコアを叩き出し、スマートスピーカーなどの性能を革新的に飛躍させた技術であり、自然言語処理という分野の中では私たちの暮らしの一番身近にある検索エンジンに利用されている身近な技術の一つです。 日本では、日立ソリューションズは「活文 知的情報マイ

                        【自然言語処理】BERTを利用して論文のアブストラクトから類似文章を解析 - Qiita
                      • 社会調査のための計量テキスト分析 - 株式会社ナカニシヤ出版

                        文書の内容分析を質的・量的に実現する手法 内容分析を質・量ともに実現可能にする画期的なソフトウエアの紹介。 社会調査などの研究で盛んに用いられている実績あるテキスト型データ分析用フリーソフト、 「KH Coder」の利用方法と実際の解析事例を紹介する。 【著者紹介】 樋口耕一(ひぐち・こういち) 1978年生まれ。2005年大阪大学大学院人間科学研究科修了。博士(人間科学)。 日本学術振興会特別研究員,大阪大学大学院人間科学研究科助教を 経て,立命館大学産業社会学部准教授。 【主要業績】 『コーパスとテキストマイニング』(共立出版,2012 年,共著) 『データアーカイブSRDQ で学ぶ社会調査の計量分析』(ミネルヴァ書房,2010 年,共著) 「情報化イノベーションの採用と富の有無」(『ソシオロジ』,57 巻3 号,2013 年)。 ●正誤表 出版にあたっては,誤字誤植等の無いよう,細心

                          社会調査のための計量テキスト分析 - 株式会社ナカニシヤ出版
                        • MLFlowと他ツールの組み合わせ - Retrieva TECH BLOG

                          こんにちは。カスタマーサクセス部 リサーチャーの坂田です。 レトリバでは、固有表現抽出、分類、PoC用ツール作成に取り組んでいます。 PoC用ツール作成は、研究成果をより迅速にPoCで試せることを狙いとしています。 実験結果の可視化UIが充実しているMLFlow を中心に、足りないところを補うため、その他のツールとの組み合わせについて考えていきます。 MLFlow MLFlow は、実験管理からデプロイまでカバーしたツールです。特定のツールに依存しないということに重きを置いています。 4つのコンポーネントに分かれており、必要な機能のみを使えるようになっています。 MLflow Tracking : パラメータ、コードのバージョン管理、生成物の捕捉などを行う機能など。 MLflow Projects : 再現性を担保するための機能など。 MLflow Models : デプロイの支援機能など

                            MLFlowと他ツールの組み合わせ - Retrieva TECH BLOG
                          • 【Python】形態素解析エンジンMeCabをPythonでやってみた。 せっかくなのでパーソルP&T社長メッセージから単語を出現数順に抽出してみたよ。|パーソルプロセス&テクノロジー SMKT事業部

                            #インストール pip install mecab-python3 #辞書インストール pip install unidic-liteこれで準備OKです。 2. 基本的な使い方基本的な使い方も先ほどのサイトにならって実行してみます。 import MeCab wakati = MeCab.Tagger("-Owakati") wakati.parse("pythonが大好きです").split()#実行結果 ['python', 'が', '大好き', 'です'] 分かち書きができました! ※分かち書きとは、文章の語の区切りに空白を挟んで記述することです。 tagger = MeCab.Tagger() print(tagger.parse("pythonが大好きです"))#実行結果 python python  python python   名詞-普通名詞-一般 0 が   ガ    

                              【Python】形態素解析エンジンMeCabをPythonでやってみた。 せっかくなのでパーソルP&T社長メッセージから単語を出現数順に抽出してみたよ。|パーソルプロセス&テクノロジー SMKT事業部
                            • 現代・古典日本語の形態素解析・係り受け解析のためのunidic2ud | yasuokaの日記 | スラド

                              私(安岡孝一)の8月21日の日記で公開したudkanbunを改造して、UniDicのMeCab辞書と、UDPipeのjapanese-gsdモデルが読めるようにした。これをさらに「Chamame2UD.py」と機能統合して、手元に辞書がある場合はローカルで高速に、ない場合はWeb APIを叩くことで低速に、動作するよう書き直してみた。unidic2udというpython3モジュールとして、PyPIからリリースしたので、ぜひ使ってみてほしい。インストールは、とりあえずは % python3 >>> import unidic2ud >>> ja=unidic2ud.load("gendai") >>> s=ja("笑顔で彼は座った") >>> print(s) # text = 笑顔で彼は座った 1    笑顔    笑顔    NOUN    名詞-普通名詞-一般    _    5   

                              • 言語コーパスガイダンス コーパス開発センター -Center for corpus development-

                                コーパスのつくり方 構築するコーパスの目的や用途により、つくり方はいろいろありますが、ここでは『現代日本語書き言葉均衡コーパス』を例につくり方を紹介します。 1. サンプリングの方法 コーパスに採録するサンプルは無作為に選ばれます。 例えば書籍の場合、1986年から2005年の間に出版された書籍を対象として、そこから無作為に約30,000サンプルを選び出しました。 実際にサンプリング作業を行うと、ある本のあるページのある文字が選ばれます。これをサンプリング点と言います。 コーパスには、サンプリング点を含む2種類のサンプルを格納します。 2. サンプルの作成 1)コーパスに採録する部分を確定します サンプリング点が決まったら、実際に採録するサンプルの範囲を確定します 2)著作権処理を行います 各サンプルについて、著作権処理を行います。使用許諾が得られなかったものは、採録されません。 3. サ

                                  言語コーパスガイダンス コーパス開発センター -Center for corpus development-
                                • UniDic ってなんだ (Python で人工無能) - 傀儡師の館.Python:楽天ブログ

                                  2003.01.07 UniDic ってなんだ (Python で人工無能) カテゴリ:ことばの処理 UniDic ってなんだ ちょっと今日はプログラムはお休みだけれど、形態素解析器 MeCab (和布蕪) の作者、工藤氏のMeCabのメーリングリスト(目次の次に参加方法が書かれている) を見ていたら、UniDic に関しては 話し言葉研究に適した電子化辞書の設計 (PDF) を見るとよいと分かった。この論文は非常に分かりやすく書かれていて文系の人でも読むことができる。「自然言語処理ってなんだろう」って思う人も読んでみると面白いだろうし、言葉としての日本語に興味がある人もたまには、こういう論文を読んでみると楽しいかもしれない。たとえば、「一本、二本、三本」を口に出して読んでみよう。あれ、「本」は「ポン」と読んだり「ホン」と読んだり「ボン」と読んだりするけど、コンピュータにこれを読ませる(音

                                    UniDic ってなんだ (Python で人工無能) - 傀儡師の館.Python:楽天ブログ
                                  • ダウンロードファイル一覧 - UniDic - OSDN

                                    UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

                                      ダウンロードファイル一覧 - UniDic - OSDN
                                    • ツイッタートレンド解析のためのプログラム(個人的メモ) - Qiita

                                      こんにちは。自分は現在駒澤大学GMS学部の2年生でタイトルにあるようにツイッターのトレンドについて研究しています。この記事では研究やコードや参考になりそうなものを紹介します。 元々、ツイッタートレンドに興味があり、1年生の頃から、PythonとTwitterAPIとMeCabを使っていましたが、形態素解析して単語ごとに集計するという原始的なものでした。他に言語と位置情報や出現する漢字などで遊んでいました() ↓ そしてN-gramの要領で例えば2-12単語節ごとに記録し、全てを集計する簡易的なトレンド解析ができました。補足として、単語節にはツイッターのトレンドにあるように助詞がどこにこないとか助動詞がどうとか、だいぶ手作業で規則を作りました。これが2年生最初の頃です ↓ その後、何を研究するかとなった時に、一日の中で変動する定常トレンドを定義してモデル化というアイデアもありましたが、それを

                                        ツイッタートレンド解析のためのプログラム(個人的メモ) - Qiita
                                      • mecab with Wikipedia辞書 - shtst

                                        mecab with Wikipedia辞書 mecabがさりげなくバージョンアップしていたので再インストールした.. $brew install --with-charset=utf8 mecab mecabを入れたら辞書をダウンロード.こちらから「最新版Linux/Cygwin用パッケージ unidic-1.3.12-pkg.tar.gz (Linux/Cygwin用インストーラ付き)」というのをダウンロード. $tar xvf unidic-1.3.12-pkg.tar.gz $cd unidic-1.3.12-pkg $./configure --prefix=/opt/local/ --with-use-chasen=0 $make $make install 今回は/opt/local/以下にインストールした.次にwikipediaの単語集を取得.ここから「jawiki-lat

                                          mecab with Wikipedia辞書 - shtst
                                        • Eclipse(Kepler) on Mac - ファイル名の文字化け | code up

                                          Macbook AirでEclipse - Keplerをセットアップした。社内にあるGitリポジトリからクローンしたら日本語のファイル名が文字化け(正確にはクエスチョンマークに)。原因から察するにSubversionも同様だと思われるが、残念ながらSVNには日本語名のファイルがなかったので未確認。 Mountain Lion (10.8.4) 64bit + Eclipse Kepler (4.3) + Java 7の環境であったが、犯人は「Java 7」であった。 参考にしたのはこちらの記事。ありがとうございます。 sudo vi /etc/launchd.conf としてファイルを作成。 setenv LANG ja_JP.UTF-8 の1行を書いて保存。Mac自体を再起動。 上記だけで良かったのかも知れないけれど、/Application/eclipse/Eclipse.app/C

                                          • 読み仮名データベース - Nihongo Furigana DB

                                            このサイトについて このサイトでは任意の文字列を入力することで文字列の解析や合成された音声を聞くことが出来るサイトです。 楽曲検索システム MusicNavi2 開発の一部として作成されたシステムのため、 アーティスト名や楽曲名に強いのが特徴です。 使い方 上のメニューより「検索」を選択し、 画面に表示されたテキストボックスに文字を入力してください。 Macromedia FLASH を利用できる環境の場合、合成された音声を簡単に試聴することができます。 利用規約 『読み仮名データベース - Nihongo Furigana DB』(以下、本サービス)は試験的に公開しており事前の連絡無しにサービス停止する可能性が有ります。 本サービスを利用された場合、以下の規約に同意されたものと見なされます。 本規約は変更される可能性があり、サイトに掲載された時点から変更された規約は有効となります。 検索

                                            • Raspberry Pi 3に形態素解析エンジン MeCabをインストールして形態素解析をする方法 (ラズパイ3で オープンソースの形態素解析エンジン MeCabをコンパイルして使用する方法まとめ)

                                              ● Raspberry Pi 3 Model Bでオープンソースの形態素解析エンジン MeCabを動かす MeCab: Yet Another Part-of-Speech and Morphological Analyzer MeCab (和布蕪)とはオープンソース 形態素解析エンジンです。 名称は開発者の好物「和布蕪(めかぶ)」から取られた。 ● MeCabインストール手順 MeCab ダウンロード からダウンロードします。 ・MeCab本体 ・MeCab用の辞書 ・Python用ライブラリ 現在はグーグルドライブにファイルが置かれており、wgetでダウンロードするには URLを工夫する必要が有ります。 https://drive.google.com/uc?export=download&id={idパラメータ} を https://googledrive.com/host/{idパ

                                              • BSD/LGPL/GPLのトリプルライセンスで公開された日本語形態素解析用辞書UniDic - 自然言語処理 on Mac

                                                UniDicは比較的短い単位で語を分割する形態素解析システム用の日本語辞書です。標準的な表記や音声言語処理に適した発音の情報などが付けられていて、例えば「すもも」に対して標準的な表記である「李」、「言う」の発音として「ユウ」ではなく実際の発音に近い「ユー」が記述されています。以前から再配布できない形では公開されていましたが、最近、BSD/LGPL/GPLのトリプルライセンスでMeCab用の辞書unidic-mecabがリリースされました: UniDic プロジェクト日本語トップページ - OSDN unidic-mecabのバイナリ版をMacPortsのportにパッケージして、MeCabで使えるようにしてみました: $ sudo port selfupdate $ sudo port clean mecab-utf8 $ sudo port install mecab-utf8 +uni

                                                  BSD/LGPL/GPLのトリプルライセンスで公開された日本語形態素解析用辞書UniDic - 自然言語処理 on Mac
                                                • JUMAN メモ

                                                  黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。 何をしているのか。他の解析器 (ChaSen と Mecab) との比較など。 最近だと Yahoo! JAPAN の形態素解析 API なんてものがあるけど、仕様がよくわからない。 タスク: 日本語の形態素解析 文を形態素に区切る 各形態素に品詞を割り当てる 「名詞」や「動詞」など 内容物 プログラム デフォルトの文法辞書 デフォルトの形態素辞書 プログラムは放置で、実質的に辞書のみの更新。誰かどうにかしてほしいレガシーコード。 文法辞書と形態素辞書は利用者が自由に定義できるとマニュアルではうたっているが、デフォルト以外の辞書が配布されている例を知らない。 ChaSen と MeCab は配布のレベルで、プログラムと辞書を分離している。 IPAdic, NAIST jdic, UniDicなど エンコーディング デ

                                                  • TokyoNLP#8に行って来ました - White scenery @showyou, hatena

                                                    http://atnd.org/events/22199 遅刻していっこめ聞けなかったのが残念。気をつけます。 着いたらいきなりせんせーっぽい方が講演されてたんだけど、学会じゃなくて勉強会だよな・・ 面白かったですが。 個人的にはshuyoさんの発表で、岡野原さんの極大部分文字列の発表についての説明があったのが一番参考になりました。 もういっぺんあの論文読んでみます。 あとshuyoさんの発表で、「pythonで遅い」って話があったけど、PyPyでも使ってみたら早くなるんじゃないだろうかと思いました。 それとKyTeaに関しては以前@neubigさんに「魔法少女リリカルなのはで分割できますか?」とか酷い質問したことがあったので今度余裕があったらまた触ってみます。liblinearはいいっすよね。 以下ログ。 2.点予測による自然言語処理 ルールベース→統計・機械学習→言語資源中心 ユーザデ

                                                      TokyoNLP#8に行って来ました - White scenery @showyou, hatena
                                                    • 日本語の構文解析における3つの「係り受け」

                                                      日本語の構文解析においては、3つのレベルでの「係り受け」が存在する。 佐伯梅友・橋本進吉らによる句の「係り受け」(いわゆる学校文法) 吉田将・栗原俊彦らによる二文節間の「係り受け」(いわゆる文節係り受け) Joakim Nivre・金山博らによる単語間の「係り受け」(いわゆる依存文法) これらの3つの「係り受け」は、それぞれに関係はあるものの、情報処理という視点から見た場合には、アプローチがかなり異なっている。この記事の[問2]例文「Alexは男性にも女性にも使われる名前で、女性の名Alexandraの愛称であるが、男性の名Alexanderの愛称でもある。」をもとに、概説しておこう。 (1) 句の「係り受け」 いわゆる学校文法における句の「係り受け」は、文全体を少しずつ区切っていきながら、区切りにおける「係り受け」を考える、という点に大きな特徴がある。「係り受け」は一般に、文頭に近い方の

                                                      • よくある質問(FAQ)

                                                        KH Coderについて質問をしたいときには KH Coderのインストールやエラーについて KH Coderには、分析対象データを外部に送信(アップロード)する機能がありますか? 「安全にダウンロードすることはできません」「一般的にダウンロードされていません」「お使いのデバイスに問題を起こす可能性があるため、ブロックされました」などと表示されてダウンロードできません(Edge) 「ダウンロードしたユーザー数が少ないため、デバイスに問題を引き起こす可能性があります」と表示されてダウンロードできません(Internet Explorer 11) 「WindowsによってPCが保護されました」と表示されてインストールできません(Windows) KH Coderが正常に起動しません(Windows) 「新規プロジェクト」画面が「応答なし」になります 「新規プロジェクト」画面で「ファイルを開けな

                                                        • 国立国語研究所]国立国語研究所、「近代文語UniDic」ver.1.0を公開(2009-03-31) - ACADEMIC RESOURCE GUIDE (ARG) - ブログ版

                                                          国立国語研究所]国立国語研究所が「近代文語UniDic」ver.1.0を公開した(2009-03-31)。 ・「近代文語UniDic」ver.1.0 http://www.kokken.go.jp/lrc/index.php?UniDic ・言語データベースとソフトウェア http://www.kokken.go.jp/lrc/ ・国立国語研究所 http://www.kokken.go.jp/ これは日本語形態素解析辞書UniDicに基づき近代文語文を解析できる形態素解析辞書で、明治期の文語論説文で、一般的な文章を対象とした場合、96%から98%程度の精度での解析をできるという。 ・「国立国語研究所、「近代文語UniDic」ver.0.8を公開(2008-08-01)」(新着・新発見リソース、2008-09-08) http://d.hatena.ne.jp/arg/20080908/1

                                                          • MeCab辞書を全文検索エンジンGroonga用に調整する方法 - CreateField

                                                            システム辞書の選定 MeCab辞書の種類 MeCab用のシステム辞書は、以下のものが存在する。 IPAdic http://code.google.com/p/mecab/downloads/list Jumandic http://code.google.com/p/mecab/downloads/list UniDic http://sourceforge.jp/projects/unidic/ NAIST-jdic http://sourceforge.jp/projects/naist-jdic/ UniDic 「短単位」という揺れが少ない斉一な単位を見出し語に採用している 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる 話し言葉のテキストの解析に対応しているほか、アクセントや音変化の情報を付与することができ、音声処

                                                            • ChaKi Wiki - ChaKi - OSDN

                                                              最近の更新 (Recent Changes)2021-01-24長単位情報付きCabochaファイルのインポート 2021-01-19Projectを指定してインポートを行う 2021-01-17CONLL-Uファイルのインポート FrontPage 拡張Cabochaフォーマットへのエクスポート 2020-01-17FAQ 最新リリース情報ChaKi.NET (3.16 Revision 653)2021-01-23 23:11ChaMame (1.0.4)2020-01-14 17:04Patch Files (TextFormatter for ChaKi.NET (2010/11/20))2010-11-21 23:23その他 (CaboCha-0.66/UniDic用モデルファイル)2013-02-18 17:00旧版[ChaKi Legacy] (2.1.0 Build 202

                                                                ChaKi Wiki - ChaKi - OSDN
                                                              • mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita

                                                                記事の内容は古くなっていると思います。 最新の状態はGitHubで確認してください。 最近、スクレイピングでデータを取得したり、mecabで形態素解析を行ったり、様々な分析を行ったりしております。 最近の記事 青空文庫の書籍をDoc2Vecでクラスタリング 文春オンラインの記事をスクレイピング&ネガポジ分析 その際どんな環境で分析を行っているかというと、全てDocker環境で行っています。 今回は私が使っているDockerfileを公開いたします。 ベース:ubuntu 入っているもの:anaconda,mecab,NEologd,gensim,janome,BeautifulSoupなど 工夫した点:NEologdをデフォルト辞書に設定したこと。こうすることでmecabを起動する度にNEologd辞書を指定する必要がない。 参考 かめさんのudemy Docker講座・・・私のDocke

                                                                  mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita
                                                                • ワークショップ 辞書作り課題のアイデアソン #NLPStudy

                                                                  ワークショップ 辞書作り課題のアイデアソン #NLPStudy 1. 辞書作り課題のアイデアソン 〜あなたの辞書作り課題を話しあいましょう!〜 @nezuq NLP勉強会 #1 (#NLPStudy) 2. なぜ辞書作りか? 形態素解析とは、 文章を形態素(単語みたいなもの)に分割し、 品詞を判定する作業です。 形態素解析が自然言語処理の基本にあり、 以降の解析やサービス活用の精度はこの解析結果に強く依存します。 そして、形態素解析の精度は辞書の語彙に強く依存します。 3. MeCab/IPA辞書で試してみる。 MeCab(オープンソースの形態素解析エンジン)では、 IPA辞書・Juman辞書・Unidic辞書の3種類のシステム辞書が 用意されています。 その内、IPA辞書での実行結果が下記のものです。 精度が低いです。 $ mecab 艦隊これくしょんをプレイする。 艦隊名詞,一般,*,

                                                                    ワークショップ 辞書作り課題のアイデアソン #NLPStudy
                                                                  • Amazon LinuxにMeCabとMeCab-rubyをインストールする - 技術メモ for me

                                                                    Amazon EC2上のAmazon LinuxにMeCabと、rubyバインディングのMeCab-rubyをインストールしようとしたらハマったので、記録しておく。 環境 OS Amazon Linux (EC2インスタンス) ruby 1.9.3 MeCab 0.996 辞書 IPA辞書2.7.0 / UniDic辞書2.1.2 Amazon Linuxにはデフォルトでruby 1.8系がインストールされているが、1.9系が使いたかったので自分でインストールしている。 事前準備 必要なパッケージを事前にインストールしておく。 $ sudo yum -y install ruby19-devel rubygems19-devel gcc gcc-c++ make なお、Amazon Linuxではruby1.8系は内部ツール(aws-tools)で用いているために、上書きせずに、ruby1

                                                                    • リリース unidic-mecab 2.1.2 - UniDic - OSDN

                                                                      UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

                                                                        リリース unidic-mecab 2.1.2 - UniDic - OSDN
                                                                      • 島根県CMS [ja.nishimotz.com]

                                                                        島根県CMSを参考にスクラッチから開発。GalateaTalkも使用「徳島県がRubyの独自開発CMS「Joruri」でサイトを刷新,OSSとして公開へ」 http://bit.ly/6KugCP GalateaTalk (gtalk) 関連の利用状況を確認する。 作業環境は Ubuntu Linux 9.04 である。日常的に Galatea Toolkit や Ruby on Rails の開発に使っている環境。 2009年8月8日現在の最新版である 1.1.0 のソースを確認してみる。 $ tar xvfz pref-shimane-cms-1.1.0.tar.gz $ cd pref-shimane-cms-1.1.0 音声合成関連は tool/gtalk/ にある。 $ ls -1 tool/gtalk/ gtalk/ morph/ rubi-adder/ speakers/ v

                                                                        • 形態素解析を使ったchatbotをvscode上で実装 - Qiita

                                                                          はじめに DialogflowやBotpressのようなシナリオ型のchatbot あいさつをしたらあいさつを返してくれるような辞書型のchatbot openaiのAPIキーを取得したchatbot 簡易的なものですがそれらをvscode上で一つにして実装しました。 Pythonとvscode自体のインストールと、Pythonの基本的なコードの説明は割愛させていただきます。 システム要件 今回実装した機能はこちらになります。 シナリオ型 日記の作成をしてくれる お店や旅行の予約をしてくれる 辞書型 あいさつしたらあいさつを返してくれる 天気を聞いたら天気を返してくれる openaiの呼び出し 対応しない会話に対して応答してくれる 以下がデモンストレーションになります。 システム構成 システム構成は以下になります。 my_chat_bot (プロジェクト) | ・scenario |  |

                                                                            形態素解析を使ったchatbotをvscode上で実装 - Qiita
                                                                          • 概要 国語研日本語ウェブコーパス(NWJC)

                                                                            データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日本語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20

                                                                            • Python で分かち書き の速度比較 / janome, sudachi, ginza, mecab, fugashi, tinysegmenter - Qiita

                                                                              Python で分かち書き の速度比較 / janome, sudachi, ginza, mecab, fugashi, tinysegmenterPythonNLPjanomeGiNZASudachiPy Python で形態素解析 の速度比較 シンプルに分かち書きだけを期待して pip でサクッとインストール終わるヤツ 環境 docker pull python:3-slim 比較対象 janome sudachi ginza mecab fugashi tinysegmenter 準備 pip install janome pip install sudachipy pip install ginza sudachidict_core pip install mecab-python3 pip install fugashi[unidic-lite] pip install tin

                                                                                Python で分かち書き の速度比較 / janome, sudachi, ginza, mecab, fugashi, tinysegmenter - Qiita
                                                                              • 自然言語系(?)情報 | mwSoft

                                                                                形態素解析 Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧 日本テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説 MeCabの辞書に単語を追加したり再学習してコスト調整する方法等 複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください Igoのインストールと軽く使ってみた感想などを 辞書内包でLuceneでもSolrでも使える便利なライブラリ SearchモードがおしゃれなKuromojiを利用したメモ mecab-python3で形態素解析する 言語資源 Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明 Solrサーバを立ててWikipediaのデータ

                                                                                • MeCab辞書について

                                                                                  MeCabの辞書についての情報をまとめました. 素性フィールドの形式 素性フィールドは,カンマ区切りではなく,CSV形式. 単純に,でsplitしてはいけない. 例えば, た 助動詞,*,*,*,助動詞-タ,終止形-一般,タ,た,た,タ,タ,和,た,タ,タ,タ,*,*,*,*,*,*,*,"動詞%F2@1,形容詞%F4@-2",* は,をフィールドに含む. NAIST-jdic/IPADIC JUMAN Unidic 参考文献 日本語形態素解析器に関するメモ 黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ