並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 14 件 / 14件

新着順 人気順

ipadicの検索結果1 - 14 件 / 14件

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

    • SourceForge.JP: Project Info - NAIST Japanese Dictionary

      最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース

        SourceForge.JP: Project Info - NAIST Japanese Dictionary
      • IPADIC(IPA辞書)とはなにものか?

        ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

          IPADIC(IPA辞書)とはなにものか?
        • 新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた

          このようにすることで、 そもそも mecab-ipadic-NEologd に意味はあるの? mecab-ipadic-NEologd で分かち書きして悪影響は無いの? mecab-ipadic-NEologd を週2回も更新することに意味はあるの? などの典型的な疑問について考察する材料を得たいと考えました。 学習器と特徴ベクトルの作り方 学習器は LIBLINEAR を使用しました。LIBLINEAR で学習するときのパラメーターですが、今回は辞書やデータごとに最適なパラメーターを探すことが今回の目的ではありません。そこで、別の期間のデータと MeCab 用の辞書を用意して、事前に実験と相対的に同様なデータと辞書の関係を作って探索することにしました。その結果、「s=5, c=0.8, B=-1」という設定が比較対象の UniDic にとって総合的に有利だったのでそれを採用しました。 各

            新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた
          • mecab-ipadic-NEologd の効果的な使い方

            mecab-ipadic-NEologd は IPA 辞書を拡張した mecab のシステム辞書 新語・固有表現などを160万語以上再録 - 読み仮名・原型付きで(異表記の重複込み) 最低月2回アップデート(初旬・中旬) - Apache License 2.0 なOSSなので安心 辞書はタスクに応じて使い分けると効果UP !! - 5種類のタスク向けの選択例 + 2つの前処理をご紹介 - NEologd は特徴量作成とテキストマイニングに最適Read less

              mecab-ipadic-NEologd の効果的な使い方
            • MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ

              mecab-ipadicのCRF学習モデルが追加されたことにより、辞書に単語を追加しやすくなったようだ。 http://sourceforge.jp/projects/mecab/lists/archive/users/2012-June/000456.html 以前のMeCabの場合、単語追加をする場合は、追加したい単語と似ている単語のコスト値からなんとなく予測して追加する必要があって、結構やりにくかった。なので、どのぐらいやりやすくなったかを早速試してみた。 まず、自分のローカルにMeCabをインストールした。 また、ipadicのモデルファイルしかないようなので、ipadic辞書を入手する。 http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.tar.gz&can=2&q= http://code.goog

                MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ
              • NAIST Japanese Dictionary Wiki - NAIST Japanese Dictionary - OSDN

                最近の更新 (Recent Changes)2008-03-09FrontPage 最新リリース情報naist-jdic (for ChaSen) (NAIST-jdic-0.4.3)2008-07-07 14:48naist-jdic (for MeCab) (mecab-naist-jdic-0.6.3b-20111013)2011-10-13 17:31naist-jdic with "ChaSen for Windows" (ChaSen-2.4.2-1-NAIST-jdic-sjis-0.3.0)2008-03-09 10:52 Wikiガイド(Guide)Wikiの文法 リンクの種類と文法 ブロックプロセッサ 拡張文法 サイドバー プロジェクトWikiでの広告設定 サイドバー (Side Bar)このサイドバーについて このサイドバーの編集 NAIST-jd

                  NAIST Japanese Dictionary Wiki - NAIST Japanese Dictionary - OSDN
                • ipadicのライセンスの件 - mir the developer

                  大きな誤解をしていたようです。某所から「ipadic(IPA辞書)はIPAライセンスだから商用利用ができない」と聞いていたので、そうなんだと思ってここ1年同じように書いたり/話したりしてきたのですが、ipadicは商用利用の禁止とかしてないですね(法律の専門家ではないので断定はできないですが)。 Tritonnのバイナリパッケージングについていろいろ検討していて「mecab-ipadic入れたいけど、入れちゃうと商用利用できなくなるんだよなぁ」とまた悩んでいたわけです。でもちょっと気になって、mecab-ipadicのCOPYINGを初めて読んでみたのですが、COPYINGにはIPA(情報処理推進機構)に著作権があるなんて一言も書いていない。というかまず著作権保有者を名乗っているのは、奈良先端科学技術大学院大学です。IPAという文字は一言も入っていない。 どんな内容が書いてあるかというと、

                    ipadicのライセンスの件 - mir the developer
                  • IPAdic legacy プロジェクト日本語トップページ - OSDN

                    形態素解析器 ChaSen 用辞書 形態素と品詞などの情報を持つ語彙表であり、 ChaSen で用いられるパラメータを含みます。 ダウンロード 最新リリース rpms ipadic-2.5.1-1.src (日付: 2007-03-11) rpms ipadic-2.5.0-1.src (日付: 2007-03-11) rpms ipadic-2.4.4-1.src (日付: 2007-03-11) rpms ipadic-2.4.3-1.src (日付: 2007-03-11) rpms ipadic-2.4.1-1.src (日付: 2007-03-11)

                      IPAdic legacy プロジェクト日本語トップページ - OSDN
                    • 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀

                      先日、このようなエントリを書きました。 mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150315/1426391366 mecab-ipadic-neologd自体については、こちら。 MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました http://diary.overlasting.net/2015-03-13-1.html このエントリでは、LuceneのKuromojiにmecab-ipadic-neologdを適用してみたのですが、2つの問題が出ました。 ひとつは、Kuromojiがmecab-ipadic-neologdのシード辞書に含まれる原形が15文字を超える単語を取り込めないこと。もうひとつは、同じくmecab-ipadic

                        修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀
                      • https://yogi.bz/~suzu/wp3/?p=313

                        • 『表記統合辞書』 - 総合

                          連絡先等 本データを利用した研究成果を公開された場合は,公開の事実(書誌情報等)を morphdic @ kokken_go_jp (「_」は,「.」に置き換えてください)までお知らせいただければ幸いです。ご協力をお願い申し上げます。 誤りのご指摘,ご意見などについても,上記アドレスまでお願いいたします。お返事はお約束いたしかねますが,今後の開発に役立てさせていただきます。

                          • Lucene-TECHSCORE-

                            SQL データベース操作言語SQLについて、またRDBMSの持つ機能について詳しく解説します。 DB概要、SQL、テーブル操作、データ操作 ... 特集:replication PostgreSQLのレプリケーションシステムを紹介し、それらの機能を比較していきます。 特集:pgbench PostgreSQLのベンチマークテストに用いられるプログラムである pgbench について解説します。 SQL演習問題 各章に用意された演習問題を集めました。

                            • ChaSen's Wiki - 辞書定義ファイルのフォーマット

                              辞書定義ファイルのフォーマットは以下のようになっています。(正確な定義は IPADIC のマニュアルを参照してください) (品詞 (<品詞情報>)) ((見出し語 (<見出し語> <形態素生起コスト>)) (読み <読み情報>) (発音 <発音情報>) (活用型 <活用型情報>) (活用形 <活用形情報>) (原形 <原形情報>) (付加情報 <付加情報>) (複合語 <複合語情報>)) 例 (品詞 (名詞 一般)) ((見出し語 (お正月 3641)) (読み オショウガツ) (発音 オショーガツ)) (品詞 (動詞 自立)) ((見出し語 (あきらめる 2377)) (読み アキラメル) (活用型 一段)) (品詞 (名詞 一般)) ((見出し語 (天文学 3556)) (読み テンモンガク) (複合語 ((品詞 (名詞 一般)) (見出し語 天文) (読み テンモン)) ((品詞 (

                              1