並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 250件

新着順 人気順

UniDicの検索結果41 - 80 件 / 250件

  • 「日国友の会」に狂ったように投稿しまくった話 - アスペ日記

    「日本国語大辞典」、通称「日国(にっこく)」という辞書がある。 この辞書は全14巻、その規模・充実度は他の追随を許さない。 といっても、全14巻・220,500円だけの空間と金銭を用意するのは簡単ではない(特に前者)。 せめて 1巻だけでもと購入した人もいて、記事を読むとその陶酔具合が伝わってくるが、ぼくにはなかなかそれすらもできず、ジャパンナレッジに年会費 15,750円(ちょうど日国 1巻分だ)を納めてネットで使っている*1。 ただ、その人のこの言葉はいただけない。 この大著の中に載録されていない日本語は、すなわち日本語ではないということなのだよ、君。 http://d.hatena.ne.jp/the-world-is-yours/20110530/p2 いや、どんなに優れた辞書であっても、それは言葉を映す「鏡」にすぎない。 鏡と実態に違いがあったら、間違っているのは常に鏡で、実態の

      「日国友の会」に狂ったように投稿しまくった話 - アスペ日記
    • Lucene #Kuromoji のコードを読む会 (辞書ビルダー編) - Speaker Deck

      Transcript Lucene Kuromoji のコードを読む会 (辞書ビルダー編) 2019/10/3 @moco_beta 自己紹介  打田智子  twitter : @moco_beta  所属 : 株式会社 LegalForce R&D チーム / ソフトウェアエンジニア  検索システムに興味があります  趣味でOSS開発をしています  Janome https://github.com/mocobeta/janome  Apache Lucene committer () 趣旨など 主催者 (@moco_beta) が Lucene / Kuromoji のソースコード(辞書周り)を読むうえで,調 べたことをまとめておきたい 素のままで触る機会は少ないかもしれないけれ ど, Lucene のコードを読んでみるのも楽しい よ!というのを伝えたい 仕事ではブラック

        Lucene #Kuromoji のコードを読む会 (辞書ビルダー編) - Speaker Deck
      • 形態素解析の今とこれから

        [9:35-10:00] 「形態素解析システム JUMAN++ 」 河原大輔, Arseny Tolmachev (京都大学 大学院情報学研究科) [発表資料] 本発表では、形態素解析システムJUMAN++について紹介する。JUMAN++は、RNN言語モデルを利用することによって、単語の並びの意味的な自然さを考慮した解析を行う。また、基本辞書として、3万語程度についてさまざまな語彙情報・意味情報を人手で正確に整備した辞書をJUMANから継承して用いている。その範囲を超える語彙については、Wikipediaやウェブコーパスなどからの自動獲得した辞書を用いている。本発表では、JUMAN++の基本的な考え方から実装方法、また他の形態素解析シテムとの比較について説明する。 [10:00-10:25] 「汎用形態素解析システムMeCab」工藤拓 (グーグル合同会社) [発表資料] MeCabは研究、

        • 形態素解析エンジンSenを使う - 不可視点

          ゼミ用資料 関係のない方はスルーしてください グーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。 無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。 形態素解析とは? 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。 工藤 拓[MeCab 汎用日本語形態素解析エンジン]http://www.jtpa.org/files/M

            形態素解析エンジンSenを使う - 不可視点
          • ならば

            日本の姉妹都市のリストを見ていたら大圏コースを描きたくなったので、matplotlib + cartopyで描いた。 地域にかなり偏りがある。 Jupyter Notebook 姉妹都市のリストはこのサイトの方が充実しているけど、ジオコーディングが面倒だったのでパス。 ※冒頭のWikipediaのページは少数の例外を除いて各都市のリンク先に経緯度が載っているのでスクリプトですぐ抽出できた タイトルオチ。 前回使ったSSDで今度は学習させた。漫画ドラゴンボールの魔人ブウの検出。 データ ブウにはいくつかの形態がある。次の分類でやった。 無邪気:太ってるやつ 純粋悪:がりがりのやつ 悪、純粋:マッチョのやつ 悪と純粋は形態が違うのだが、画像のアノテーションデータを作っているうちに後半面倒くさくなった画像数も少ないし、頭身はともかく体格は似通っているので一緒にした。 学習データ、テストデータとも

              ならば
            • 形態素解析器をSwiftで試作してみた|Cotarou

              開発方針 形態素解析器を開発するにあたり、既存のコスト計算済みのモデルを使用することも可能だったのですが、今回は実用的な形態素解析器を作るというよりは、Swiftの習得が目的であったため、できるだけフルスクラッチしてしまおうと思いました。誰に迷惑をかけるわけでもないので。 ゴールまでの道のりは、最終的に以下になりました。開発中は試行錯誤しながらだったので、前後しながら開発していました。先に進んでは、別のところに戻って再実装・テストを繰り返していました。 ・辞書 ・ダブル配列 ・学習データ ・ラティス構築 ・コスト計算 ・形態素予測辞書 形態素解析器を使用したことがある人は、ご存知だと思いますが、形態素解析器自体は辞書を内部で保持しているわけではないので、辞書を変更して使用することができます。よく使用される辞書としてはIPAdic・NEologd・UniDicなどがあり、どの辞書を選ぶかはそ

                形態素解析器をSwiftで試作してみた|Cotarou
              • 形態素解析器 kagome を Google App Engine で動かす - 押してダメならふて寝しろ

                概要 kagome を GAE で動かしたいってのをチラホラ耳にしてたのですが,先日ついに issue が投げられたので対応してみました. 正確には UniDic をあきらめて IPADic だけ対応してる kagome.ipadic で動かせることを確認しました. 何が問題なのか? golang のプログラムを GAE で動かすには以下の2点の制限があります. GAE では unsafe, syscall, cgo を使ってると動かせない GAE では1ファイル32MBのサイズ制限がある kagome を最初に作ったときは辞書を有限状態トランスデューサー(fst)で構築してて,どうしてもこいつが unsafe 使う実装になってたので対応あきらめてたんですが,なんかの時に辞書を double array trie になおして,辞書からは殆ど unsafe をなくしていたので,今回は1カ所直

                  形態素解析器 kagome を Google App Engine で動かす - 押してダメならふて寝しろ
                • 形態素解析器の比較アプリを作ってみた【NEologd】 - Qiita

                  形態素解析器ごとに結果を比較できるアプリ作ってみました。 streamlitで作ってます。HuggingFace Spaceなら16GB RAM と 8 CPUが無料で使えておすすめです。 import os os.system('git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git && cd mecab-ipadic-neologd && ./bin/install-mecab-ipadic-neologd -n -y -u -p $PWD') os.system('git clone --depth 1 https://github.com/neologd/mecab-unidic-neologd.git && cd mecab-unidic-neologd && ./bin/install-m

                    形態素解析器の比較アプリを作ってみた【NEologd】 - Qiita
                  • 形態素解析の基礎

                    形態素解析の基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report  No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり,自然言語処理の最も基本となる処理である.本報告では,形態素解析に必要な技術や形態素解析ツールについて述べる. 1  はじめに 近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日本語においては, 文章を単語に分

                    • cutlet: a Japanese to Romaji Converter in Python

                      A few months ago I released cutlet, a Python library and application for converting arbitrary Japanese text to romaji. Katsu curry illustrated by Irasutoya Update: Check out the online demo for cutlet! You can check the results in your browser. Compared to other libraries cutlet has several advantages: it uses fugashi, so you can re-use your existing dictionary words of foreign origin optionally u

                        cutlet: a Japanese to Romaji Converter in Python
                      • LinuxにMecabとmecab-rubyをインストールする | mwSoft

                        概要 我が家のLinux機(Fedora10)にMecabを入れた際のログです。 入れたものは以下。 MeCab0.98 mecab-ipadic-2.7.0-20070801 mecab-naist-jdic-0.6.1-20090630 unidic-mecab-1.3.12 mecab-ruby-0.98 以上5つです。 ここでは入れた際に打ったコマンドと、簡単なサンプルを載せておきたいと思います。 MeCabのインストール ダウンロードはこちら http://sourceforge.net/projects/mecab/files/ Linuxであれば、mecab-x.xx.tar.gz(x.xxはバージョン番号)を持ってきます。持ってきたら解凍してinstall。 $ tar xzvf mecab-x.xx.tar.gz $ cd mecab-x.xx $ ./configure

                        • 自然言語処理ライブラリspaCy/GiNZAのオンラインデモサイトを立ててみた - Qiita

                          はじめに Mecabには形態素解析ウェブアプリUniDic-MeCabやMeCab/Unidic Demonstration といったオンラインデモサイトがありますが、2022年3月現在spaCy/GiNZAのデモサイトはなさそうなのでHerokuで立てました。 2022年11月Herokuの無料枠が終了したため、Render.comで立てました。 実際に動かしてみるとこんな感じです。 さっそく、オンラインで試したいという方は下記にアクセスしてみてください。 https://chai3.github.io/spacy-ginza-online-demonstration/ spaCy/GiNZAとは GiNZA は、Universal Dependencies(UD)に基づいたオープンソースな日本語処理ライブラリです。 spaCyというMITライセンスで商用レベルな自然言語処理フレームワー

                            自然言語処理ライブラリspaCy/GiNZAのオンラインデモサイトを立ててみた - Qiita
                          • J.DepP - C++ implementation of Japanese Dependency Parsers

                            About J.DepP is a C++ implementation of Japanese dependency parsing algorithms [1,2,3,4]. It takes a raw sentence as input and performs word segmentation, POS tagging (thanks to MeCab), bunsetsu chunking and dependency parsing. Syntactic parsers have been believed to be (significantly) slower than front-end part-of-speech taggers, and it is rarely utilized in industry that needs to handle massive

                            • Rustによる自然言語処理ツールの実装: 形態素解析器「sudachi.rs」 - Qiita

                              2021-07-07 UPDATE: Sudachi公式チームへレポジトリを委譲しました。公式版が改めて公開される予定です (cf. https://github.com/WorksApplications/sudachi.rs, 日本語形態素解析器 SudachiPy の 現状と今後について - Speaker Deck) sorami/sudachi.rs - GitHub TL;DR 🍋 形態素解析器「Sudachi」の非公式Rust実装「sudachi.rs」をつくっている 🦀 自然言語処理ではPythonやJuliaが主流だが、一部のツールにはRustは良いかも 注: 著者は、Sudachiの開発元であるワークス徳島人工知能NLP研究所に所属していますが、「sudachi.rs」は個人的にRustの勉強を兼ねて作っている趣味プロダクトです。 🍋 形態素解析器「Sudachi

                                Rustによる自然言語処理ツールの実装: 形態素解析器「sudachi.rs」 - Qiita
                              • Google App Engine Java で形態素解析器の比較 | Altus-Five Labs

                                以前、Google App Engine Java で形態素解析器を作成しました。以前の記事はこちら。 今回は、これに改良を加えました。 改良前に使用していた辞書は、IPAdic でしたが、これを NAIST-jdic に入れ替えてみました。 そして、せっかくなので、IPAdic と NAIST-jdic の違いを見てみようと、両方の辞書で解析して、結果を並べて表示するようにして、それをやるなら、ついでに、Yahoo!JAPAN WEB API の日本語形態素解析の解析結果も並べて表示できるようにしました。 ご興味のある方、試してみてください。 http://agolabs.appspot.com/ * IPAdic と NAIST-jdic の違いで、一番わかりやすいのはアルファベットです。 ◇ 辞書について 形態素解析器といえば、ChaSen や Mecab ですが、これらのエンジ

                                • Rust製パターンマッチングマシンDaachorseを使ってPythonパイプラインを高速化する話 - エムスリーテックブログ

                                  エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は文字列界隈を賑わせている高速なRust製パターンマッチングマシンDaachorseをPythonで呼び出して既存の文字列パターンマッチロジックを高速化したお話をします。 Daachorseとは なぜPythonから呼び出したいのか パターンマッチングのみのベンチマーク python-daachorseだけオートマトン構築込みのベンチマーク まとめ We are Hiring! その他 Daachorseとは DaachorseはLegalForceさんで開発運用されている文字列パターンマッチを行うRust製ライブラリです。 github.com 技術的なトピックに関してはLegalForceさんの記事が全て解説しているののでそちらを参照してくだ

                                    Rust製パターンマッチングマシンDaachorseを使ってPythonパイプラインを高速化する話 - エムスリーテックブログ
                                  • 第6回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

                                    というわけで第6回TokyoNLPを開催しました。発表者の皆様、会場のajiyoshiさん(ECナビさん)、ありがとうございました!第6回 自然言語処理勉強会 #TokyoNLP : ATND CRFと素性テンプレート by @uchmikCrfと素性テンプレート View more presentations from uchumikMBAをuchmikさんに貸し出していたため簡単にメモ。 素性関数 Viterbiアルゴリズム Forward-Backwardアルゴリズム 素性テンプレート(CRF++形式) 実数素性テンプレートについて 言語モデルなどの情報を外部から組み込みたい パーザを使って演算を実装 関連するエントリ uchiumi log: 間違ってるかもしれないCRFの説明uchiumi log: 実数素性テンプレートの使える CRFuchiumi log: 実数素性テンプレー

                                    • 日本語LLMをPPOでファインチューニングする - Qiita

                                      TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

                                        日本語LLMをPPOでファインチューニングする - Qiita
                                      • 概要 国語研日本語ウェブコーパス(NWJC)

                                        データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日本語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20

                                        • wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

                                          この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研

                                            wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog
                                          • CaoboCha: Yet Another Japanese Dependency Structure Analyzer

                                            CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha/南瓜とは CaboCha は, Support Vector Machines に基づく日本語係り受け解析器です。 特徴 Support Vector Machines (SVMs) に基づく, 高性能な係り受け解析器 SVM の分類アルゴリズムの高速化手法である PKE (ACL 2003 にて発表)を適用. IREX の定義による固有表現解析が可能 柔軟な入力形式. 生文はもちろん, 形態素解析済みデータ, 文節区切り済み データ, 部分的に係り関係が付与されたデータからの解析が可能 係り受けの同定に使用する素性をユーザ側で再定義可能 データを用意すれば, ユーザ側で学習を行うことが可能 内部の辞書に, 高速な Trie 構造である Double

                                            • トークナイザをいい感じに切り替えるライブラリ konoha を作った - Qiita

                                              TL; DR 文のトークン化のためのライブラリである konoha の紹介をします. (旧 tiny_tokenizer) ↓みたいな感じで使えます.なにとぞ〜 from konoha import WordTokenizer sentence = '自然言語処理を勉強しています' tokenizer = WordTokenizer('MeCab') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ます] tokenizer = WordTokenizer('Kytea') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ま, す] tokenizer = WordTokenizer('Sentencepie

                                                トークナイザをいい感じに切り替えるライブラリ konoha を作った - Qiita
                                              • 第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記

                                                第5回 さくさくテキストマイニング勉強会 : ATND データクリーニング入門 〜精度は細部に宿る〜 by toilet_lunch様 掃除は大事です!! Unicode正規化 フィルタリング 第2水準の漢字は捨てる 短いツイートは捨てる URLは捨てる あなたの質問に答えてみた 〜疑問に対する応答〜 by gepuroさん イカ娘の記事から答えをマイニング Cabochaを使って係り受け解析 質問文から疑問詞を取り出す 本当に気持ちのいい全文検索〜Lucene/Solr入門〜 by AntiBayesianさん 検索エンジン入門 転置インデックス 適合率と再現率とF値 TF-IDF Lucene/Solr入門 Solrのインストール Schema設定:typesとfields gosenで形態素解析 ツイートをCSVで登録 まとめ 検索は大規模データ時代には必須 全文検索,転置インデック

                                                • 複数の形態素解析器を見比べる - Qiita

                                                  TL;DR 更新情報 kytea, juman, juman++の解析結果を追加しました (2016/10/15) 色々な分かち書き結果を冒頭に加えました (2016/02/28) この記事を見ると, こんなことができるようになるよ. 便利!!! $ cat text.txt | mecab-all IPADIC :私大 ファン な ん です JUMAN :私大 ファン な んです JUMANDIC:私大 ファン な んです JUMANPP :私大 ファン な んです KYTEA :私大 ファン な ん で す NEOLOG :私大 ファン な ん です SNOW :私大ファン な ん です UNIDIC :私大 ファン な ん です IPADIC :すもも も もも も もも の うち JUMAN :すもも も もも も もも の うち JUMANDIC:すもも も もも も もも の

                                                    複数の形態素解析器を見比べる - Qiita
                                                  • 草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm

                                                    書きかけの記事とか書いたけど公開してない記事が溜まっているので2014年になったのを機に公開して供養していく 以下の記事はニコニコデータセットを利用しています 情報学研究データリポジトリ ニコニコデータセット ネットスラングの草「w」は以下のように笑いとか強調を表す意味で使われます 吹いたw ちょまwww クソワロタwwwwwwwwwwwwwww最近国語辞典に載ったことでも話題になりました すごい!国語辞典に、この意味を載せたのは初めてですよ! ダブリュー[W](名)①②③省略④〔←warai=笑い〕〔俗〕〔インターネットで〕(あざ)笑うことをあらわす文字。「まさかwww」(以下略) (三省堂国語辞典第七版) pic.twitter.com/bFbb1HI3XE— 三国ことは@三国ちゃん/紅白閲覧 (@sankokuziten) 2013, 12月 15 三省堂国語辞典 第七版 作者: 見

                                                      草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm
                                                    • [文章生成]MeCabをインストールして分かち書きを試してみよう

                                                      今回の目的 前回は、青空文庫のWebサイトから梶井基次郎の小説データを取得して、そこから本文のデータを抽出する方法を見ました。今回は、自然言語処理で扱いやすいように分かち書きをするための準備をします。 ところで、自然言語処理とはもちろん私たちが日常的に使っている言葉(ここでは日本語としましょう)をコンピューターに処理させることです。その結果、コンピューターに入力された言葉からは、何らかの情報が取り出されます。何らかの情報とは例えば地名や製品名、ランチの注文かもしれませんし、ユーザーがしたい何かのアクションかもしれません。あるいは、入力された言葉が、全体として肯定的なものなのか、否定的なものなのかを判断するといったことも考えられます。 いずれにせよ、こうした処理を行うには、入力された言葉をさまざまな段階を踏んで解析する必要があるでしょう。 例えば、「くるまでまつ」という文について考えてみます

                                                        [文章生成]MeCabをインストールして分かち書きを試してみよう
                                                      • 形態素解析器Sudachiの「辞書」はどのように作られているか: 複数の分割単位を例として

                                                        これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。 筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。 形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。 世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として

                                                          形態素解析器Sudachiの「辞書」はどのように作られているか: 複数の分割単位を例として
                                                        • Groongaが得意でない類似文書検索にGETAssocという連想検索エンジンを使った話 - CreateField Blog

                                                          GroongaおよびMroongaにおける類似文書検索について GroongaおよびMroongaには、類似文書検索の機能が実装されています。 GroongaおよびMroongaの類似文書検索では、検索クエリが完全に含まれる文書をヒットさせるのではなく、検索クエリをトークンに分割にし、転置インデックスを使ったトークンごとのマッチ検索結果に対して所定の重みづけ処理や並べ替え等をし、TF(語句の出現頻度)とIDF(語句の稀少性)を考慮させて検索クエリに似ている文書を上位表示させます。 類似文書検索では、必ずしも全てのトークンが文書に含まれていなくとも検索にヒットします。 スコアの算出基準の詳細は、こちらを参照してください。 なお、Groongaの類似文書検索ではない全文検索のデフォルトでは、TFのみが考慮された順番でソートされています。SolrやElasticsearchのデフォルトでは、TF

                                                          • 形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

                                                            形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。 ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,

                                                              形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室
                                                            • mecab-neologd 前処理用 Python モジュール neologdn 公開しました - Debug me

                                                              PyConJP 2015に参加して意識が高まったのでブログをはじめます。 舞い降り……† はじめに 私のいる世界では計算機で日本語を処理するときは大体MeCabを使います。 でも、IPA辞書やunidicなどでは語彙に物足りなさを感じます (IPA辞書には「スマホ」が収録されてなかったり) かといって、私は自前でMeCab用の辞書を作っているのですが、 それを仕事で使おうとすると「ちゃんとメンテできるの?」とか渋い顔をされそうなので、 仕事では使いません。 そこで、頻繁に語彙がアップデートされる mecab-ipadic-neologd が重宝してます。overlastさんに圧倒的感謝 🙏 github.com ですが、ネットに転がってるようなテキストでは形態素解析の結果が思ったようにいかないことが多いです。 ちゃんと校正されてないので様々な表記揺れがあったりして汚いためです。 そこでM

                                                                mecab-neologd 前処理用 Python モジュール neologdn 公開しました - Debug me
                                                              • 「UniDic」国語研短単位自動解析用辞書

                                                                「Web茶まめ」は複数のUniDic辞書で形態素解析のできるオンラインツールです。インストール作業も不要で使えるため、UniDicで形態素解析をしてみたい場合、まずはこちらをお試しください。

                                                                • CaoboCha: Yet Another Japanese Dependency Structure Analyzer

                                                                  CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha/南瓜とは CaboCha は, Support Vector Machines に基づく日本語係り受け解析器です。 特徴 Support Vector Machines (SVMs) に基づく, 高性能な係り受け解析器 SVM の分類アルゴリズムの高速化手法である PKE (ACL 2003 にて発表)を適用. IREX の定義による固有表現解析が可能 柔軟な入力形式. 生文はもちろん, 形態素解析済みデータ, 文節区切り済み データ, 部分的に係り関係が付与されたデータからの解析が可能 係り受けの同定に使用する素性をユーザ側で再定義可能 データを用意すれば, ユーザ側で学習を行うことが可能 内部の辞書に, 高速な Trie 構造である Double

                                                                  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

                                                                    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2013-02-18 MeCab 0.996 configure script の不備によりiconvへのリンクに失敗する問題を修正 ユーザ辞書用CSVファイルのコストと左/右文脈IDを付与し, 新たなCSVファイルを生成する機能の追加 解析結果からLattice を作成する Lattice::set_result() メソッドを追加. 単体テスト時のスタブの作成等に利用可能 2013-01-24 MeCab 0.995 部分解析機能の再実装 部分解析機能のためのAPI (Lattice:set_boundary_constarint, Lattice::set_feature_constraint) の追加 2012-06-03

                                                                    • 実践・自然言語処理シリーズ 第2巻 形態素解析の理論と実装

                                                                      言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化等を扱いつつ、辞書やコーパスなどの言語資源の構築・利用についてもカバー。 関連サイト本書の関連ページが用意されています。 実践・自然言語処理シリーズ 第2巻 形態素解析の理論と実装(近代科学社ウェブサイト)内容紹介本書は、汎用形態素解析システムMeCabを開発した著者が、言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化なども扱う点がユニークであるが、辞書やコーパスなどの言語資源の構築・利用といった形態素解析では外せないテーマもきちんと解説している。 本書を読めば、解析ツールを「ブラックボックス」として使っている人も中身を理解したうえで拡張・改良できる道筋ができ、ひい

                                                                        実践・自然言語処理シリーズ 第2巻 形態素解析の理論と実装
                                                                      • [O] UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました

                                                                        UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました Tweet [NLP] 今年3月中旬 [2015-03-13] に mecab-ipadic-NEologd をリリースして以来、mecab-ipadic-NEologd はとても順調に普及しています。 さて、今回は UniDic に新語や固有表現、Unicode 絵文字などを足すことができる mecab-unidic-NEologd を公開しました。 mecab-ipadic-NEologd を生成する手法を使っています。 https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md シードデータの性質上、構築されるシステム辞書には国語研短単位の条件を満たさないエントリも入りますので、あら

                                                                        • 言語データベースとソフトウェア - 言語データベースとソフトウェア

                                                                          このページでは,国立国語研究所で開発されたコーパス,辞書,ソフトウェアなどの言語資源を公開しています。 新着情報 ... 履歴† 2024-04-01:全文検索システム『ひまわり』用の『青空文庫』パッケージを更新しました。 2024-03-15: FishWatchr (ver.1.0 rev02,履歴)を公開しました。 2023-10-25: 『ひまわり』ver.1.7.4を公開しました。 2023-01-31:全文検索システム『ひまわり』を用いた『日本語学習者作文コーパス』の利用を公開しました。 2023-01-07: FishWatchr Mini (ver.2.1,履歴)を更新しました。 2022-12-19:全文検索システム『ひまわり』を用いた『小中高大生による日本語絵描写ストーリーライティングコーパス』の利用を公開しました。 2022-12-15:全文検索システム『ひまわり』の

                                                                          • 第8回自然言語処理勉強会@東京を開催しました #TokyoNLP - nokunoの日記

                                                                            はい,本日は勤労に感謝しつつ第8回自然言語処理勉強会@東京を開催しました.場所はVOYAGE GROUP(旧ECナビ)で,懇親会もお世話になりました,@ajiyoshiさんいつもありがとうございます!第8回自然言語処理勉強会 #TokyoNLP : ATND トピックモデルとその周辺の話題 by @issei_sato さん Topic models with power-law using Pitman-Yor process 自己紹介 東大で助教やってます(どよめき) 今回は KDD 2010 の発表 LDAの復習 単語シンプレックス LDAのサブシンプレックス グラフィカルモデル α->θ_j->z_ji->w_ji β->φ_i G_j(φ): ??_k θ_jk δ(φ - φ_k) ノンパラメトリックベイジアンへ LDAはトピック数Kを事前に決める必要がある トピック数を決めた

                                                                            • 二つの文字列の類似度 - ktr_skmtの日記

                                                                              雑な備忘録なので、サーベイの前準備程度にお使いください。 二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。 なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理 また、原田実先生が開発された意味解析システムSAGEも日本語文の類似性を測る技術です。 文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含んでいるため文字化けの危険がある。 EUC-JPの全角は2 octets文字なので一文字目がAB、二文字目がCDの場合、 正規表現でBCを置換すると文字化けの危険がある。また、マルチバイト文字対応の正

                                                                                二つの文字列の類似度 - ktr_skmtの日記
                                                                              • UniDic プロジェクト日本語トップページ - OSDN

                                                                                UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

                                                                                  UniDic プロジェクト日本語トップページ - OSDN
                                                                                • 全文検索システム『ひまわり』 - 言語データベースとソフトウェア

                                                                                  『ひまわり』とは† 『ひまわり』は,言語研究用に設計された全文検索システムで,次の機能を持っています。 XML 文書から特定の文字列を高速に全文検索する機能 (Unicode に対応) 検索結果の KWIC (KeyWord In Context) 表示,および,資料に適した形で閲覧する機能 『ひまわり』を使うことにより,『太陽コーパス』,『日本語話し言葉コーパス』,『分類語彙表』などの既存の言語資料や,自分で作成した XML 文書を検索することができるようになります。なお,『ひまわり』は Java 言語で記述されており,Windows, Linux, macOS などさまざまな OS 上で動作します。 ダウンロード† ご意見・ご感想をダウンロードのページのアンケートフォームからお寄せください。 最新の情報は,Blueskyでもお知らせします。 ビデオチュートリアルを用意しています。『ひま