「Web茶まめ」は複数のUniDic辞書で形態素解析のできるオンラインツールです。インストール作業も不要で使えるため、UniDicで形態素解析をしてみたい場合、まずはこちらをお試しください。
これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。 筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。 形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。 世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として
トークン化や品詞のタグづけ、基本形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基本的な言語解析モジュール 製品評価版お問い合わせフォーム 高精度な言語解析を実現 Rosette Base Linguictics (基本言語解析)はポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。 テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基本形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日本語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計さ
日本語文を単語に分割することができれば、 情報検索システムにおける索引語の抽出などに応用が可能である。 日本語は欧米の言語と違い、単語と単語の間に空白がないため、 単語の切り出しは容易ではない。 日本語文を単語に分割するためには形態素解析 (morphological analysis) が必要となる。 形態素解析システム 形態素解析システムと呼ばれるソフトウェアを用いると、 日本語文が単語辞書と文法規則によって正しく単語に分割される。 また、各単語の品詞情報が得られるほか、 用言 (動詞、形容詞など) の活用形を基本形(原形、終止形)に戻してくれる。 日本語形態素解析システムのリスト 形態素解析システムのうち、日本語に対応していて、 オープンソースのものを挙げる。 MeCab 最も知名度のある形態素解析システム。下記の茶筌を設計し直したもの。茶筌より高速だが、一部機能が限定されている。C
形態素解析の歴史 オープンな形態素解析器として Juman, ChaSen が存在する. それぞれの 基本的な開発理念は以下である Juman Juman 以前の商用的に配布されていた形態素解析器は, 辞書や品詞体系 連接規則はほぼ固定されており, ユーザ自身自由に定義できなかった. Juman は これらの定義すべて外部に出し自由な定義が可能になった. 辞書は比較的入手しやすいが, 連接コストや単語生起コストの定義は 人手によって行わざるをえなかった. 解析ミスを発見するたびに副作用が無い範 囲で連接コストを修正する必要があり, 開発コストが大きい. また, Juman は日本語の形態素解析として開発されていたので, 未知語処理が日本語に特化されており, 未知語処理の定義を 自分で与えることはできない. また, 品詞は2階層までに固定されており, 品詞体系には一種の制限がある. ChaS
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
The TreeTagger can also be used as a chunker for English, German, French, and Spanish. The tagger is described in the following two papers: Helmut Schmid (1995): Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland. Helmut Schmid (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International C
Windows Interface for Tree Tagger Ciarán Ó Duibhín Version History Latest version of tagger program interface: 2023/04/08 • Error "Create Process Error #193" fixed (was caused by change to Windows) • Suppressed warning "Nothing read from abbreviations file" when no such file is opened Version of 2019/07/04 • Work-around for warning "2019/04/08 12:01:56 is not a valid date and time" • Temporary bat
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しましたという記事が話題になっていたのでmecab-ipadic-neologdを試してみました。 インストール READMEを見れば分かりますが一応メモ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./bin/install-mecab-ipadic-neologdでインストールできます。 インストール先は echo `mecab-config --dicdir`"/mecab-ipadic-neolo
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準
中・長単位解析ツールComainuをリリースしました。 Comainu | 中・長単位解析ツール ダウンロードはsourceforgeからできます。 ソースファイルとモデルファイルをダウンロードしてください。 モデルファイルは解凍すると1Gくらいあるので注意してください。 中・長単位解析器 Comainu プロジェクト日本語トップページ - SourceForge.JP 長単位というのは、国語研が採用している言語の単位のことです。 国語研が構築した現代日本語書き言葉均衡コーパス(BCCWJ)では言語単位として語彙形態論研究に適した短単位と構文・意味研究に適した長単位を利用しています。 Comainuでは、このうち長単位の解析をします(短単位はMeCabとUniDibで解析します)。 長単位は短単位(単語)以上、文節以下の長さで大雑把には文節を自立語部分と付属語に分けたものが長単位となります
最近の更新 (Recent Changes)2008-03-09FrontPage 最新リリース情報naist-jdic (for ChaSen) (NAIST-jdic-0.4.3)2008-07-07 14:48naist-jdic (for MeCab) (mecab-naist-jdic-0.6.3b-20111013)2011-10-13 17:31naist-jdic with "ChaSen for Windows" (ChaSen-2.4.2-1-NAIST-jdic-sjis-0.3.0)2008-03-09 10:52 Wikiガイド(Guide)Wikiの文法 リンクの種類と文法 ブロックプロセッサ 拡張文法 サイドバー プロジェクトWikiでの広告設定 サイドバー (Side Bar)このサイドバーについて このサイドバーの編集 NAIST-jd
Not your computer? Use a private browsing window to sign in. Learn more
English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
日本語 This is the home of the Kyoto Text Analysis Toolkit (KyTea, pronounced "cutie"). It is a general toolkit developed for analyzing text, with a focus on Japanese, Chinese and other languages requiring word or morpheme segmentation. Features Download/Install Documentation Analysis: Method Details, IO Formats, API Training: Training Models, Extra Models Domain Adaptation with KyTea Development Fea
新着情報 2014/3/18 KAKASI バージョン 2.3.6 を公開しました。 分かち書きにおいて行頭文字がASCIIだった場合に余計な空白を出力するバグの修正 一部の環境でのビルドエラーに対応 2014/1/18 KAKASI バージョン 2.3.5 を公開しました。 UTF-8の入出力に対応(iconv) 長音符号(ー)の扱いをより正しく修正 do_kakasi() が不正なメモリ領域を返すことがあるバグを修正 kakasidict に含まれていた誤ったエントリを修正 ヘボン式ローマ字表に含まれていた誤りを修正 従来のローマ字表も指定できるよう -t オプションを新規追加 誤った SS2 sequence を与えたとき segfault する問題を修正 コンパイル時の warning に対応して修正 新規にテストスクリプトを追加 分かち書き時(あるいは -s オプション指定時)の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く