国立国語研究所(NINJAL)は,日本語学・言語学・日本語教育研究を中心とした研究機関です。研究者向けの研究資料・コーパスから,一般の方向けのイベント情報・読み物まで,さまざまなコンテンツを公開しています。
Basics Profile Software memo Software pyssp colorcorrect 閻魔 pykwic azarashi changefinder 2020-10-16 Profile 2017-09-24 RecentDeleted 2017-03-29 CircleCiでgoをやる memo 2017-03-24 FrontPage Menuedit MenuBar SideMenu memo 今はpipで入れられる † pip install pynlpir https://pypi.python.org/pypi/PyNLPIR ただしまともに動かないのでいろいろ手を入れる必要ある。分かち書きだけが必要ならpos_mapをゴニョゴニョしてるところを書き換えて無効にするのが良い 以下は2013年当時の古い情報 ↑ ICTCLAS(NLPIR)をpytho
文字コードについて 今はだいたいUnicodeに集約していくが、 最初に作った時、繁体字と簡体字はそれぞれ違う文字コードがあります。 昔から作ったシステム・サービスは、そのまま使われているかもしれません。 ややこしい経緯(概要) 補字符集ってなに? ちなみに、なぜか香港・台湾は同じ繁体字でも、"香港補字符集"というものがありますか。 実は中国で様々な方言があります。地方によって、話の発音や言葉が全然違って、一般の中国語(普通語)は通じないどころもあります。 例えば、香港(広東語)や台湾(閩南語)にあるが普通語(北京語)にない発音もあります。 なので、話が文字にするとき、方言の発音に合わせて適切な漢字で表現するために、普段にない漢字を使う(作る)状況があります。 ↓こんな感じかなぁ 余談 字体だけではなく、地方によって、中国語の用語が違います。 参考:http://s-bokan.com/b
Mecabに新しい単語を追加したくなることは多々あるはず。 今回は人名の例で解説する。 人名追加に必要となる知識 重要なリンク Mecab公式「単語の追加方法」 http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html 人名辞書一覧 http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html#person 辞書の追加先 まず、システム辞書として追加するか、ユーザー辞書として追加するかが問題となる。 人名辞書の項目は大抵万を超えるので、解析速度のことを考え、システム辞書に追加するのが妥当と考えられる。 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.
概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 再学習 それぞれ順に説明していきます. Seed辞書の準備 MeCabの辞書は CSV で記述されます. Seed 辞書と配布辞書の
NEXT EVENT カーネクスト 侍ジャパンシリーズ2024 日本 vs 欧州代表2024年3月6日~3月7日日本(大阪) ラグザスpresents 第3回WBSCプレミア122024年11月10日~11月24日日本・台湾 ABOUT TOPTEAM トップチーム TOP トップチーム記事 試合・大会 選手一覧 EVENT OF TOPTEAM アジアプロ野球チャンピオンシップ2023 2023 WORLD BASEBALL CLASSIC™ 侍ジャパンシリーズ2023 名古屋 侍ジャパンシリーズ2023 宮崎 侍ジャパンシリーズ2022 オーストラリア戦 侍ジャパンシリーズ2022 巨人・日ハム戦 強化試合 チャイニーズ・タイペイ代表(中止) 東京オリンピック 侍ジャパン強化試合 第2回 WBSC プレミア12 侍ジャパンシリーズ2019 カナダ代表 侍ジャパンシリーズ2019 メキシ
【OSS公開】マサチューセッツ工科大学、テキスト認識エンジン「Tesseract」のJavaScript実装「Tesseract.js」リリース---60以上の言語をサポート OSS×クラウド最新TOPICS 2016年10月29日 13:03 マサチューセッツ工科大学(MIT)が、 オープンソースのテキスト認識エンジン「Tesseract」のJavaScript実装「Tesseract.js」を公開した。 【Tesseract.jsとは】 ・オープンソース(Apache License 2.0) ・テキスト認識エンジン(OCRエンジン) →テキストの向き/スクリプト検出を自動で行う →シンプルインターフェイス ・Webブラウザ内で動作 →Node.jsを使ってサーバー上で動かすことも可能 ・自動ダウンロードシステム ・60以上の言語をサポート (出所:https://mag.osdn.j
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く