タグ

コーパスに関するyuhei_kagayaのブックマーク (4)

  • MeCabの辞書にはてなキーワードを追加する際に地域名(千葉県など)を省くようにする方法 - uncertain world

    以前,id:code46さんのMeCabの辞書にはてなキーワードを追加しようの記事を見て,ウヒョースゲーと思って入れたのですが, 最近になって,全キーワードを名詞に入れてるとよろしくないなと気付き, いまちょっとつまづいてる県名などの地域名だけ省けるようにした. 修正するのは,createDict.pyのみです. # -*- encoding: utf-8 -*- import sys import re import MeCab # MeCabを利用する m = MeCab.Tagger ("-Ochasen") #数字四桁が入ったキーワードは役に立ちませんので検出して飛ばします。 year = re.compile("[0-9]{4}") #驚くべきことにはてなキーワードには%00というキーワードがありますが、 #これがcsvとして提供されているダンプではヌル文字になっているのでシステ

    MeCabの辞書にはてなキーワードを追加する際に地域名(千葉県など)を省くようにする方法 - uncertain world
  • はてなダイアリーキーワードふりがなリストを公開しました - はてなダイアリー日記

    日、キーワード名とふりがなが対になっている、はてなダイアリーキーワードふりがなリストを公開しました。ユーザー様が独自に作成されている辞書などで、名詞の読み仮名などでご活用いただくと便利かと思います。 以下のURLを右クリックでファイルに保存してご覧ください。 http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv http://d.hatena.ne.jp/images/keyword/keywordlist_furigana_with_kid.csv (キーワードID つき) ※タブ区切りの csv 形式、文字エンコードは EUC で改行コードは LF となっております。 ※ファイルサイズが日現在 4M 強ほどあります。ブラウザで開く際はご注意下さい。 このリストをは定期的に最新情報に更新しています。どうぞご利用下さ

    はてなダイアリーキーワードふりがなリストを公開しました - はてなダイアリー日記
  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 1