information 2021.2.20:情報が古いこともあり、サイトとしての役割を果たせてないと判断し、閉鎖することにしました。
information 2021.2.20:情報が古いこともあり、サイトとしての役割を果たせてないと判断し、閉鎖することにしました。
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
日本語文章校正ツール 日本語は文章の構成がバラバラになりやすい言語です。主語や述語が抜けることもありますし、助詞の使い方も非常に複雑。 なので、コンピュータを使っても、その文章の正しさ・間違いを見つけるのは難しいのです。 そんな中でも、ウェブサービス「日本語文章校正ツール」は意外な便利さを発揮してくれます。 使い方は至ってシンプル。 上記のURLにアクセスすると、テキストの入力フィールドがあります。この中に文章を入力するのですが、私の場合は執筆したブログの本文を全文コピー&ペーストしてしまいます。 すると、その文章の内容を判定して、日本語の間違いを指摘してくれます。また、その「間違った日本語」が、入力したテキストの中のどの辺りにあるのかも、ハイライトで教えてくれます。 「設定をカスタマイズ」にチェックを入れると、校正のレベルを選択できます。基本的にはすべてにチェックを入れておいて問題ありま
WordPress 3.8 がリリースされました。WordPress の日本語版を入れることにしている @azur256 ですが、WordPress のオリジナルと日本語版って何が違うの?と聞かれたので、私なりの解釈を書いておこうと思います。間違っていたら指摘してください。 「間違っていたら」と書いていますが、WordPress Codex 日本語版に違いが書いてあるんです。 WordPress › 日本語 « WordPress 日本語版について 引用すると 日本語リソースの同梱 マルチバイト文字の取り扱いに関する不具合の累積的修正と強化を行う WP Multibyte Patch プラグインを同梱 言語設定で日本語 (ja) を設定 現地時刻の初期値を日本標準時(+9)に変更 フィード言語設定を「en」から「ja」に変更 インストーラファイルの翻訳 国際化版デフォルトテーマとその日本語
ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く