zoningのブックマーク / 2011年5月5日

ALAGIN 言語資源・音声資源サイト - ホーム

●○お知らせ○● ログインするには右の「ALAGIN会員」のログインフォームからお願い致します。各資源の契約書の入手及び記載方法等につきましては、右の「ALAGIN会員」よりログイン頂く事で参照できます。 ALAGINフォーラムへご入会希望の方は「フォーラム参加のご案内」をご覧ください。

zoning 2011/05/05

nlp

リンク

上位下位関係抽出ツール Version1.0: Hyponymy extraction tool

上位下位関係抽出ツール Version1.0 : Hyponymy extraction tool 目次上位下位関係抽出ツールとは新着情報注意事項ダウンロード動作環境実行機械学習用モデルファイル実行結果オプション引数ディレクトリ構成実行コマンド入力例抽出上位下位関係数参考文献 Copyright 上位下位関係抽出ツールとは上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールです．上位下位関係とは，"XはYの一種(一つ)である"と言えるXとYの関係を言います． Xのことを下位語，Yのことを上位語と呼びます．別の言い方をしますと，上位下位関係は「上位概念ー下位概念」または「概念ーインスタンス(具体例）」の関係を持つ語の対となります．抽出できる上位下位関係の

zoning 2011/05/05

nlp

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

zoning 2011/05/05

nlp

リンク

Mooter 形態素解析(Codename マリモ)

・『新しい単語』、『言い回し』、『話し言葉』を辞書不要で解析可能。・専門用語の解析、ケータイサイトやブログに適している。参考サイトムーターブログによる日本語形態素解析の説明＠IT - アットマーク・アイティ様にマリモの特徴を取り上げて頂きました。・Java 2 Developer Kit(JDK) version 1.2.2以上のJava2開発環境・推奨マシンスペック Pentium(R)III相当 450MHz以上・必要メモリ容量 512MB以上のRAM ・必要ディスク容量 500MB以上の空き容量

zoning 2011/05/05

nlp
Java

リンク

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

zoning 2011/05/05

リンク

日本語ウェブコーパス 2010

概要本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です．謝辞本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．コーパスの作成・保存・配布には Amazon Web Serv

zoning 2011/05/05

nlp

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

zoning 2011/05/05

リンク

形態素解析器IgoのRuby版を作った - 猫背ミジンコ

解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoのRuby版を作りました。正確にはIgoのエンジン部分をRubyに移植しましたですけれども。ソースソースはGitHubに公開。また、RubyGems.orgにgemを公開してあるので、インターネットに接続している環境ならRubyGemsでインストールできます。インストールコマンドラインで下記を入力。$ gem install igo-rubyigo-rubyは、別途Igoと同じ解析用辞書ファイルが必要です。(igo-pythonと同じ方式。ただし、igo-pythonの方は辞書ファイルの生成機能も実装予定とのことです。) 解析用辞書ファイルの生成方法については、Igoのページを参照してください。使い方 Igo::Taggerクラスのコンストラクタに辞書ファイルが入ったディレクトリを

zoning 2011/05/05

NLP
Ruby

リンク

形態素解析器IgoのPython版作った

いろんなメモです。おもにプログラミング関係。 a memorandum. most of all contents are related to programming. Java(とCL)で書かれた形態素解析器であるIgoをPythonにほぼそのまま移植しました。 Java版で作った辞書がそのまま使えるようにしたので、辞書を作る部分は(まだ)移植してません。 mmapしてるのでGAEでは動きません。すぐ取りかかる予定です。またGAE版の辞書はBigEndianなのでそこらへんも対応する予定です。 https://code.launchpad.net/~hideaki-t/+junk/igo-pyに置きました。簡単なテストしかしてません。問題があったら教えてください！簡単なサンプル # coding: utf-8 import igo.Tagger t = igo.Tagger.Ta

zoning 2011/05/05

NLP
Python

リンク

Igo - a morphological analyzer

目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード

zoning 2011/05/05

NLP

リンク

日本語係り受けコーパス(JDC)

概要日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて，助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビューをお送りする 496 テレクラでいる 6 大気が存続する 1 化量を言う 1 Private と定義する 1 けんぎゅうかが伝来される 2 プロテスタンティズムを生み出す 1 脳内でアップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会が仕事 25 こころというちよ 1 場所から大筒 1 見直しへ訴訟 3 ここ