JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業
タイトル別名 ミチゴ ノ カクリツ モデル ト タンゴ ノ シュツゲン ヒンド ノ キタイチ ニ モトヅク テキスト カラ ノ ゴイカクトク Lexical Acquisition from Japanese Text Based On Statistical Unknown Word Model and Expected Word Frequency 自然言語処理 本論文では 未知語の確率モデルと単語の出現頻度の期待値に基づいて日本語テキストから未知語を収集する方法を提案する. 本手法の特徴は 単語を構成する文字の種類ごとに異なる未知語モデルを使用することによりひらがな語や複数の字種から構成される単語を収集できること および 単語の出現頻度の期待値を文字列の単語らしさの尺度とすることにより出現頻度が低い単語を収集できることである. 人手により単語分割された EDRコーパスから無作為に選択
データ列に対して検索効率などを効率化するため,索引を付加することがある.演算を効率化するために,データに対して特定の情報を付加したものを,ここではデータ構造と呼ぶこととする.本稿ではこのようなデータ構造のうち,もとのデータの長さnに対してo(n)程度の付加情報のみを与える,簡潔データ構造と呼ばれる分野について解説する.特に,最も基本的かつ応用範囲の広いビットベクトルに関する簡潔データ構造に焦点を当てる.ビットベクトルBに対して,先頭からi番目までのビット中の1の数を与えるrank1(B i)と,i番目の1の位置を与える select1(B i)という演算は,基本的かつ重要な演算である.これらの演算が定数時間で可能な簡潔データ構造について,具体的なデータ構造とアルゴリズムを紹介し,次に付加するデータサイズの下界についての結果を示し,最後に今後の展望について述べる.
タイトル別名 2ジュウ マルコフ モデル オ モチイタ ベタガキ カナブン ノ カリ ブンセ A Method of Finding the Provisional Boundaries of "Bunsetsu" for Non - segmented "Kana" Sentences Using 2nd - order Markov Model 人工知識と認知科学 べた書きかな文のかな漢字変換精度を向上させるためには,変換の過程で正解を漏らさないように,辞書から,かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが,文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある.従来,べた書きの漢字かな混じり文の場合は,字種の変化点に着目して仮文節境界を決定する方法が提案されているが,この方法は字種が,かな文字に限定されるべた書きかな文に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く