mamorukのブックマーク - はてなブックマーク

CiNii - ポスドクからポストポスドクへ(<シリーズ>"ポスドク"問題その12)

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

mamoruk 2010/08/03

リンク

特論‐4　継続こそ力 : 「なずき」開発物語 | CiNii Research

mamoruk 2010/03/06

NLP

リンク

未知語の確率モデルと単語の出現頻度の期待値に基づくテキストからの語彙獲得 | CiNii Research

タイトル別名ミチゴノカクリツモデルトタンゴノシュツゲンヒンドノキタイチニモトヅクテキストカラノゴイカクトク Lexical Acquisition from Japanese Text Based On Statistical Unknown Word Model and Expected Word Frequency 自然言語処理本論文では未知語の確率モデルと単語の出現頻度の期待値に基づいて日本語テキストから未知語を収集する方法を提案する. 本手法の特徴は単語を構成する文字の種類ごとに異なる未知語モデルを使用することによりひらがな語や複数の字種から構成される単語を収集できることおよび単語の出現頻度の期待値を文字列の単語らしさの尺度とすることにより出現頻度が低い単語を収集できることである. 人手により単語分割された EDRコーパスから無作為に選択

mamoruk 2009/10/27

NLP

リンク

大規模データ処理のための簡潔データ構造 | CiNii Research

データ列に対して検索効率などを効率化するため，索引を付加することがある．演算を効率化するために，データに対して特定の情報を付加したものを，ここではデータ構造と呼ぶこととする．本稿ではこのようなデータ構造のうち，もとのデータの長さnに対してo(n)程度の付加情報のみを与える，簡潔データ構造と呼ばれる分野について解説する．特に，最も基本的かつ応用範囲の広いビットベクトルに関する簡潔データ構造に焦点を当てる．ビットベクトルBに対して，先頭からi番目までのビット中の1の数を与えるrank1(B i)と，i番目の1の位置を与える select1(B i)という演算は，基本的かつ重要な演算である．これらの演算が定数時間で可能な簡潔データ構造について，具体的なデータ構造とアルゴリズムを紹介し，次に付加するデータサイズの下界についての結果を示し，最後に今後の展望について述べる．

mamoruk 2009/10/22

リンク

接続コスト最小法による日本語形態素解析 | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

mamoruk 2009/07/09

接続コスト最小法の初期の論文

NLP

リンク

文節数最小法を用いたべた書き日本語文の形態素解析 | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

mamoruk 2009/07/08

こちらもかな列から形態素解析する方法。

NLP
IME

リンク

べた書き文の分かち書きと仮名漢字変換　－ニ文節最長一致法による分かち書き－ | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

mamoruk 2009/07/08

かな列だけからの二文節最長一致法による分かち書き。

NLP
IME

リンク

多様化する米国音声言語研究 : DARPA時代の終焉と困惑 | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

mamoruk 2009/06/06

いろいろありますなー

リンク

2重マルコフモデルを用いたべた書きかな文の仮文節境界の推定方法 | CiNii Research

タイトル別名 2ジュウマルコフモデルオモチイタベタガキカナブンノカリブンセ A Method of Finding the Provisional Boundaries of "Bunsetsu" for Non - segmented "Kana" Sentences Using 2nd - order Markov Model 人工知識と認知科学べた書きかな文のかな漢字変換精度を向上させるためには，変換の過程で正解を漏らさないように，辞書から，かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが，文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある．従来，べた書きの漢字かな混じり文の場合は，字種の変化点に着目して仮文節境界を決定する方法が提案されているが，この方法は字種が，かな文字に限定されるべた書きかな文に

mamoruk 2009/04/07

かなだけからでも文節は切れる