You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
3行まとめ Recurrent Neural Networkによるかな漢字変換をTensorFlowを使って実装しました。 既存手法のN-gramと比べて高い精度(文正解率2.7ポイント向上・予測変換3.8ポイント向上)を実現しました。 RNNの特性により離れた単語の共起関係と低頻度語の扱いが改善されました。 かな漢字変換とN-gramモデルの限界 パソコンやスマートフォンで日本語を入力するためのかな漢字変換には、同音異義語や単語区切りに曖昧さがあります。この問題に対処するため、現在は大規模な訓練データに基づく統計的言語モデルが主流になりました。その中でも代表的な単語のN-gramモデル1では、連続する単語列の頻度を使って言語モデルを構成し、変換候補の確率が高いほど順位が高いと考えます。 しかし、N-gramモデルには離れた単語の共起関係を考慮できないという問題点(マルコフ性)と、低頻度語
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい
※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚本が映画の公式サイトで公開されていることを最近知った.映画の脚本となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての
That’s quite the mouthful. Let me start with a huge caveat: I’m not an expert on this, and much of it may be incorrect. I studied Bayesian statistics about fifteen years ago in university, but have no recollection of it (that sounds a bit like Bill Clinton: “I experimented with statistics but didn’t inhale the knowledge�). Even so, given the increasing quantity of real-time content on th
Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこの本を読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって
夏いですね.最近この手の記事ばかりで大変恐縮ですが,機械学習に関するウェブ上で手に入る無料のテキストが紹介されていたので,共有したいと思います.ほとんどは以前に僕が紹介している(時々更新しています)「機械学習・自然言語処理のリソースリンク集」に入っているのですが,改めて紹介いたします.おそらく,他ブログでも紹介しているようにも思えますが,このサイトの紹介がてら引用させていただこうと思います. MetaOptimize / 最近ちょっと話題になっている「MetaOptimize /」という機械学習のサイトのQ&Aで紹介されていました.まじめに見ていなかったのですが,このサイト非常に有用でおもしろいですね. 特に同サイトの「qa」はかなり有用かと思いました. フリーの機械学習テキスト 話を戻しますと,興味深いQuestionsがたくさんあるのですが,今回注目したのは「Good Freely A
NLP in Python vs other Programming Languages Many programming languages have been used for NLP. As explained in the Preface, we have chosen Python because we believe it is well-suited to the special requirements of NLP. Here we present a brief survey of several programming languages, for the simple task of reading a text and printing the words that end with ing. We begin with the Python version, w
Sorry, the page you were looking for could not be found. You can return to our home page, or contact us if you can't find what you are looking for.
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日本語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日本語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、
岡崎 直観,辻井 潤⼀ ⽂字列の集合 V から以下の部分集合を求める Yx ,α = {y ∈ V | sim( x, y ) ≥ α } ◦ ◦ ◦ ◦ x: 検索クエリ⽂字列(V に含まれなくてもよい) y: 検索されて⾒つかる⽂字列 sim: 類似度関数(コサイン類似度など) α: 類似度の閾値 単純には,クエリ x と |V| 回の類似度計算が必要 これを出来るだけ⾼速に⾏いたい ⽂字列集合 V を辞書と⾒なせば ◦ 曖昧検索,スペル訂正 ⼊⼒されたクエリに近い辞書エントリを探す ◦ 単語セグメンテーション,固有表現抽出における辞書素 性(gazetteer) ⼈名リストや地名リストと柔軟なマッチングで素性を作る ◦ ⾼速な⽂字列クラスタリング 類似度の⾼いペアだけを効率よく⾒つけてクラスタを形成 ⽂字列集合が U と V の2つあるときは ◦ データベース統
A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl
MeCab 汎用日本語形態素解析エンジン 工藤 拓 アジェンダ 形態素解析の技術 辞書引きのアルゴリズム、データ構造 曖昧性の解消 MeCab の開発裏話 歴史 設計方針 汎用テキスト変換ツールとしての MeCab 恐ろしく汎用的! 「意外な」使い方 これから 形態素解析 文を単語に区切り、品詞を同定する処理 全文検索 Spam フィルタリング 人工無能... 以下の3つの処理 単語への分かち書き(tokenization) 活用語処理(stemming, lemmatization) 品詞同定(part-of-speech tagging) すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*
自然言語処理に関連する講義資料へのリンク お願い: このリストに追加すべきページをご存知の方は、nlp_portal あっと nlp.kuee.kyoto-u.ac.jpまでご連絡下さい。 講義名: 自然言語処理論 大学: 北陸先端科学技術大学院大学 キーワード: オートマトン,文脈自由文法,形態素解析,構文解析,情報検索,機械翻訳 ファイル形式: pdf URL: http://www.jaist.ac.jp/~kshirai/lec/i223/index.html (スライド) 講義名: 言語情報科学 大学: 東京大学 キーワード: 形態素解析,情報抽出,自動要約,機械翻訳,情報検索 ファイル形式: ppt URL: http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/suri-GJK/syllabus.html (スライド)
[索引] [あ行] [か行] [さ行] [た行] [な行] [は行] [ま行] [や行] [ら行] [わ行] あ行 アーリーアルゴリズム (Earley algorithm) 文脈自由文法に基づく構文解析アルゴリズム.ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴. IIS (Improved Iterative Scaling algorithm) 最大エントロピー法のパラメタを学習するアルゴリズム. 曖昧性 (ambiguity) 自然言語処理では,複数の解析結果が得られることを曖昧性があるという.例えば複数の語義がある場合は語義(選択)に曖昧性があるといい,かかり受け解析において複数の可能性がある場合は,かかり受けに曖昧性があるという.曖昧性は様々な処理レベルで存在し,曖昧性解消(ambiguity resolution, disa
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く