機械学習においてデータの品質が精度にどれだけ影響を与えるか、種々のアルゴリズムに対して実験による検証が行われた。 データの欠損、不整合、コンフリクトといった問題に対して、アルゴリズム選択やデータクリーニングのガイドラインが提示され… https://t.co/Lef3Dm6orE

機械学習においてデータの品質が精度にどれだけ影響を与えるか、種々のアルゴリズムに対して実験による検証が行われた。 データの欠損、不整合、コンフリクトといった問題に対して、アルゴリズム選択やデータクリーニングのガイドラインが提示され… https://t.co/Lef3Dm6orE
入力メソッドワークショップ(別名IM飲み会)で「Social IMEの共有辞書をクリーニングしてみた」というタイトルで発表しました. WorkshopOnInputMethods2011 - chaime - ChaIME -- Term-based Yet Another Japanese Input Method Editor - Google Project Hosting 入力メソッド飲み会 2011 - [PARTAKE] Social IMEの共有辞書をクリーニングしてみた @nokuno発表資料をslideshareにアップロードしました.Social IMEの共有辞書をクリーニングしてみた View more presentations from Yoh Okuno 以下,他の人の発表についてのメモです. 機械学習による近代文語論説文への濁点の自動付与 岡さん 歴史的コーパ
表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニングしたものや,はてなキーワードをクリーニングしたもの,MS IMEのユーザ辞書をWebからクロールするスクリプトを含んでいます.各辞書の単語数は以下のとおりです. 辞書 Social IME Wikipedia Hatena 単語数 48k 137k 235k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には,多くのノイズが含まれています.このノイズを取り
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く