タグ

2010年4月2日のブックマーク (27件)

  • 第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記

    昨年と一昨年に引き続き IM (input method) 飲み会。前々回は単に参加しただけ、前回は昼の部を取りまとめただけで夜の部は oxy くんに任せていたのだが、今回は昼の部だけではなく夜の部も取りまとめることになった(京都開催なのに自分は京都住んでいないのでお店もよく分からず……森さんが助けてくれた。深謝!)ので、なかなか緊張する。 出張扱いで来る可能性のある人がいたので、とりあえず第1回入力メソッドワークショップという名前をつけてページを用意してみた(なにか開催するときはこういうものを作っておくと役に立つということを、昨年 Patrick Pantel さんを Yahoo! Labs から招聘したとき学んだ)。去年のものも入れると第2回だけど……。 今回初参加は id:kzk くんの紹介で来た id:naoya さん、tabatee さんの紹介で shinh さん、森さんの研究室

    第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記
  • GSK2007-C Web日本語Nグラム第1版

    Nグラムは一般に公開されている日語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • ChaIME

    ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google語 N グラムからの推定 現在2GBの辞書サイズ

  • かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記

    id:tkng さんが、現状の ChaIME について紹介して、これからの開発研究体制について話したい、ということで、京大に集まってミーティング。京大の森さんたちが作っている変換エンジン KAGAMI も9月くらいから格稼働している(少なくとも森さんは常用している)そうで、データやサーバ、ライブラリなど共通化できるところは共通化しましょう、というわけで、総勢5人でお昼から夕(学生さんは free pizza と free beer (笑))を挟んで11時近くまで、スライド使ったりデモしたりコード見たり雑談したり、いろいろ。 今後の方針については、tkng さんがものすごくがんばってくれてメモリ・ディスク使用量、処理時間ともに1/25くらいになって使えるようになってきた(現在 tkng さんと自分の2人が常用している)実用的にしたいと思う反面、実用的にするためにごちゃごちゃした変更を加え

    かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記
    gologo13
    gologo13 2010/04/02
    ブックマークした日から約3か月.今ならある程度書いてあることがわかる.問題は学習かぁ
  • 無駄なdiv要素やclassだらけのマークアップから卒業する方法

    グリッドベースのレイアウトを作成すると、ついついdiv要素を多用してしまいがちですが、意味のあるデータにはそれに適した要素を使用し、無駄なdiv要素やclassだらけのマークアップから卒業する方法をWebdesigner Depotから紹介します。 Fight Div-itis and Class-itis With the 960 Grid System 下記は各ポイントを意訳したものです。 はじめに CSSのフレームワーク:960.gsの場合 classの乱用を避ける リスト要素の使用 画像とキャプションの使用 複数の見出しとパラグラフの使用 子要素のclassは親要素に はじめに 数年前までウェブページの設計はテーブルがスタンダードでした。そしてCSSはそれを大きく変え、今日ではCSSのフレームワークがウェブページの設計を容易にしてくれています。 しかしながら、このCSSのフレームワ

  • Webページの分類やスクラップにも利用できる文献管理Firefox拡張「Zotero」 | OSDN Magazine

    今回紹介するFirefox拡張「Zotero」は、Web上で公開されている論文や各種情報をスクラップして保存したり、メモやノートを付けられる論文/参考文献管理ツールである。そのほか、文献データベースや図書館Amazonなどから論文や書籍の情報を取得・保存する機能、参考文献作成機能など、文献管理に有用な機能を備えており、論文の執筆を行う研究者だけでなく、レポートやブログなどを執筆するユーザーなどにも有用なツールだ。 Zoteroをインストールするには、FirefoxアドオンサイトのZoteroページ中の「Firefoxへインストール」ボタンをクリックすればよい。インストール終了後、指示に従ってFirefoxを再起動すると、新しいタブでquick_start_guideというWebページが開かれる。このページは英語表記であるが、右上の「Translations of this page:」下

    Webページの分類やスクラップにも利用できる文献管理Firefox拡張「Zotero」 | OSDN Magazine
  • Zzz Eee Lll Ccc Hhh

    仮名漢字変換 統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。 当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。 確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。 実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。 モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードで きます。 詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。 リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用 単語と読

  • Zotero使ってみた・2nd - のりや日記

    ※旧バージョン(ver.1番台)をお使いの方は、こちらの記事をどうぞ。 論文なんかの文献整理に便利なFirefoxアドイン「Zotero」の2010.02現在最新版であるver. 2.0について、使い方をメモメモ。 いわゆる無料の情報収集ツールであり、電子ジャーナルなどwebからの収集力は素晴らしいの一言。 読んでいる論文などの管理だけでなく、欲しいものリストやブログネタの整理にも使えます。某EndN○teやRefW○rksと違って、無料なのもありがたいです。 使い方や他の素敵なレビューは、こちらからどうぞ。 ・Zotero: Firefox で簡単に文献管理 | Lifehacking.jp ・ブロガーに最適?参考情報を管理できるFirefox拡張『Zotero』 | POP*POP ・要チェック!ブラウザを使った新しい情報調査&管理ツール「Zotero」 | MOONGI

  • 文献管理ソフトzoteroでCiniiの文献情報を取り込む方法 - 毛のはえたようなもの

    文献管理ソフトzoteroでCiniiの文献情報を取り込む方法をご紹介します。 zoteroとは何か Firefoxの文献管理アドオンです。GoogleScholarやその他の文献ポータルサイト等で文献を発見したときに、アドレスバーに出るアイコンをクリックするだけで文献を登録できます。登録した文献もまとめて指定の形式で出力可能です。 zoteroのすばらしさについては、私が語らなくとも誰かが語っているはずなので、詳しくは以下をご覧ください。 http://www.zotero.org/ ブロガーに最適?参考情報を管理できるFirefox拡張『Zotero』 | POP*POP Dropboxがなくても大丈夫!Zoteroで論文管理 - どせいけいさんき。 問題:zoteroでCiniiの文献情報が取り込めない。 大体どんな文献ダウンロードサイトでも稼動しているzoteroですが、日語文献

    文献管理ソフトzoteroでCiniiの文献情報を取り込む方法 - 毛のはえたようなもの
  • 言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記

    情報処理学会の来るべきクラウドコンピューティングの世界のイベントに参加する気満々で朝安田講堂に行ったのだが、言語処理学会のプログラムを見ていると、どうも朝はそちらを聞かないとまずそうな感じだったので、予定を変更して言語処理学会に。 自分の聞いたのは解析のセッションだったのだが、どうもパンフレットに載っている時間と実際の開始時間が違った(より正確には、情報処理学会側のプログラムに書いてある言語処理学会のセッションの開始時刻と言語処理学会側のプログラムに書いてある言語処理学会のセッションの開始時間が違った)ので、最初の発表を聞き逃す。残念。 一番おもしろかったのは 段階的な部分木間の構造判定に基づく決定的係り受け解析. ○北川浩太郎, 田中久美子 (東大) かな。決定的な係り受け解析をするのだが、素性に部分木の構造を用いていて、高速ながら精度が高いそうで(詳しくは読まないと分からないが)。ただ

    言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記
  • www.rodoku.jp – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

  • Baidu IME - 日本語入力 -

    無料ダウンロード ※ ダウンロードしたファイルをクリックし、インストールをお願いします。 Windows XP / Vista / 7 / 8 / 8.1 (32/64bit) 対応 更新日付:2017.07 バージョン:Ver3.6.1.7 サイズ:52MB 顔文字入力Hot 友達との会話に顔文字を使いこなそう! よく使う言葉でいろいろな顔文字が使える。 アスキーアート辞書 画期的な機能が、おどろくほど簡単に。 日本語入力にまったく新しい視野を。 オプション辞書 いつも入力に手間取る単語や顔文字も オプション辞書を使えば一発変換! きせかえ用スキン いろんなスキンを気分で着せ替え、 文字入力をもっと楽しく!

    gologo13
    gologo13 2010/04/02
    i didn't know that
  • GNU GLOBAL(gtags)ソースコードタグシステムの使い方

    GNU GLOBAL(gtags)は、ソースコードのタグジャンプです。簡単に複数のソース中から関数や、変数の定義元/参照元を見つけ、その箇所に移動することができます。 ctags、etags(cygwin や Linux に大抵標準で含まれています)と同じ働きをしますが、gtags はさらに強力な機能を持っています。大量の他人の書いたソースを読むプログラマには、必須だと思います。 GNU GLOBAL(gtags) の特徴 gtags は、次のような特徴を持っています。 C、 C++、 Yacc、 JavaPHP4 のソースコードに対応しています。 ※ Pygments 等を入れれば Python等のコードにも対応します 関数の呼び出し元を参照できます。 複数の候補が存在する場合は、一覧で表示してくれます。 タグ情報より、HTMLを生成できます。 コマンドラインや、vi、emacs な

    GNU GLOBAL(gtags)ソースコードタグシステムの使い方
  • PRML6章「ガウス過程による回帰」を R で試す - 木曜不足

    PRML 読書会 #8 が来週に迫る中。 カーネル法わからん…… ガウス過程わからん…… そもそも今回の会場無事たどり着けるかな…… 3つめの不安はとりあえず置いといて、わからんときは手を動かすしかない。 というわけで PRML 6.4.2 「ガウス過程による回帰」を R で試す。 訓練データは PRML のサンプルデータを使う。 # PRML's synthetic data set curve_fitting <- data.frame( x=c(0.000000,0.111111,0.222222,0.333333,0.444444,0.555556,0.666667,0.777778,0.888889,1.000000), t=c(0.349486,0.830839,1.007332,0.971507,0.133066,0.166823,-0.848307,-0.445686,-0

    PRML6章「ガウス過程による回帰」を R で試す - 木曜不足
    gologo13
    gologo13 2010/04/02
    6章
  • Social IME ~みんなで育てる日本語入力~

    Xoi Lac TV – Xem Bóng Đá Trực Tiếp Hôm Nay – Xoilac TV Trực Tuyến Xoilac TV là kênh phát sóng trực tiếp các trận đấu thể thao lớn trên thế giới hoàn toàn miễn phí. Đến với Xoilac, khán giả được thỏa sức lựa chọn và theo dõi những trận đấu mà bản thân yêu thích. Ngoài ra, Xôi Lạc TV cũng cung cấp những thông tin hữu ích liên quan đến trận đấu để các bet thủ có thể dễ dàng đưa ra những nhận định chí

  • BasisTech

    アイデアの可能性を実行可能なソリューションに育てる BasisTechは、ベンチャー企業の製品開発、有能なスタッフの獲得、資金調達や成長への準備を支援します。 有望なアイデアを持つ卓越した人材を求めています より良い世界づくりに貢献する可能性を秘めたアーリーステージスタートアップ企業を支援します。現在参加の企業はエンタープライズデータ、マシンビジョン、公的機関にフォーカスしています。

    BasisTech
  • コルモゴロフ複雑性 - Wikipedia

    コルモゴロフ複雑性(コルモゴロフふくざつせい、英語: Kolmogorov complexity)とは、計算機科学において有限長のデータ列の複雑さを表す指標のひとつで、出力結果がそのデータに一致するプログラムの長さの最小値として定義される。コルモゴロフ複雑度、コルモゴロフ=チャイティン複雑性 (Kolmogorov-Chaitin complexity) とも呼ばれる。 この画像はフラクタル図形であるマンデルブロ集合の一部である。このJPEGファイルのサイズは17KB以上(約140,000ビット)ある。ところが、これと同じファイルは140,000ビットよりも遥かに小さいコンピュータ・プログラムによって作成することが出来る。従って、このJPEGファイルのコルモゴロフ複雑性は140,000よりも遥かに小さい。 コルモゴロフ複雑性の概念は一見すると単純なものであるが、チューリングの停止問題やゲー

    コルモゴロフ複雑性 - Wikipedia
    gologo13
    gologo13 2010/04/02
    なんなんですかこれ…
  • 可逆圧縮 - Wikipedia

    可逆圧縮(かぎゃくあっしゅく)とは、圧縮前のデータと、圧縮・展開の処理を経たデータが完全に等しくなるデータ圧縮方法のこと[1]。ロスレス圧縮[1](ロスレスあっしゅく)、無歪み圧縮(むゆがみあっしゅく)[2]とも呼ばれる。 アルゴリズムとしては連長圧縮、ハフマン符号、LZWなどが有名。 コンピュータ上でよく扱われるLZH、ZIP、CABや、画像圧縮形式のPNG、GIFなどが可逆圧縮である[1]。 アルゴリズム[編集] すべてのデータを効果的に圧縮できる可逆圧縮アルゴリズムは存在しない(可逆圧縮の限界の節を参照)。そのため、データの種類によって多くのアルゴリズムが存在する。下記に主要な可逆圧縮方式を列挙する。 データ全般[編集] 算術符号 - エントロピー符号の一種 ハフマン符号 - エントロピー符号の一種 LZ77、LZ78 - 辞書式圧縮(英語版)の一種 Lempel-Ziv-Marko

    gologo13
    gologo13 2010/04/02
    圧縮アリゴリズムも勉強してみたいなぁ,というか全く知らないし
  • Google日本語入力の技術講演会

    Google日本語入力の、公式技術講演会に行ってきた。その次第を書きたいと思う。 今回の会場は、なんと大阪である。そのため、私のように関西圏に住んでいる人間には、参加しやすい。 まず、京都から大阪へ行く。いつも思うのだが、大阪の都市部は、まるでダンジョンだ。地上と歩道橋と地下道があって、一体どこを進んでいいのやらさっぱりわからない。大阪の立体構造を再現して、ゲームとして売り出せば、案外ヒットするのではなかろうか。 さて、受付の始まる時間になったので、会場に向かう。なんと、すでに長蛇の列であった。早くも失敗したか。もっと早くから来ていれば、前の方に座れたかもしれない。軽く失望しつつ受付を済ませると、なんと、一番前の席が、二席だけ開いているではないか。知っての通り、私はそういう性格なので、迷わず一番前に座った。ちなみに、隣の席は空いていたが、何故か誰も座ろうとしなかった。こういうのは、だいぶ性

  • Minise: MIni Search Engine

    ウェブサイトは現在工事中です.ソースコード公開は10/24頃を予定しています. 概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです.検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができます. 索引の種類として逐次検索,転置ファイル,N-gram,接尾辞配列をサポートしています.また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます. 主な利用用途として、小〜中規模の検索向けまた,教育用,研究用目的に使われることを想定されております. ダウンロード Miniseはフリーソフトウェアです.修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開 使い方

  • Microsoft Visual Studio Express

    This browser is no longer supported. Upgrade to Microsoft Edge to take advantage of the latest features, security updates, and technical support.

    Microsoft Visual Studio Express
  • iPad購入ガイド:購入するかしないか悩んでいる人のために

    米国でのiPadの発売までついに2日と迫ったが、iPadを購入するかしないか悩んでいる人のために、簡単なテストを作ってみた。まずは各質問を読み、YES/NOで答えていただきたい。 新しいデバイスを持ち歩いて注目されるのが好き Apple製品を少なくとも一つ持っていて、それにとても満足している ガラパゴス携帯より、スマートフォンが好き この業界(パソコン、ケータイ、ウェブサービス、ITゲーム、家電)で働いている 出かける時にノートパソコンを持ち歩くことが多い コピーした書類や論文を持ち歩くことが多い スキャンしたマンガをパソコンやスマートフォンで読んでいる(読みたい) テレビを見ながらインターネットをすることが多い iPadに5万円使っても、うのには困らない 私のブログを頻繁に読んでいる 6つ以上YESがあるならば買って損はないと思う。特に8つ以上YESの人は絶対に買うべきだろう(ただし

    gologo13
    gologo13 2010/04/02
    「時代の進歩を傍観するんじゃなくて、イノベーションを起こす側に立ちたい」iPadとかどうでも良いけど,このフレーズに何故か鳥肌が立った.これは研究することに置いても通用するな…
  • 何もしない完璧主義者 - Google 検索

    2023/07/08 · きっちり仕事をこなす完璧主義。 何かをするには徹底的に終わらせるのが完璧主義です。 しかし、完璧が強すぎると行動できなくなるのが欠点です。

  • カウンセリングサービス■カウンセラー発!すぐに役立つ心理学講座

    私達人間は、頭でわかっていても、出来ないことがあります。そんな時は、心に何らかのやりたくない、出来ない理由があるのです。心の声を無視して、頭で考えていることを実行しようとしても、心の方が頭よりもパワフルなので、考えているようにはできないということが起こるのです。そんな時は、思考で心を納得させよう、抑え込もうとするのではなく、一旦心の声に耳を傾けてあげることが大切です。 そうすることによって、自分に必要なものや、自分が好きだと感じているものを発見することができます。その上で、思考によって、それを手に入れる方法を考えると、頭と心が一致して、事を簡単にすすめていくことができるようになります。起こっていることを、ダメな事だと否定するのではなく、受け止めた上で、心の声に耳を傾けてみましょう。 ◎リクエストを頂きました◎ =================================== 結婚して

    gologo13
    gologo13 2010/04/02
    おれじゃん.人に優しくなる,人の許すことでこの問題はある程度は解決できるが,人生のパートナーとかになると中々妥協できないかもしれない…ブサイクは嫌だし,ああ
  • 直感を信じろ、自分を信じろ、好きを貫け、人を褒めろ、人の粗探ししてる暇があったら自分で何かやれ。

    ここ一週間、たくさんの日の若い人たちと話した。JTPAツアー、九州大学ツアー、そして昨日のLingrイベント。それでつくづく思ったこと。もう前にも一度言ったことだし、当たり前のことだし、言わなくても伝わっているだろうとふと思っても、しつこく言おうと。なぜなら、僕が考えていることと正反対の言葉を、日の大人たちから皆はシャワーのように浴び続けているし、僕がこうあるべきと思うことと正反対の経験を日々せざるを得ない状況にある、ということがよくわかったから。 二十歳にもなれば、その人のすべてはもう顕れている。その自分の良いところを見つけるには、自分の直感を信じ(つまり自分を信じるということ)、自分が好きだと思える「正のエネルギー」が出る対象を大切にし、その対象を少しずつでも押し広げていく努力を徹底的にするべきだ。そういう行動の中から生まれる他者との出会いから、新しい経験を積んでいけば、自然に社会

    直感を信じろ、自分を信じろ、好きを貫け、人を褒めろ、人の粗探ししてる暇があったら自分で何かやれ。
    gologo13
    gologo13 2010/04/02
    ネット空間で特に顕著だが、日本人は人を褒めない。昨日もLingrイベントで言ったけど、もっと褒めろよ。心の中でいいなと思ったら口に出せ。
  • Survey1

    Survey1 SVMを用いた固有表現抽出に関する論文のサーベイ 1.Support Vector Machineを用いた日語固有表現抽出 2.Support Vector Machineの多値分類問題への適用法について 3.SVMに基づく固有表現抽出の高速化 4.日語固有表現抽出における文節情報の利用 5.Stackingの効率的な学習方法と日語固有表現抽出での評価 6.非頻出語に対して頑健な日語固有表現の抽出 7.大域的情報を用いた日語固有表現認識 SVMを利用した日語固有表現抽出に関する論文が中心です. 固有表現タグを入力文の解析単位毎に正確に付与することが目的です. チャンカーは基的にYamCha 1.Support Vector Machineを用いた日語固有表現抽出 山田寛康 工藤拓 松裕治 奈良先端科学技術大学院大学情報科学研究科 概要