gologo13のブックマーク / 2010年4月2日

第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記

昨年と一昨年に引き続き IM (input method) 飲み会。前々回は単に参加しただけ、前回は昼の部を取りまとめただけで夜の部は oxy くんに任せていたのだが、今回は昼の部だけではなく夜の部も取りまとめることになった(京都開催なのに自分は京都住んでいないのでお店もよく分からず……森さんが助けてくれた。深謝！)ので、なかなか緊張する。出張扱いで来る可能性のある人がいたので、とりあえず第1回入力メソッドワークショップという名前をつけてページを用意してみた(なにか開催するときはこういうものを作っておくと役に立つということを、昨年 Patrick Pantel さんを Yahoo! Labs から招聘したとき学んだ)。去年のものも入れると第2回だけど……。今回初参加は id:kzk くんの紹介で来た id:naoya さん、tabatee さんの紹介で shinh さん、森さんの研究室

gologo13 2010/04/02

リンク

GSK2007-C Web日本語Nグラム第1版

Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の１〜７グラムを収録している。データの詳細については付属のREADMEも参照のこと。

gologo13 2010/04/02

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

gologo13 2010/04/02

リンク

ChaIME

ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデルを学習するとうまく行くかもしれません。統計的仮名漢字変換統計的仮名漢字変換についてページを分けました。既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定現在2GBの辞書サイズ

gologo13 2010/04/02

ChaIME
IME

リンク

かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記

id:tkng さんが、現状の ChaIME について紹介して、これからの開発研究体制について話したい、ということで、京大に集まってミーティング。京大の森さんたちが作っている変換エンジン KAGAMI も9月くらいから本格稼働している(少なくとも森さんは常用している)そうで、データやサーバ、ライブラリなど共通化できるところは共通化しましょう、というわけで、総勢5人でお昼から夕食(学生さんは free pizza と free beer (笑))を挟んで11時近くまで、スライド使ったりデモしたりコード見たり雑談したり、いろいろ。今後の方針については、tkng さんがものすごくがんばってくれてメモリ・ディスク使用量、処理時間ともに1/25くらいになって使えるようになってきた(現在 tkng さんと自分の2人が常用している)実用的にしたいと思う反面、実用的にするためにごちゃごちゃした変更を加え

gologo13 2010/04/02

ブックマークした日から約３か月．今ならある程度書いてあることがわかる．問題は学習かぁ

リンク

無駄なdiv要素やclassだらけのマークアップから卒業する方法

グリッドベースのレイアウトを作成すると、ついついdiv要素を多用してしまいがちですが、意味のあるデータにはそれに適した要素を使用し、無駄なdiv要素やclassだらけのマークアップから卒業する方法をWebdesigner Depotから紹介します。 Fight Div-itis and Class-itis With the 960 Grid System 下記は各ポイントを意訳したものです。はじめに CSSのフレームワーク：960.gsの場合 classの乱用を避けるリスト要素の使用画像とキャプションの使用複数の見出しとパラグラフの使用子要素のclassは親要素にはじめに数年前までウェブページの設計はテーブルがスタンダードでした。そしてCSSはそれを大きく変え、今日ではCSSのフレームワークがウェブページの設計を容易にしてくれています。しかしながら、このCSSのフレームワ

gologo13 2010/04/02

リンク

Webページの分類やスクラップにも利用できる文献管理Firefox拡張「Zotero」 | OSDN Magazine

今回紹介するFirefox拡張「Zotero」は、Web上で公開されている論文や各種情報をスクラップして保存したり、メモやノートを付けられる論文/参考文献管理ツールである。そのほか、文献データベースや図書館、Amazonなどから論文や書籍の情報を取得・保存する機能、参考文献作成機能など、文献管理に有用な機能を備えており、論文の執筆を行う研究者だけでなく、レポートやブログなどを執筆するユーザーなどにも有用なツールだ。 Zoteroをインストールするには、FirefoxアドオンサイトのZoteroページ中の「Firefoxへインストール」ボタンをクリックすればよい。インストール終了後、指示に従ってFirefoxを再起動すると、新しいタブでquick_start_guideというWebページが開かれる。このページは英語表記であるが、右上の「Translations of this page:」下

gologo13 2010/04/02

zotero

リンク

Zzz Eee Lll Ccc Hhh

仮名漢字変換統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードできます。詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用単語と読

gologo13 2010/04/02

リンク

Zotero使ってみた・2nd - のりや日記

※旧バージョン(ver.1番台)をお使いの方は、こちらの記事をどうぞ。論文なんかの文献整理に便利なFirefoxアドイン「Zotero」の2010.02現在最新版であるver. 2.0について、使い方をメモメモ。いわゆる無料の情報収集ツールであり、電子ジャーナルなどwebからの収集力は素晴らしいの一言。読んでいる論文などの管理だけでなく、欲しいものリストやブログネタの整理にも使えます。某EndN○teやRefW○rksと違って、無料なのもありがたいです。使い方や他の素敵なレビューは、こちらからどうぞ。・Zotero: Firefox で簡単に文献管理 | Lifehacking.jp ・ブロガーに最適？参考情報を管理できるFirefox拡張『Zotero』 | POP*POP ・要チェック！ブラウザを使った新しい情報調査＆管理ツール「Zotero」 | MOONGI

gologo13 2010/04/02

zotero

リンク

文献管理ソフトzoteroでCiniiの文献情報を取り込む方法 - 毛のはえたようなもの

文献管理ソフトzoteroでCiniiの文献情報を取り込む方法をご紹介します。 zoteroとは何か Firefoxの文献管理アドオンです。GoogleScholarやその他の文献ポータルサイト等で文献を発見したときに、アドレスバーに出るアイコンをクリックするだけで文献を登録できます。登録した文献もまとめて指定の形式で出力可能です。 zoteroのすばらしさについては、私が語らなくとも誰かが語っているはずなので、詳しくは以下をご覧ください。 http://www.zotero.org/ ブロガーに最適？参考情報を管理できるFirefox拡張『Zotero』 | POP*POP Dropboxがなくても大丈夫！Zoteroで論文管理 - どせいけいさんき。問題：zoteroでCiniiの文献情報が取り込めない。大体どんな文献ダウンロードサイトでも稼動しているzoteroですが、日本語文献

gologo13 2010/04/02

zotero

リンク

言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記

情報処理学会の来るべきクラウドコンピューティングの世界のイベントに参加する気満々で朝安田講堂に行ったのだが、言語処理学会のプログラムを見ていると、どうも朝はそちらを聞かないとまずそうな感じだったので、予定を変更して言語処理学会に。自分の聞いたのは解析のセッションだったのだが、どうもパンフレットに載っている時間と実際の開始時間が違った(より正確には、情報処理学会側のプログラムに書いてある言語処理学会のセッションの開始時刻と言語処理学会側のプログラムに書いてある言語処理学会のセッションの開始時間が違った)ので、最初の発表を聞き逃す。残念。一番おもしろかったのは段階的な部分木間の構造判定に基づく決定的係り受け解析. ○北川浩太郎, 田中久美子 (東大) かな。決定的な係り受け解析をするのだが、素性に部分木の構造を用いていて、高速ながら精度が高いそうで(詳しくは読まないと分からないが)。ただ

gologo13 2010/04/02

リンク

dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

このドメインはお名前.com から取得されました。お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2024年5月時点の調査。

gologo13 2010/04/02

リンク

Baidu IME - 日本語入力 -

無料ダウンロード ※ ダウンロードしたファイルをクリックし、インストールをお願いします。 Windows XP / Vista / 7 / 8 / 8.1 (32/64bit) 対応更新日付：2017.07 バージョン：Ver3.6.1.7 サイズ：52MB 顔文字入力Hot 友達との会話に顔文字を使いこなそう！よく使う言葉でいろいろな顔文字が使える。アスキーアート辞書画期的な機能が、おどろくほど簡単に。日本語入力にまったく新しい視野を。オプション辞書いつも入力に手間取る単語や顔文字もオプション辞書を使えば一発変換！きせかえ用スキンいろんなスキンを気分で着せ替え、文字入力をもっと楽しく！

gologo13 2010/04/02

i didn't know that

IME
Baidu

リンク

GNU GLOBAL（gtags）ソースコードタグシステムの使い方

GNU GLOBAL(gtags)は、ソースコードのタグジャンプです。簡単に複数のソース中から関数や、変数の定義元／参照元を見つけ、その箇所に移動することができます。 ctags、etags（cygwin や Linux に大抵標準で含まれています）と同じ働きをしますが、gtags はさらに強力な機能を持っています。大量の他人の書いたソースを読むプログラマには、必須だと思います。 GNU GLOBAL(gtags) の特徴 gtags は、次のような特徴を持っています。 C、 C++、 Yacc、 Java、 PHP4 のソースコードに対応しています。 ※ Pygments 等を入れれば Python等のコードにも対応します関数の呼び出し元を参照できます。複数の候補が存在する場合は、一覧で表示してくれます。タグ情報より、HTMLを生成できます。コマンドラインや、vi、emacs な

gologo13 2010/04/02

リンク

PRML６章「ガウス過程による回帰」を R で試す - 木曜不足

PRML 読書会 #8 が来週に迫る中。カーネル法わからん…… ガウス過程わからん…… そもそも今回の会場無事たどり着けるかな…… ３つめの不安はとりあえず置いといて、わからんときは手を動かすしかない。というわけで PRML 6.4.2 「ガウス過程による回帰」を R で試す。訓練データは PRML のサンプルデータを使う。 # PRML's synthetic data set curve_fitting <- data.frame( x=c(0.000000,0.111111,0.222222,0.333333,0.444444,0.555556,0.666667,0.777778,0.888889,1.000000), t=c(0.349486,0.830839,1.007332,0.971507,0.133066,0.166823,-0.848307,-0.445686,-0

gologo13 2010/04/02

6章

prml

リンク

Social IME ～みんなで育てる日本語入力～

Xoilac TV Link Xem Trực Tiếp Bóng Đá 90Phut – TTBD Xôi Lạc 4K HD

gologo13 2010/04/02

リンク

BasisTech

アイデアの可能性を実行可能なソリューションに育てる BasisTechは、ベンチャー企業の製品開発、有能なスタッフの獲得、資金調達や成長への準備を支援します。有望なアイデアを持つ卓越した人材を求めていますより良い世界づくりに貢献する可能性を秘めたアーリーステージスタートアップ企業を支援します。現在参加の企業はエンタープライズデータ、マシンビジョン、公的機関にフォーカスしています。

gologo13 2010/04/02

リンク

コルモゴロフ複雑性 - Wikipedia

コルモゴロフ複雑性（コルモゴロフふくざつせい、英語: Kolmogorov complexity）とは、計算機科学において有限長のデータ列の複雑さを表す指標のひとつで、出力結果がそのデータに一致するプログラムの長さの最小値として定義される。コルモゴロフ複雑度、コルモゴロフ＝チャイティン複雑性 (Kolmogorov-Chaitin complexity) とも呼ばれる。この画像はフラクタル図形であるマンデルブロ集合の一部である。このJPEGファイルのサイズは17KB以上（約140,000ビット）ある。ところが、これと同じファイルは140,000ビットよりも遥かに小さいコンピュータ・プログラムによって作成することが出来る。従って、このJPEGファイルのコルモゴロフ複雑性は140,000よりも遥かに小さい。コルモゴロフ複雑性の概念は一見すると単純なものであるが、チューリングの停止問題やゲー

gologo13 2010/04/02

なんなんですかこれ…

0あとで読む

リンク

可逆圧縮 - Wikipedia

可逆圧縮アルゴリズムはすべての入力データに対して圧縮後のデータサイズが圧縮前より小さいことを保証できない。すなわち、どのような可逆圧縮アルゴリズムでも圧縮処理後にデータサイズが小さくならない入力データが存在し、また圧縮処理後にデータサイズが小さくなる入力データが存在する場合、圧縮処理後にデータサイズが大きくなる入力データも必ず存在する。前者の証明は下記の通り[3]。すべての入力データを小さくできるアルゴリズムの場合、アルゴリズムを繰り返して適用することでデータサイズを1ビットにできる。しかし、1ビットでは記録できる情報が2種類しかなく、解凍が明らかに不可能である。したがって、前提である「すべての入力データを小さくできるアルゴリズムが存在する」が成立しない。後者の証明は鳩の巣原理を用いたものであり、下記の通りとなっている[3][4]。「圧縮処理後にデータサイズが小さくなる入力データ

gologo13 2010/04/02

圧縮アリゴリズムも勉強してみたいなぁ，というか全く知らないし

リンク

Google日本語入力の技術講演会

Google日本語入力の、公式技術講演会に行ってきた。その次第を書きたいと思う。今回の会場は、なんと大阪である。そのため、私のように関西圏に住んでいる人間には、参加しやすい。まず、京都から大阪へ行く。いつも思うのだが、大阪の都市部は、まるでダンジョンだ。地上と歩道橋と地下道があって、一体どこを進んでいいのやらさっぱりわからない。大阪の立体構造を再現して、ゲームとして売り出せば、案外ヒットするのではなかろうか。さて、受付の始まる時間になったので、会場に向かう。なんと、すでに長蛇の列であった。早くも失敗したか。もっと早くから来ていれば、前の方に座れたかもしれない。軽く失望しつつ受付を済ませると、なんと、一番前の席が、二席だけ開いているではないか。知っての通り、私はそういう性格なので、迷わず一番前に座った。ちなみに、隣の席は空いていたが、何故か誰も座ろうとしなかった。こういうのは、だいぶ性

gologo13 2010/04/02

リンク

Minise: MIni Search Engine

本ウェブサイトは現在工事中です．ソースコード公開は10/24頃を予定しています．概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです．検索対象の文章に対し索引を構築し，検索クエリに対する全文検索を行うことができます．索引の種類として逐次検索，転置ファイル，N-gram，接尾辞配列をサポートしています．また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます．主な利用用途として、小〜中規模の検索向けまた，教育用，研究用目的に使われることを想定されております．ダウンロード Miniseはフリーソフトウェアです．修正BSDライセンスに従って本ソフトウェアを使用，再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開使い方

gologo13 2010/04/02

リンク

Microsoft Visual Studio Express

This browser is no longer supported. Upgrade to Microsoft Edge to take advantage of the latest features, security updates, and technical support.

gologo13 2010/04/02

リンク

iPad購入ガイド：購入するかしないか悩んでいる人のために

米国でのiPadの発売までついに２日と迫ったが、iPadを購入するかしないか悩んでいる人のために、簡単なテストを作ってみた。まずは各質問を読み、YES/NOで答えていただきたい。新しいデバイスを持ち歩いて注目されるのが好き Apple製品を少なくとも一つ持っていて、それにとても満足しているガラパゴス携帯より、スマートフォンが好きこの業界（パソコン、ケータイ、ウェブサービス、IT、ゲーム、家電）で働いている出かける時にノートパソコンを持ち歩くことが多いコピーした書類や論文を持ち歩くことが多いスキャンしたマンガをパソコンやスマートフォンで読んでいる（読みたい）テレビを見ながらインターネットをすることが多い iPadに５万円使っても、食うのには困らない私のブログを頻繁に読んでいる６つ以上YESがあるならば買って損はないと思う。特に８つ以上YESの人は絶対に買うべきだろう（ただし

gologo13 2010/04/02

「時代の進歩を傍観するんじゃなくて、イノベーションを起こす側に立ちたい」iPadとかどうでも良いけど，このフレーズに何故か鳥肌が立った．これは研究することに置いても通用するな…

important

リンク

Google Search

If you're having trouble accessing Google Search, pleaseclick here, or sendfeedback.

gologo13 2010/04/02

0あとで読む

リンク

カウンセリングサービス■カウンセラー発！すぐに役立つ心理学講座

私達人間は、頭でわかっていても、出来ないことがあります。そんな時は、心に何らかのやりたくない、出来ない理由があるのです。心の声を無視して、頭で考えていることを実行しようとしても、心の方が頭よりもパワフルなので、考えているようにはできないということが起こるのです。そんな時は、思考で心を納得させよう、抑え込もうとするのではなく、一旦心の声に耳を傾けてあげることが大切です。そうすることによって、自分に必要なものや、自分が好きだと感じているものを発見することができます。その上で、思考によって、それを手に入れる方法を考えると、頭と心が一致して、事を簡単にすすめていくことができるようになります。起こっていることを、ダメな事だと否定するのではなく、受け止めた上で、心の声に耳を傾けてみましょう。 ◎リクエストを頂きました◎ ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝結婚して

gologo13 2010/04/02

おれじゃん．人に優しくなる，人の許すことでこの問題はある程度は解決できるが，人生のパートナーとかになると中々妥協できないかもしれない…ブサイクは嫌だし，ああ

リンク

直感を信じろ、自分を信じろ、好きを貫け、人を褒めろ、人の粗探ししてる暇があったら自分で何かやれ。

ここ一週間、たくさんの日本の若い人たちと話した。JTPAツアー、九州大学ツアー、そして昨日のLingrイベント。それでつくづく思ったこと。もう前にも一度言ったことだし、当たり前のことだし、言わなくても伝わっているだろうとふと思っても、しつこく言おうと。なぜなら、僕が考えていることと正反対の言葉を、日本の大人たちから皆はシャワーのように浴び続けているし、僕がこうあるべきと思うことと正反対の経験を日々せざるを得ない状況にある、ということがよくわかったから。二十歳にもなれば、その人のすべてはもう顕れている。その自分の良いところを見つけるには、自分の直感を信じ(つまり自分を信じるということ)、自分が好きだと思える「正のエネルギー」が出る対象を大切にし、その対象を少しずつでも押し広げていく努力を徹底的にするべきだ。そういう行動の中から生まれる他者との出会いから、新しい経験を積んでいけば、自然に社会

gologo13 2010/04/02

ネット空間で特に顕著だが、日本人は人を褒めない。昨日もLingrイベントで言ったけど、もっと褒めろよ。心の中でいいなと思ったら口に出せ。

リンク

Survey1

Survey1 SVMを用いた固有表現抽出に関する論文のサーベイ 1.Support Vector Machineを用いた日本語固有表現抽出 2.Support Vector Machineの多値分類問題への適用法について 3.SVMに基づく固有表現抽出の高速化 4.日本語固有表現抽出における文節情報の利用 5.Stackingの効率的な学習方法と日本語固有表現抽出での評価 6.非頻出語に対して頑健な日本語固有表現の抽出 7.大域的情報を用いた日本語固有表現認識 SVMを利用した日本語固有表現抽出に関する論文が中心です．固有表現タグを入力文の解析単位毎に正確に付与することが目的です．チャンカーは基本的にYamCha 1.Support Vector Machineを用いた日本語固有表現抽出山田寛康工藤拓松本裕治奈良先端科学技術大学院大学情報科学研究科概要

gologo13 2010/04/02

リンク

はてなブックマーク

タグ

2010年4月2日のブックマーク (27件)

第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記

GSK2007-C Web日本語Nグラム第1版

Google Japan Blog: 大規模日本語 n-gram データの公開

ChaIME

かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記

無駄なdiv要素やclassだらけのマークアップから卒業する方法

Webページの分類やスクラップにも利用できる文献管理Firefox拡張「Zotero」 | OSDN Magazine

Zzz Eee Lll Ccc Hhh

Zotero使ってみた・2nd - のりや日記

文献管理ソフトzoteroでCiniiの文献情報を取り込む方法 - 毛のはえたようなもの

言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記

dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

Baidu IME - 日本語入力 -

GNU GLOBAL（gtags）ソースコードタグシステムの使い方

PRML６章「ガウス過程による回帰」を R で試す - 木曜不足

Social IME ～みんなで育てる日本語入力～

BasisTech

コルモゴロフ複雑性 - Wikipedia

可逆圧縮 - Wikipedia

Google日本語入力の技術講演会

Minise: MIni Search Engine

Microsoft Visual Studio Express

iPad購入ガイド：購入するかしないか悩んでいる人のために

Google Search

カウンセリングサービス■カウンセラー発！すぐに役立つ心理学講座

直感を信じろ、自分を信じろ、好きを貫け、人を褒めろ、人の粗探ししてる暇があったら自分で何かやれ。

Survey1

お知らせ

月間はてなブックマーク数ランキング（2025年3月）

今週のはてなブックマーク数ランキング（2025年3月第5週）

今週のはてなブックマーク数ランキング（2025年3月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス