タグ

2010年9月20日のブックマーク (25件)

  • 話し言葉と書き言葉

    資料 話し言葉と書き言葉 ワープロなどで入力したテキストを読み上げるためには、書き言葉と発音の違いを整理しておかなければなりません。日人が無意識にしゃべっていることがいかに複雑であるかについて例をあげながら説明します。 1 読み仮名と、実際の発音とは微妙に違います。 読み仮名と発音はほぼ1対1に対応します。しかしいくつか違いがあって、この違いは、規則的ではありません。

  • 日本語表示 KanjiSample

    当初ここでSDL_Kanjiを使った日語表示を紹介する予定でした しかし、今回は取りやめて日語表示そのものの処理を紹介します SDL_Kanjiを取りやめた理由はbdfフォントを使っていることです このサイトはWindowsユーザで初心者の人が対象なので、 そういった人たちにbdfフォントの入手の説明を別途やる必要があります 実は簡単に入手できるんですが、bdfフォントの入手の解説を行うくらいなら、 日語表示そのものの解説をやったほうがいいのかなと思い、変更しました とはいえSDL_Kanjiの方が機能が充実していますので、今回のやり方で満足できない人は 是非SDL_Kanjiを使ってみてください SDL_Kanjiにはサンプルソースがついているので使い方はわりとすぐ理解できると思います SDL_KanjiのサンプルでVCの注意点としては、付属のサンプルのプロジェ

    gologo13
    gologo13 2010/09/20
    c言語で日本語の文字の表示など
  • Tsujii Lab. Enshu3 -- Japanese Dependency Analysis

    という文に対して、私の、高い、ワインを、二宮さんに、飲まれた、という各文節間の係り受け関係「私の→ワインを」・「高い→ワインを」・「ワインを→飲まれた。」・「二宮さんに→飲まれた」を求めることです。 機械学習を用いた日語係り受け解析は、ここ数年自然言語処理におけるホットトピックの一つとなっていて、我々のグループでも、最高精度の結果を出したことがあります(参考文献[1])。その当時より、研究室内で機械学習のためのライブラリが充実してきているので、演習の1ヶ月という短期間でも最新の研究に匹敵する結果(精度90%程度)を出すことができるかもしれません。 課題内容 課題のメインテーマである機械学習とは、簡単に言えば、ある現象に関して既存のデータの振る舞いから未知のデータの振る舞いを推定する確率モデルを作るということです。この課題の文脈にこれを当てはめれば、日語の係り受けという言語現象に関して

  • GLib-2.0

    GLib is a general-purpose, portable utility library, which provides many useful data types, macros, type conversions, string utilities, file utilities, a mainloop abstraction, and so on.

  • googletest - Google C++ Testing Framework - Google Project Hosting

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    googletest - Google C++ Testing Framework - Google Project Hosting
  • All commands

    Other solutions that involve doing du -sx /* are incomplete because they will still descend other top-level filesystems are that mounted directly at "/" because the * expands to explicitly include all files and directories in "/", and du will still traverse them even with -x because you asked it to by supplying the directory name as a parameter (indirectly via "*"). Show Sample Output 4.0K /mnt 4.

  • dvipdfmx でフォントを埋め込んだPDFを作る - かさい ますみ

    動機 LaTeXでプレゼンテーション・シリーズ:まとめなどを書いている関係で,学生さんの卒論・修論発表にもLaTeXPDFファイル... という人が多くなった. しかし,Vine Linux上のLaTeX + dvipdfmx で作ったPDFファイルを使って,例えばMacOSX上の「プレビュー」やAdobe Readerでスライドショーをすると,\bf なのに妙に線の細いフォントだったりして,ちとがっかりする. そこで,dvipdfmx でフォントを埋め込んだPDFファイルの作成についてまとめておく. [LaTeX] [Linux] Vine Linux 3.2 の dvipdfmx でフォントを埋め込む 準備 su cd /usr/share/texmf/fonts mkdir truetype cd truetype/ ln -s /usr/X11R6/lib/X11/font

  • 各種マップ実装の性能比較 - mixi engineer blog

    今回は小ネタのmikioです。key/valueのレコードを高速に格納・参照・削除する仕組みが連想配列とかマップとか呼ばれて親しまれていますが、Tokyo Cabinetのオンメモリマップの性能をC++の各種実装と比較してみました。 以下の実装を対象として、100万レコードの格納と検索にかかる時間を計測します。キーと値は各8バイトの文字列とします。 Tokyo Cabientのオンメモリマップ(TCMAP) STL(C++の標準テンプレートライブラリ)のmapとmulti mapとset GNU拡張テンプレートのハッシュマップ Googleのdense hashおよびsparse hash テストコードはこちらに挙げておきます。具体的な操作としては、マップオブジェクトを生成し、バケット配列の要素数をレコード数と同じにチューニングし、ループを回してレコード群を格納します。なお、STLのマップ

    各種マップ実装の性能比較 - mixi engineer blog
  • はてなブログ | 無料ブログを作成しよう

    【自分語り】1推しの卒業によせて . 私の1推し、ゆきりんこと柏木由紀ちゃんが、17年に渡り在籍したAKB48を卒業することになった。 この機会に、ゆきりん推し(48ファン)としての自分自身のことをすべては不可能であるものの振り返ろうと思う。 内容からして世代がわかることも仕方ないし、限りなくゼ…

    はてなブログ | 無料ブログを作成しよう
  • TinySVM - 長岡技科大 自然言語処理研究室

    たいにーえすぶいえむ TinySVM 奈良先端大の松研究室が公開しているSVM学習ツール。様々なカーネルが用意されている。また自作カーネルを使うことも可能である。 とりあえずSVMにつっこんでみようという時に良く使う。 http://chasen.org/~taku/software/TinySVM/ [編集] 使い方 Tiny SVMの簡単な使い方。 ■素性の書き方 1 1:5 2:4 3:2 (正例) -1 4:1 5:3 6:3 (負例) まず、一番左の数字が"1"の場合、正例の素性である。これが"-1"の場合は負例の素性である。 ":"(コロン)の左側の数字が『素性番号』、右側の数字が『素性の重み』である。 素性番号には、単語や品詞を対応させ、重みには出現回数や確率を対応させる。 ■学習データを作成 まずは、学習データとして、テキストファイルを作成する。 例えば、以下

  • cut、head、tail、sort・・・定番のフィルタコマンドを使いこなす! ~業務でラクするためのUNIXテクニック~

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    cut、head、tail、sort・・・定番のフィルタコマンドを使いこなす! ~業務でラクするためのUNIXテクニック~
    gologo13
    gologo13 2010/09/20
    paseteコマンドが使い道ありそう
  • UNIXツール

    UNIXツール cut paste sed tr grep sort uniq cutコマンド cutコマンドはデータからフィールドを切り出すとき使う。 (例) cut -c1 file ファイルの各行の最初の文字を切り出す。 cut -c1-10 file ファイルの各行の1~10番目の文字列を切り出す。 cut -c20- file ファイルの各行の20番目から後の文字列を切り出す。 cut -d: -f1 file ファイルの各行のコロン(:)で区切られた最初のフィールドを切り出す。 cut -d' ' -f1,2 file ファイルの各行のスペースで区切られた最初と2番目のフィールドを切り出す。 pasteコマンド pasteコマンドは2つのデータを連結する。 (例) paste file1.txt file2.txt file1.txtに 1 2 3 file2.txtに One

  • Emacs LispとRubyとmozreplを使ってFirefoxを操作する - saito’s blog

    今回は、Emacs LispとRubyとmozreplを使ってEmacsからFirefoxを操作する方法を紹介したいと思います。 mozreplとは mozreplとはFirefoxのアドオンの一つで、Firefoxをtelnetサーバーにしてしまうというものです。このアドオンを導入することで、ターミナルやプログラムからFirefoxを操作することが出来ます。 mozreplはこちらからインストールすることができます。mozreplをインストールしFirefoxを再起動させると、Firefoxの「ツール」メニューにMozReplというメニューが追加されます。そこでStartを実行すると、telnetコマンドを使ってFirefoxにアクセスできるようになります。 ターミナルで次のコマンドを打ってFirefoxにアクセスします。 rlwrap telnet localhost 4242(424

    Emacs LispとRubyとmozreplを使ってFirefoxを操作する - saito’s blog
  • anything-filelist 〜すべてのファイルを瞬時に開く方法〜 - http://rubikitch.com/に移転しました

    Emacsを書きました】 深いディレクトリ階層にあるファイルを開くのは面倒なものです。 比較的最近使ったファイル・よく使うファイルであればrecentfを使えば問題ありません。 もし、recentfに入っていないファイルの場合、長いパスを入力するなりlocateを使うなりしないといけません。 面倒ですね。 recentfは便利なのでここ参照 そこで、システム上のすべてのファイルをリストを作成して、そこから開く方法を使います。 anything.elをインストールする まずは準備段階として、anything.elをインストールしておきましょう。 最新機能なのですでに入れている人は更新しておきましょう。 具体的には M-x auto-install-batch anything を実行するだけです。 http://d.hatena.ne.jp/rubikitch/20100718/anyt

  • 日々の作業履歴をビジュアル化。過去に作成したファイル/コンテンツをすぐに見つけ出せる「Activity Journal」 | Viva! Ubuntu!!

    初心者にも優しいUbuntuを仕事趣味に活用!「Journal」の来の意味は「記録」。 パソコンで行ったアクションは全てログとして記録されていますが、この複雑で分かりにくいログファイルを日付ごとに一覧で表示してくれるのが「Activity Journal」。 オフィス文書、画像、動画、サウンドファイルなどを扱って保存した記録が一覧で表示されます。 これにより過去にさかのぼって作業履歴を確認したり、過去に作成したファイルを探しやすくなるという便利なツールです。 画像ファイル名上にマウスを重ねるとサムネイルが表示され、クリックすると実画像が表示されます。 同様に、動画、音楽も標準プレイヤーで再生され、オフィス文書も直接開くことができます。 この「Activity Journal」、Ubuntu 10.10では公式リポジトリに登録されており、Ubuntuソフトウェアセンターで「Acti

  • Tsukuba.R#8が開催されました - yasuhisa's blog

    Tsukuba.R#8 - Tsukuba.R - Seesaa Wiki(ウィキ) 今回はつくばの回(奇数回が東京、偶数回がつくば)だったのですが、筑波大ではなく産総研にてやらせてもらったそうです。@toddler2009さん、ありがとうございました。 発表者のスライドでWebに上がっているものは以下の通り(抜けがあったら教えてください)。 Tsukuba.R#8で発表しました - ぬいぐるみライフ(仮) Tsukuba.R #8 - Mad Dryfarm Wolves TsukubaR#8主催 & 「俺のUseR!解説が45分でわかるわけがない」を発表してきた - 糞ネット弁慶 その頃id:syou6162は何をやっていたかと言えば京都でハチロクの集まりがあっていたので参加しにいっていました。LT的な発表が何件かあって、id:satzzさんが「ハチロク世代とは何だったのか」という発表

    Tsukuba.R#8が開催されました - yasuhisa's blog
  • jfbterm for FreeBSD

    jfbterm とは KON2 をベースに作成された Linux のソフトウェアで、フレームバッファを使用してコンソールで多言語表示を行うことが出来ます。 jfbterm for FreeBSD とは jfbterm を FreeBSD に最適化するのがプロジェクトのゴールです。オリジナルの jfbterm には無い機能は次のとおりです。 マウスによるコピーペーストが出来ます。 キーリピート間隔を設定することが出来ます。 ビープ音を鳴らすことが出来ます。 カーソルを点滅させたり、色をつけたり、高さを調整することが出来ます。 スクリーンセーバーの種類と起動するまでの時間を指定することが出来ます。 バックスクロールが出来ます。 背景に画像を表示することが出来ます。 ANSI カラーを指定できます。 256 色表示が出来ます。 文字に影をつけることが出来ます。 MTRR を使用して描画速度を向上

  • Ubuntu を CUI で使ってみる|時代遅れな独り言

    時代遅れな独り言 どーでもいいことを思いついたときにてきとーに書きちらすブログ PR プロフィール [ルーム|なう|ピグの部屋] ニックネーム:どーてて ブログジャンル:くだらないブログ/パソコン メッセージを送る アメンバーになる プレゼントを贈る [記事作成・編集] カレンダー <<9月>> 日 月 火 水 木 金 土 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ブログ内検索 最近の記事一覧 『亡きへのレクイエム』リチャード・ニーリイ 挫折 どーでもいい疑問 Dropbox をどうするか 『ロジャー・マーガロイドのしわざ』 ギルバート・アデア 古購入 結局 つかれた また買っちまった とりあえずできた [一覧を見る] ブログテーマ一覧 パソコンのこと ( 27 )

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • はてなブログ | 無料ブログを作成しよう

    オーベルジーヌ実レポ べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか 都内にあるデリバリー専門のカレー屋で、 ロケ弁などで大人気の格欧風カレーが楽しめるらしい いいな〜 いいな〜オブザイヤー 都内の奴らはこんな良いモンってんのか 許せねえよ………

    はてなブログ | 無料ブログを作成しよう
  • Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei

    あくまで調べ中。なんだけど自分用にメモしておく。 大雑把に言うと、LDAは α=>[θ=>[z=>w]]<=β α,β: パラメータ θ,z : 潜在変数 w : 観測データという形をしていて、観測データの尤度を計算するには潜在変数θおよびzについて周辺化しないといけない。ところが潜在変数間に依存関係(θ=>z)があるので、θ、zそれぞれ独立に周辺化できない。 そこでBlei論文では変分ベイズ法という方法を使ってθとzの依存関係を切り離す方法をとっている。一方でGriffithsらのギプスサンプラを使う方法ではサンプリングしたzを使うことでzを観測データにしてしまうことで上記問題を解決している(多分 ついでにβにもディリクレ事前分布を導入していてBlei論文でのβをφ、ディリクレパラメータをβとしている。紛らわしい。その結果 α=>[θ=>[z=>w]]<=[φ]<=β α,β: パラメー

    Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei
    gologo13
    gologo13 2010/09/20
  • 萌えの風景(<連載>建築マンガ) | CiNii Research

    JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業

  • http://www.cse.yorku.ca/~oz/hash.html

    gologo13
    gologo13 2010/09/20
    効率のいいハッシュ関数の作り方
  • std::stringとstd::wstringの相互変換 - kryozahiro’s diary

    ポータブルで簡単な方法を探していたら、 http://ml.tietew.jp/cppll/cppll/article/4783 がよさそうだったけど、バグがあったのでいろいろ修正してみた。 #include <cstdlib> #include <string> //ワイド文字列からマルチバイト文字列 //ロケール依存 void narrow(const std::wstring &src, std::string &dest) { char *mbs = new char[src.length() * MB_CUR_MAX + 1]; wcstombs(mbs, src.c_str(), src.length() * MB_CUR_MAX + 1); dest = mbs; delete [] mbs; } //マルチバイト文字列からワイド文字列 //ロケール依存 void widen

    std::stringとstd::wstringの相互変換 - kryozahiro’s diary
  • 知らない人は損してると思うMacの使い方 Ctrl+2 - スチーム速報 VIP

    スチーム速報 VIP あの夏の日、僕たちは輝いていた。

    知らない人は損してると思うMacの使い方 Ctrl+2 - スチーム速報 VIP
    gologo13
    gologo13 2010/09/20