MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま
mecab-0.96 http://mecab.sourceforge.net/#download から mecab-0.96 をダウンロード、インストールしてください。 大きく違わなければ、別のバージョンでもいいと思います。 ただしバージョン間で辞書の互換性はない場合がある [2] ので、 複数のマシンで使う場合は、できるだけ揃えてください。 なお、32 bit / 64 bit マシンでのバイナリ辞書の互換性はありません。 mecab-ipadic-2.7.0-20070801 http://mecab.sourceforge.net/#download から mecab-ipadic-2.7.0-20070801 をダウンロード、インストールしてください。 この直前(+直前いくつか?)のバージョンのmecab-ipadicには読みに関するバグがあり、コーパス中での読みの頻度が辞書に反
久しぶりに分析手法を紹介してみようと思います。散布図を使ってアクセス解析のデータを元に散布図を作り、新しい気づきを見つけるという内容です。説明だけではわかりづらいと思いますので、この記事で具体的に手順と、それによって見られる情報を紹介します。 1)変数と軸を決定する ここでは、一番イメージしやすい、「検索ワード」を変数とし、軸を「新規」と「直帰」とします。 (他の例に関しては最後に紹介いたします) これを使うことにより、キーワードの属性を4つに分けて、それらをどうSEOやSEMに活かすかという結論を導き出します。 2)変数とそれぞれの軸のデータを作成する つまり・・・ 検索ワード×新規(ワードごとの流入数と、そのワードで始めたサイトに来た回数) 検索ワード×直帰(ワードごとの流入数と、そのワードで入ってきて1ページだけみて離脱した回数) という二つのデータをアクセス解析ツールから取得し、エ
MySQLで、レプリケーションベースのHAな構成について考えたメモです。 3台(というか2台+1台)がいいかなぁと思っていて、前半はその理由を、後半では{マスタ,スレーブ}が{再起不能になった,ちょっとダウンしてすぐ復帰した}場合のリカバリプランについて書きます。 今のところはこれがベストかなと思っているのですが、「こうしたほうがいいと思う!」「ここがおかしい!」などなどのご意見はコメント、TBなどでいただけるとうれしいです。 ゴール マスタが落ちてもぐーすか寝ていられるようにしたい リカバリの作業はできるだけ単純に、かつ、短時間で完了するようにしたい めんどくさいのはいや 基本構成、方針 2台+1台 サービスで使うのは2台 (db1, db2) もう1台は管理用 (db3) スレーブを多数並べる構成にはしない 台数増えると管理コストが上がる マスタダウン時のフェイルオーバとそのフェイルバ
Windows上でTeXの論文を快適に書くためのTipsを紹介。インストールが必要なものは以下の通り:OMake: ファイルの更新をモニターして自動再ビルドしてくれる優れものTeX一式: 僕は英語論文しか書かないのでMikTeXを使っています。インストールが簡単pdfopen, pdfclose: Acrobat Reader でPDFファイルを開け閉しめするのに使います(MikTexにも同梱されていますが、back機能が使えるこちらの方が便利。参考:http://magic.aladdin.cs.cmu.edu/2005/07/15/pdfopen-and-pdfclose/)omakeと、pdflatex, pdfopen, pdfcloseがコマンドライン(コマンドプロンプトやCygwinシェル)から使えるように、環境変数PATHを設定します。 以下は僕の使っているCygwin用の.
November 9, 2005 Jason Levitt AJAX applications wouldn't be possible (or, at least, wouldn't be nearly as cool) without the XMLHttpRequest object that lets your JavaScript application make GET, POST, and other types of HTTP requests from within the confines of a web browser. All of the most interesting AJAX applications that have appeared in the past couple of years use the XMLHttpRequest object e
ユメのチカラ インターネットの時代になって、地球規模の知恵の集積が 可能になった。ソフトウェア開発においてもオープンソースソフトウェアのバザール的開発が注目されている。いまおきているその現実を現場の視点から記していきたい。 吉岡 弘隆 - よしおか ひろたか 日本OSS推進フォーラム ステアリングコミッティ委員 OSDL Board of Directorsを歴任 カーネル読書会主宰 2000年6月、ミラクル・リナックスの創業に参加。 95年~98年、米国OracleにてOracle RDBMSの開発をおこなっていた。 98年にNetscapeのソースコード公開(Mozilla)に衝撃をうけ、オープンソースの世界に飛びこみ、ついには会社も立ち上げてしまう。 2008年6月取締役CTOを退任し一プログラマとなった。
2007-06-06 カテゴリ: Server Side タグ: PHP Windows XAMPP Eclipse PDT Tips 環境構築 以前書いた「XAMPP + PDT + ZendDebuggerでリモートデバッグ」というエントリーが比較的好評なようなので、もう少し丁寧に書いてみようかと思う。 目標は、XAMPPとEclipse PDTとZendDebuggerを使って、Windows上にPHP開発環境を簡単に作ること。ではスタート。 1. XAMPPをインストール apache friendsからXAMPP for Windowsを入手。 現時点の最新版は1.6.2。普通にインストーラー版を持ってくれば大丈夫でしょう。 インストールはインストーラー通りにやっていけば問題なし。ただし、途中システムオプションを聞かれたときに、「Apacheをサービスとしてインストール」のチェッ
このドメインは お名前.com から取得されました。 お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日本のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2024年5月時点の調査。
このドメインは お名前.com から取得されました。 お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日本のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2024年5月時点の調査。
『Linuxロードバランサ構築・運用ノウハウ』を公開します! これはWEB+DB PRESS Vol.37の特集記事としてDSASチームが執筆したもので、技術評論社様の許可を得て今回公開するはこびとなりました。 一口でいうと、「Linux+IPVS+keepalivedを使って、冗長構成(Active/Backup)のロードバランサを作るまで」の解説記事で、 サーバ負荷分散一般についてのはなし Linuxでロードバランサを作ってみる ロードバランサを冗長化 といった構成になっています。 みなさんがLinuxロードバランサを導入・構築・運用する際の一助になれば、DSASチームとしてもうれしい限りですので、是非、ご覧になってください! 第1章 サーバ負荷分散概論 特集のはじめに なぜサーバ負荷分散をするのか? サーバ負荷分散の実現方法 ロードバランサのいる構成 ロードバランサはなにを元に分散す
WindowsにRuby on RailsとMySQLを入れ環境を作り、その上で簡単なブックマークアプリケーションを作るまでを記録したムービー。編集ナシでホントに10分以内でアプリケーションを構築してます。 詳しくは、2005年11月18日発売の技術評論社 SoftwareDesign 2005年12月号で解説予定ですしました。 Rails+MySQLインストール編 アプリケーション編 追加情報 Web Developer Study @Sapporo - 2005/11/19 Rails + Selenium - OSC2006 Do 2006/07/15 更新情報 2006/07/15: OSC2006 Doで使った資料 Rails + Seleniumを公開 2005/11/19: Web Developer Study @Sapporoで使った資料を公開しています。 2005/1
日本には、ハイファッションやストリートファッション、オフィスでの服装まで、ある分野のスタイル提案にそれぞれ特化した多くのファッション誌がある。そしてこれらの雑誌の写真には、「これらはいったい世界のどこで撮影されたのだろう?」と思わせるものが多くある。 ほとんどの場合において、その答えはつまるところ「東京」である。(たとえばエビちゃんのような)一人のモデルが月に150着以上の洋服を着なければならないというせわしい撮影スケジュールの中では、どだい海外ロケなどは無理な相談である。夏にはビキニ撮影にサイパンやグアムなどが使われるし、秋物のトレンドを特集するのにニューヨークは人気のある撮影場所である。しかし、たいていは東京やその近郊が背景として唯一の現実的な選択肢なのだ。 とはいえ、これらのファッション誌の写真の中では、その風景は人々が普段考えているような「東京」には決して見えない。仮に「CanCa
4月28日の日経MJにユナイテッドアローズ(UA)のウィメンズディレクター、小野瀬慶子さんのファッショントレンドの読み方の記事を読んで。 小野瀬さんは、UAというセレクトショップの中でクリエイティブディレクターというお仕事をしながら、業界の中でもファッショントレンドのご意見版として、各誌、各紙に多くのコメントをされているので有名な方ですが、昨年10月からご主人の仕事のご関係でロンドンに拠点を移してからも同職でご活躍です。 彼女から学ぶべきことは、ファッションの業界内だけの情報にとらわれることなく、世の中の時流からご自身なりの仮説を立てることだと思います。記事によると コレクションを見ていては、「トレンド予測の参考にするのは遅すぎる」 として、 ○政治や経済の動きを新聞でとらえる ○書店の平積み本 ○ストリートで気になったことをデジカメに収めたり、メモを取ったり ○封切前や撮影中の映画の衣装
インストール後、初回設定が終わったら、RAIDの設定開始。 まずは必要なソフトをインストールして、次にまだ使っていないhdbをRAID用に設定。 aptitude install mdadm # RAIDディバイスの作成 mdadm --create /dev/md0 --level=1 --raid-devices=2 missing /dev/hdb1 mdadm --create /dev/md1 --level=1 --raid-devices=2 missing /dev/hdb2 mdadm --create /dev/md2 --level=1 --raid-devices=2 missing /dev/hdb3 mdadm --create /dev/md3 --level=1 --raid-devices=2 missing /dev/hdb5 mdadm --creat
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く