aratafujiのブックマーク - はてなブックマーク

aratafuji id:aratafuji

ブックマーク / d.hatena.ne.jp/nokuno (11)

全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記
groongaのイベントでVOYAGE GROUPさんに行って来ました！全文検索エンジンgroongaを囲む夕べ 2 #groonga : ATND「検索エンジンはなぜ見つけるのか」と著者の森大二郎さんのサインいただきました！Amazon.co.jp：検索エンジンはなぜ見つけるのか　―知っておきたいウェブ情報検索の基礎知識: 森大二郎: 本 groonga村須藤さん最新版リリースされました今日の内容もう使っていいのか知りたい最新情報を知りたいアルゴリズムを知りたい困っていることがある安定してるの？してます！実績あり groongaのほうがよいこと即時更新データをDBMSで一元管理できる普通のSQLで使える他との違いあとでベンチマーク結果を紹介使い方の違い質問タイムは懇親会で groonga 全文検索エンジンライブラリ連携相手：MySQLなど libgr
aratafuji 2011/12/01
groonga

event
リンク
米スタンフォード大が機械学習と人工知能に続き，自然言語処理と確率モデルの講義を一般公開 - nokunoの日記
表題の通り，米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです．Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は，この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者でもあります．これは必見ですね．なお，以前から公開されていて既に講義や課題が始まっている機械学習と人工知能の講義はこちら．Machine LearningIntro to AI - Introduction to Artificial Intelligence - Oct-Dec 2011 スタンフォード大学のオンライン講義 - nokunoの日記ツイートする
aratafuji 2011/11/26
自然言語処理

機械学習

education
リンク
Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は！？私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります：誰もがその命令を理解できると
aratafuji 2011/11/21
MapReduce

hadoop

pig

hive
リンク
本当に必要なN-gramは2割しかない - nokunoの日記
Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い
aratafuji 2011/09/15
n-gram

search
リンク
Facebookの新しいリアルタイム解析システムとは？ - nokunoの日記
Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht
aratafuji 2011/03/25
facebook

hbase
リンク
Quoraを支える技術 - nokunoの日記
勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Techno logy Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられている。それは共同創業者がFacebookで磨きをかけた技術でもある。さほど驚くべきことでもなく、賢い人々は良く考えられたたくさんの賢い道具を使う。NoSQL信者たちはこう言って頭をかかえる：「なぜQuoraはCassandraやMongo DBやCouchDBのようなNoSQLではなく、MySQLをデータストアとして使うのか？」このエントリではQuoraについての技術的な情報をまとめ、考察を行う。彼
aratafuji 2011/02/04
Quora

python

development
リンク
nokunoの日記
nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.
aratafuji 2010/10/27
"新しい技術を学ぶ挑戦をするか弁解の壁に隠れるか"

yahoo

engineer
リンク
Wikipediaから作成したN-gramデータを公開しました - nokunoの日記
id:toilet_lunch さんに先を越された感がありますが、Wikipediaから作成したN-gramデータを公開しました。Downloads - nokuno - Project Hosting on Google Code処理方法については先日の日記を御覧下さい。Wikipediaによるテキストマイニング入門 - nokunoの日記
aratafuji 2010/05/25
N-gram

wikipedia

自然言語処理
リンク
予測変換APIを公開しました！ - nokunoの日記
Social IMEではWeb APIを公開していますが、昨年11月に公開したかな漢字変換APIに続き、予測変換APIを公開しました。このAPIを使うと、たとえば次のような予測変換ができます。「はてな」で予測変換はてなはてなブックマークはてなブックはてなダイアリー（以下略）ローマ字入力の途中での予測を行うと、このように展開されます。「わｔ」で予測変換私私は私の私も私が（以下略）また、長文を入力したときのかな漢字変換候補との統合にも対応しています。「きょうのてんきはは」で予測変換今日の天気は晴れ予測変換にはWebから抽出された大規模な統計量（Google提供）が用いられています。APIを活用したクライアントを開発されている方は、ぜひご利用ください。
aratafuji 2009/01/25
api

webservice
リンク
「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ
aratafuji 2008/11/17
google

search
リンク
協調フィルタリングのグラフィカルモデル - nokunoの日記
協調フィルタリングとはAmazonのお勧めのように「この商品を購入した人はこんな商品も購入しています」という情報を用いて推薦をする手法です。グラフィカルモデルはベイジアンネットワークとも呼ばれ、最近一部で流行している機械学習の手法です。今回は、協調フィルタリングをグラフィカルモデルで表現したらどのようになるだろう、と考えて思いついたアイデアを紹介します。今、ユーザuとアイテムiの組{u,i}のデータが大量に与えられているとします。例えばソーシャルブックマークならユーザとブックマークしているページの組み合わせ、E-commerseならユーザと購入した商品の組み合わせ、などです。ここではSBMを例に考えるので、はてブと同様にユーザはマイナスの評価を付けることはできないものとします。このときユーザuに対してお勧めのページを推薦することを考えると、ユーザuがまだブックマークしていないページiに
aratafuji 2008/11/17
recommendation

collaborative

filtering
リンク
1