The common crawl dataset Common crawl is a publically available 30TB web crawl taken between September 2009 and September 2010. As a small project I decided to extract and tokenised the visible text of the web pages in this dataset. All the code to do this is on github. 1. Getting the data The first thing was to get the data into a hadoop cluster. It's made up of 300,000 100mb gzipped arc files st
目次 『言語実装パターン』推薦のことば 謝辞 前書き 第I部 さあ、構文解析に取りかかろう 1章 言語アプリケーションのいろは 1.1 全体のあらまし 1.2 パターンを一巡する 1.2.1 入力文の構文解析をする 1.2.2 木を構築する 1.2.3 木の走査をする 1.2.4 入力が意味する内容を見つけ出す 1.2.5 入力文をインタプリタで実行する 1.2.6 ある言語から別の言語へと変換する 1.3 アプリケーションを解体する 1.3.1 バイトコードインタプリタ 1.3.2 Javaバグ検出器 1.3.3 Javaバグ検出器其の弐 1.3.4 Cコンパイラ 1.3.5 Cコンパイラを活用した C++実装 1.4 パターンを選んでアプリケーションを組み上げる 2章 基本的な構文解析パターン 2.1 句の構造を識別する 2.2 再帰的下向き構文解析器を構築する 2.3 文法 DSLを
NECは、国立大学法人長岡技術科学大学(所在地:新潟県長岡市、学長:新原晧一、以下 長岡技術科学大学)と全国の国立高等専門学校51高専55キャンパスが共同で利用する統合図書館システムをプライベートクラウドで構築します。長岡技術科学大学は、2012年3月から本システムの運用を開始します。 長岡技術科学大学は、主として高等専門学校卒業生を受け入れ、共同研究や教職員の交流等を積極的に行うなど、全国の高等専門学校との連携強化を推進してきました。その一環として、全高等専門学校の図書館システムの統合を進めており、研究・学習支援のさらなる充実・発展を目指しています。このたびの統合図書館システムにより長岡技術科学大学と全国55キャンパスでは、保有する蔵書を横断的に検索可能となり、各校における図書館サービスの統一的な利便性向上を図ります。 また、クラウドサービスを利用し、小規模図書館では難しい図書館業務の多
Emacs でローマ字の長音記号(マクロン)を入力するには LEIMローマ字の長音記号を入力するときに使う LEIM の起動C-u C-\ latin-4-postfix RET LEIM の使い方を調べるM-x quail-help でヘルプを表示する。 Input method: latin-4-postfix (mode line indicator:4 á circumflex | ^ | a^ -> â diaeresis | " | a" -> ä ogonek | , | a, -> ą macron | - | a- -> ā tilde | ~ | a~ -> ã caron | ~ | c~ -> č dot | . | e. -> ė cedilla | , | k, -> ķ g, -> ģ stroke | / | d/ -> đ nordic | / | a/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く