Tokyo.R #31 の発表資料です。 こちらも参考にどうぞ。 R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記 http://d.hatena.ne.jp/a_bicky/20130602/1370179340

This document discusses analyzing Twitter data from the user @a_bicky using R. It extracts over 3,200 tweets from the user's timeline using the twitteR package. The tweets are transformed into a data frame with variables like text, date, and source. The data is then summarized using the reshape2 and ggplot2 packages to calculate metrics like average text length by day of week, month, and source. F
コンピュータビジョン&機械学習の入門的な内容について ※事例のランダムサンプリングを追加:修正 ※再現率、適合率の名称逆だったので入れ替え:修正
自然言語処理の研究で役立つツールを集めてみました。 音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。 言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法(Knese
情報通信統計データベースについて 情報通信統計データベースは、総務省の実施する情報通信業に関わる産業の実態について、分野別データ、統計調査データ、関係情報の3項目に分けて掲載しています。 ○新着情報:情報通信統計データベースの更新状況等を掲載 ○情報通信統計データベースからのお知らせ:情報通信関連統計調査の実施状況等を掲載 ●情報通信統計データベース管理者: 総務省 情報流通行政局 情報通信政策課 情報通信経済室 統計企画係 TEL:03-5253-5744 ●分野別データ等に関しては、各ページにデータのお問い合わせ先を掲載しておりますので、データの詳細についてはこちらをご利用下さい。 情報通信統計データベース掲載データ等の取扱いについて
@kkccak ご利用有り難うございます。凍結はフォロワーが少ない状態またはTwitter歴が浅いとされやすいですが、そうでないとされにくい傾向にあります。また今の仕様のせいもあり、限度があります。現在改良はしていますが、必ずしも凍結できるわけではございません。ご了承ください — オーエン (@ulicknormanowen) June 2, 2013 .@nanasetomona http://t.co/l3UCQ6J5G0 このツールのサポーターと書かれていますが、こちら、Twitterの仕様を悪用してユーザーを不当に貶めるツールとして使われていますよね。これについてどのようにお考えですか? — (っ'ヮ'c)らいちィィィ (@ra1ch89) June 14, 2013 みんなでブロックを共有しよう 「ぶろったー」 http://t.co/O0Irpts29S #blotter これ
前書き 私が前にいた会社 (CD Baby) は、かなり早い段階で Ruby on Rails に一度乗り換えたのですが、残念ながらまた PHP に戻ってしまいました (詳細は私の名前を Google で検索してみてください)。そんな私ですが、Michael Hartl 氏の本を強く勧められたので、その本を使ってもう一度試してみた結果、今度は無事に Rails に乗り換えることができました。それがこの Ruby on Rails チュートリアルという本です。 私は多くの Rails 関連の本を参考にしてきましたが、真の決定版と呼べるものは本書をおいて他にありません。本書では、あらゆる手順が Rails 流で行われています。最初のうちは慣れるまでに時間がかかりましたが、この本を終えた今、ついにこれこそが自然な方式だと感じられるまでになりました。また、本書は Rails 関連の本の中で唯一、多
英文校正サイト [NativeChecker] では、入力した英文の各単語の品詞表示を行っています。 この品詞解析処理には、自然言語処理プロジェクト群であるOpenNLP中のOpenNLP Toolsを使っています。 OpenNLP Toolsによる品詞分析について、Web上に日本語の資料があまり見当たらないので、以下に手順を書いてみようと思います。 1. OpenNLP Toolsのダウンロード 以下のOpenNLPのサイトから[Download]をクリックして、OpenNLP Toolsをダウンロードします。 redirect 2. モデルファイルのダウンロード 同サイトの[Models]から、モデルファイルをダウンロードします。品詞解析に必要になるのは、以下のディレクトリ中のtag.bin.gzとtagdictです。 http://opennlp.sourceforge.net/mo
Apache OpenNLPとは? Apache OpenNLP(以下OpenNLP)は、統計的自然言語処理(Statistical Natural Language Processing)のためのツールキットです。Javaで実装されたOSSの自然言語処理(NLP)ライブラリであり、2010年11月にApache Incubatorに寄贈され、2012年2月にApacheのトップレベルプロジェクト(TLP)に昇格しました。 自然言語処理と検索エンジンは技術的な関連が深いため、OpenNLPの知識があると、Solrの機能を改善したりパワーアップするのに大いに役立ちます。たとえばLUCENE-2899では、OpenNLPのトークナイザーをSolrから使うための改善提案が行われています。 OpenNLP関連記事の第一弾となる本稿では、OpenNLPの利用知識の入門として、OpenNLPに附属して
MeCab 用の各種スクリプト言語 (perl, ruby, python, Java) のバインディングがあったので、ためしに python-mecab をインストールしてみた。 事前準備 Python モジュールをビルドするので python-dev パッケージが必要。 sudo aptitude install python-dev ダウンロード wget http://mecab.googlecode.com/files/mecab-python-0.993.tar.gz インストール まずは MeCab をインストール。 MeCabのインストール方法 - tatsuyaoiw.hatenablog.com mecab-python のインストール $ tar zxvf mecab-python-0.993.tar.gz $ cd mecab-python-0.993 $ pyth
(きっと)あなたにも出来る!Hyperledger composer でブロックチェーンアプリを動かしてみた
2013年のいま、API界隈が熱い! 今年に入り、官公庁の統計データやNHKの番組情報など、今までなかなか利用できなかったデータがAPIとして扱えるようになってきました。このエントリでは現在公開されているAPIを一覧でまとめます。いま使えるAPIはこれだけ読めば大丈夫。2013年の最新マッシュアップ事情をあますとこなく網羅します! HOT! API 総務省 次世代統計利用システム(国勢調査、人口推計、就業構造、企業統計、物価統計 etc.) NHK番組表(※未公開) 行政・自治体・公共サービス 郵便番号 郵便番号検索API(郵便番号 → 住所) 郵便専門ネット(郵便番号 → 住所、郵便番号の簡易存在チェック) ぽすたん(郵便番号 → 住所、住所 → 郵便番号) IW3 PROJECT(郵便番号 → 住所、住所 → 郵便番号) 宇宙 Google+ JAXA PR(※現在一部の学生に限定公開
こんにちは。海原です。 ここ最近、統計学が流行していますね。「統計学が最強の学問である」がきっかけになっているのでしょうか。数年前に比べてマーケティングが重要視される今日、統計の需要が増えたのかもしれません。私はまだこの本を読んでいませんが、読もうと思った矢先にたまたま統計ツールRに出会いまして、調べながら少しいじってみました。Rを使った感触から申し上げますと、SQLを叩いて好きなデータをピックアップするよりもずっと簡単で小気味良いのです。 他の統計ツールには色々な種類があるようですが、よく知られるものとしてIBMのSPSS (IBM)(有償)があります。 その点、RはMac/Win両方に対応しており無償です。またSPSSに劣らない機能を備えており、統計学者の間でデファクトスタンダードとなっているようです。 Rに関して検索すれば丁寧な解説サイトがたくさんありますので、インストールから何の心
モンスター収集/育成要素や気楽なオンライン対戦が魅力。かなり本格的なブラウザSRPG「Shadow of Eclipse」の見どころを紹介 ライター:御簾納直彦 ゲームポットは2013年7月23日より,PCブラウザ向けシミュレーションRPG「Shadow of Eclipse」(シャドウ・オブ・エクリプス)のオープンβテストを開始する。 今回4Gamerは,オープンβテストの実施に先駆けて,本作を先行体験することができたので,ゲームの概要を紹介しつつ,プレイした印象をお伝えしていこう。 「Shadow of Eclipse」公式サイト “タクティクスバトルRPG”と銘打たれた本作は,ユニットを行動順に従って動かしていき,(基本的には)マップ上の敵をすべて撃破すれば勝利となる,いわゆるシミュレーションRPGだ。マップ/敵に応じたユニットを運用し,スキルやユニット間の相性,地形効果などを考慮し
jq Manual jqで簡単JSON加工 | Developers.IO jqコマンドが実は高性能すぎてビビッた話 - beatsync.net JSONを超絶に読みやすくする jq コマンド - WebAPIバリバリ使うor開発する人必須 CLIでJSONの整形をする - ( ꒪⌓꒪) ゆるよろ日記 JSON形式の情報を様々な条件や書式として成形、フィルタリングツール『jq』。上記関連エントリで私もこのツールの存在を知る事になったのですが、ツールの簡易さ・便利さに感動しながら私もちょくちょく利用させてもらっています。 そこでこのエントリでは、jq公式ページに展開されている利用ガイド・リファレンス的な位置付けの『jq Manual』を写経がてらざっくり日本語訳してみました。ざっくり訳なのでこの部分の訳おかしい・間違ってる等ありましたら御指摘頂けると幸いです。例示されているサンプルコードも
私は情報収集にはてなブックマークを多用しており、暇な時は結構な割合ではてなブックマークで記事を探してます。しかし、はてなブックマークは最新の記事を探すのは便利ですが、過去の記事を探すにはいまいち使えません。個人的には多少過去の記事でも自分が興味を持っている分野に関しては、レコメンドして欲しいと感じてます。 ありがたいことにはてなはAPIを公開しており、はてなブックマークの情報を比較的簡単に取得できます。そこでこのAPIを利用して自分に合った記事を見つけるようなレコメンド機能をRとPythonで作成してみたいと思います。 利用するデータは、はてなAPIを使って収集します。具体的には、はてなブックマークフィードを利用して自分のブックマークしているURLを取得し、そのURLをブックマークしているユーザをエントリー情報取得APIを用いて抽出し、そのユーザのブックマークしているURLを収集します。こ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く