hiroshi_revolutionのブックマーク - はてなブックマーク

Social IMEの共有辞書を公開しました - nokunoの日記

表題の通り，Social IMEの共有辞書を公開しました．dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく，Wikipediaから括弧表現をマイニングしたものや，MS IMEのユーザ辞書をWebからクロールしたものを含んでいます．各辞書の単語数は以下のとおりです．辞書 Social IME Wikipedia MS IME MS IME2 単語数 48k 137k 16k 86k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には，多くのノイズが含まれています．このノイズを取り除くために，特殊な方法で

hiroshi_revolution 2011/12/29

Social IMEの共有辞書を公開しました - nokunoの日記

リンク

米スタンフォード大が機械学習と人工知能に続き，自然言語処理と確率モデルの講義を一般公開 - nokunoの日記

表題の通り，米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです．Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は，この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者でもあります．これは必見ですね．なお，以前から公開されていて既に講義や課題が始まっている機械学習と人工知能の講義はこちら．Machine LearningIntro to AI - Introduction to Artificial Intelligence - Oct-Dec 2011 スタンフォード大学のオンライン講義 - nokunoの日記ツイートする

hiroshi_revolution 2011/11/19

米スタンフォード大が機械学習と人工知能に続き，自然言語処理と確率モデルの講義を一般公開 - nokunoの日記

リンク

第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記

第5回さくさくテキストマイニング勉強会 : ATND データクリーニング入門〜精度は細部に宿る〜 by toilet_lunch様掃除は大事です！！ Unicode正規化フィルタリング第2水準の漢字は捨てる短いツイートは捨てる URLは捨てるあなたの質問に答えてみた〜疑問に対する応答〜 by gepuroさんイカ娘の記事から答えをマイニング Cabochaを使って係り受け解析質問文から疑問詞を取り出す本当に気持ちのいい全文検索〜Lucene/Solr入門〜 by AntiBayesianさん検索エンジン入門転置インデックス適合率と再現率とF値 TF-IDF Lucene/Solr入門 Solrのインストール Schema設定：typesとfields gosenで形態素解析ツイートをCSVで登録まとめ検索は大規模データ時代には必須全文検索，転置インデック

hiroshi_revolution 2011/10/16

第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記

リンク

本当に必要なN-gramは2割しかない - nokunoの日記

Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い

hiroshi_revolution 2011/09/15

本当に必要なN-gramは2割しかない - nokunoの日記

リンク

第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記

第7回自然言語処理勉強会を開催しました．会場をご提供いただいた@ajiyoshiさんとECナビさん，発表者の皆様，参加していただいた皆様，ありがとうございました＆お疲れ様でした．第7回自然言語処理勉強会 #TokyoNLP : ATND きれいなジャイアンのカカカカ☆カーネル法入門-C++ by @sleepy_yoshiさん自己紹介本日の内容オンライン学習でカーネルを使う方法を紹介本日のノリ中2っぽい名前の理論は扱わない前回のおさらい線形識別モデルパーセプトロン線形モデルの問題点非線形モデルの実現方法 1. モデルを非線形にする 2. カーネル法＋線形モデルカーネル法ひとこと要約数式ここでは予測に用いるデータをサポートベクタと呼ぶ日常ネタカーネル関数の種類閉じた形で計算できるもの再帰などで計算できるものちょっと特殊なもの：Semantic simila

hiroshi_revolution 2011/09/11

第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記

リンク

大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

hiroshi_revolution 2011/06/16

大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

リンク

Twitter検索がパーソナライズ検索に対応 - nokunoの日記

Twitter検索がパーソナライズ検索に対応しました。このエントリは、その背後にあるエンジニアリングについての記事を翻訳したものです。Twitter Engineering: The Engineering Behind Twitter’s New Search Experience以前のBlenderの記事も合わせて読むと良いかもしれません。【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記 Twitterの新しい検索体験を支える技術本日（2011年5月31日）、Twitterはパーソナライズ検索をローンチし、ユーザは自分自身に関連のあるツイート、画像、動画を見つけることができるようになった。このプロダクトを開発するために、我々のインフラは2つの主な特徴をサポートする必要があった：検索結果の関連性フィルタと関連画像・動画の認識機能である。どちらの特徴も

hiroshi_revolution 2011/06/10

Twitter検索がパーソナライズ検索に対応 - nokunoの日記

リンク

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201

hiroshi_revolution 2011/02/20

#followdaibosyu 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

リンク

nokunoの日記

nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

hiroshi_revolution 2010/10/27

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス