タグ

ブックマーク / d.hatena.ne.jp/nokuno (9)

  • Social IMEの共有辞書を公開しました - nokunoの日記

    表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニングしたものや,MS IMEのユーザ辞書をWebからクロールしたものを含んでいます.各辞書の単語数は以下のとおりです. 辞書 Social IME Wikipedia MS IME MS IME2 単語数 48k 137k 16k 86k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には,多くのノイズが含まれています.このノイズを取り除くために,特殊な方法で

    hiroshi_revolution
    hiroshi_revolution 2011/12/29
    Social IMEの共有辞書を公開しました - nokunoの日記
  • 米スタンフォード大が機械学習と人工知能に続き,自然言語処理と確率モデルの講義を一般公開 - nokunoの日記

    表題の通り,米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです.Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は,この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者でもあります.これは必見ですね. なお,以前から公開されていて既に講義や課題が始まっている機械学習人工知能の講義はこちら.Machine LearningIntro to AI - Introduction to Artificial Intelligence - Oct-Dec 2011 スタンフォード大学のオンライン講義 - nokunoの日記ツイートする

    hiroshi_revolution
    hiroshi_revolution 2011/11/19
    米スタンフォード大が機械学習と人工知能に続き,自然言語処理と確率モデルの講義を一般公開 - nokunoの日記
  • 第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記

    第5回 さくさくテキストマイニング勉強会 : ATND データクリーニング入門 〜精度は細部に宿る〜 by toilet_lunch様 掃除は大事です!! Unicode正規化 フィルタリング 第2水準の漢字は捨てる 短いツイートは捨てる URLは捨てる あなたの質問に答えてみた 〜疑問に対する応答〜 by gepuroさん イカ娘の記事から答えをマイニング Cabochaを使って係り受け解析 質問文から疑問詞を取り出す 当に気持ちのいい全文検索〜Lucene/Solr入門〜 by AntiBayesianさん 検索エンジン入門 転置インデックス 適合率と再現率とF値 TF-IDF Lucene/Solr入門 Solrのインストール Schema設定:typesとfields gosenで形態素解析 ツイートをCSVで登録 まとめ 検索は大規模データ時代には必須 全文検索,転置インデック

    hiroshi_revolution
    hiroshi_revolution 2011/10/16
    第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記
  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

    hiroshi_revolution
    hiroshi_revolution 2011/09/15
    本当に必要なN-gramは2割しかない - nokunoの日記
  • 第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記

    第7回自然言語処理勉強会を開催しました.会場をご提供いただいた@ajiyoshiさんとECナビさん,発表者の皆様,参加していただいた皆様,ありがとうございました&お疲れ様でした.第7回自然言語処理勉強会 #TokyoNLP : ATND きれいなジャイアンのカカカカ☆カーネル法入門-C++ by @sleepy_yoshiさん 自己紹介 日の内容 オンライン学習でカーネルを使う方法を紹介 日のノリ 中2っぽい名前の理論は扱わない 前回のおさらい 線形識別モデル パーセプトロン 線形モデルの問題点 非線形モデルの実現方法 1. モデルを非線形にする 2. カーネル法+線形モデル カーネル法ひとこと要約 数式 ここでは予測に用いるデータをサポートベクタと呼ぶ 日常ネタ カーネル関数の種類 閉じた形で計算できるもの 再帰などで計算できるもの ちょっと特殊なもの:Semantic simila

    hiroshi_revolution
    hiroshi_revolution 2011/09/11
    第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記
  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

    hiroshi_revolution
    hiroshi_revolution 2011/06/16
    大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記
  • Twitter検索がパーソナライズ検索に対応 - nokunoの日記

    Twitter検索がパーソナライズ検索に対応しました。このエントリは、その背後にあるエンジニアリングについての記事を翻訳したものです。Twitter Engineering: The Engineering Behind Twitter’s New Search Experience以前のBlenderの記事も合わせて読むと良いかもしれません。 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記 Twitterの新しい検索体験を支える技術日(2011年5月31日)、Twitterはパーソナライズ検索をローンチし、ユーザは自分自身に関連のあるツイート、画像、動画を見つけることができるようになった。このプロダクトを開発するために、我々のインフラは2つの主な特徴をサポートする必要があった:検索結果の関連性フィルタと関連画像・動画の認識機能である。どちらの特徴も

    hiroshi_revolution
    hiroshi_revolution 2011/06/10
    Twitter検索がパーソナライズ検索に対応 - nokunoの日記
  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

    hiroshi_revolution
    hiroshi_revolution 2011/02/20
    #followdaibosyu 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記
  • nokunoの日記

    nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

  • 1