2015年8月26日のブックマーク (7件)

  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
    wakuteka
    wakuteka 2015/08/26
  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 再学習 それぞれ順に説明していきます. Seed辞書の準備 MeCabの辞書は CSV で記述されます. Seed 辞書と配

    MeCab: オリジナル辞書/コーパスからのパラメータ推定
    wakuteka
    wakuteka 2015/08/26
    うん
  • esaとは

    what-is-esa.md esaとは 最初から完璧を目指さない。ドキュメントは書き途中(WIP)から仲間と共有してしまおう。 チームの誰かに情報を共有する時、完璧にまとめることをを目指しすぎて、後手後手に回ってしまうことはないでしょうか?また、誰かに情報共有された時に、もっと早く言ってくれればよかったのに…という思いをしたことはないでしょうか? esaでは、円満で自律的なチーム開発を目指すための1つの鍵が、「早めの情報共有」にあると考えました。 あなたが今抱えている仕事や悩み、アイデアなどを、早く共有しておけば、他の仲間が、あなたが考えているよりももっとよりよいアイデアをくれるかもしれません。 また、esaでは書き途中(WIP / Work in Progress)のドキュメントは、更新しても更新通知がチームに飛ばないなど、発展途上の情報をチームで気持よく育てていくための様々な工夫がな

    esaとは
    wakuteka
    wakuteka 2015/08/26
  • esaのつかいかた(\( ⁰⊖⁰)/)

    how-to-esa.md esa.io のつかいかた Save as WIP Ship it! ボタンについて Save as WIP ボタン 投稿画面、編集画面に Save as WIP というボタンがあります。これを押すと、「書き途中だけど保存して公開する」という意味になります。 WIP = Work in Progress (作業中) Save as WIP で保存された記事は、一覧画面などの投稿タイトルに WIP と付いてグレーアウトした状態になります。 Save as WIP で保存された時は、Webhookの更新通知は飛びません。 Ship It! ボタン ドキュメントが大体完成に近づいたところで Ship It!ボタンを押すと、Webhookの更新通知が飛び、チームの人が見にきてくれます。 それぞれの更新は revision に記録されていて、画面右上から差分も見ることがで

    esaのつかいかた(\( ⁰⊖⁰)/)
    wakuteka
    wakuteka 2015/08/26
  • esa.io - Expertise Sharing Archives for motivated teams.

    Nothing is perfect from the beginning. We want to support the growth of documents from hatching to completion. 最初から完璧なものなんてない。 esaは情報の一生を見守りたい。

    esa.io - Expertise Sharing Archives for motivated teams.
    wakuteka
    wakuteka 2015/08/26
  • Breaking the SQL Barrier: Google BigQuery User-Defined Functions- Google Developers Blog

    Share Facebook Twitter LinkedIn Mail Posted by, Thomas Park, Senior Software Engineer, Google BigQuery Many types of computations can be difficult or impossible to express in SQL. Loops, complex conditionals, and non-trivial string parsing or transformations are all common examples. What can you do when you need to perform these operations but your data lives in a SQL-based Big data tool? Is it po

    Breaking the SQL Barrier: Google BigQuery User-Defined Functions- Google Developers Blog
    wakuteka
    wakuteka 2015/08/26
    “Posted: Tuesday, August 25, 2015”
  • 検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方

    はじめに 稿では、はてなブックマークの10周年記念の第1弾として開発した「トピックページ」の作り方について解説します。トピックページとは、インターネット上で話題となったトピックを閲覧できるページです。 トピックページは、トピックに関連する記事の集合とトピックを表すタイトルから構成されます。 トピックページ生成の流れは以下の通りです。 トピック生成 トピック表すキーワード集合を獲得し、そのキーワードに関連する記事を収集する。 トピックタイトル生成 トピックに関連する記事の情報を利用してトピックを表すタイトルを生成する。 稿では、Elasticsearchなどの検索技術を活用したトピック生成方法、および、CaboChaなどの自然言語処理技術を活用したトピックタイトル生成方法について説明します。 対象読者 Elasticsearchを利用している/したい方 検索技術、自然言語処理技術に関心の

    検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方
    wakuteka
    wakuteka 2015/08/26