[B! nlp][あとで読む] beth321のブックマーク

beth321 id:beth321

nlpとあとで読むに関するbeth321のブックマーク (37)

258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
beth321 2017/03/07
database

あとで読む

データ

日本語

自然言語処理

言語

webサービス

corpus

nlp

機械学習
リンク
Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1（基礎編）では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2（実用編）では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。実問題に機械学習を適用するタスクを定義するデータを特徴ベクトルに変換する評価方法を決める正解データの正例と負例は均等にベースラインとなる手法を実装する実データに向き合うときの心構え機械学習のワークフロー 1. 前処理データセット作成サンプリング特徴抽出欠損値・欠測値への対応値のスケーリング特徴選択次元削減 2. 学習モデ
beth321 2016/10/06
あとで読む

Web

developer

機械学習

アルゴリズム

プログラミング

Python

Hatena

nlp

machinelearning
リンク
【世界初】大喜利ができる人工知能の開発者に会ってきた | オモコロ
大喜利ができる人工知能があるらしい……しかも、博士が作っているらしい。本当なのか確かめてみたら思った以上にすごかった。人工知能の勢いが増している、らしい。人工知能がプロ囲碁棋士と対局し、大差でプロを破ったことは記憶に新しい。人間が有利だった分野が、次々と人工知能に追い上げられている。 20年後には今ある職業の半分がAIに取って代わられる、という予測もある。しかし、エンターテイメント分野において人工知能はまだ人間に追いついていない。ヒトの感情を揺さぶることに関しては、人工知能は未熟である。そうも思われていた。ところが最近、人工知能が「大喜利」で人間を破ったという情報を耳にした。もしそれが本当だとすれば、笑いの分野でも人工知能が人間を超えたということになる。ふざけることしか能がない人間の集まりであるオモコロの存在意義すら危うい。真相を確認するべく、大喜利で人間に勝つ人工知能を作
beth321 2016/06/09
あとで読む

AI

人工知能

ネタ

技術

お笑い

neta

人間

NLP

おもしろ
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
beth321 2016/05/12
日本語

クックパッド

あとで読む

技術

機械学習

形態素解析

mecab

nlp

自然言語処理

cookpad
リンク
「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
何かこんなメディア記事が出ていたようです。これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か（両分野に詳しい）誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。統計学はデータを「説明」す
beth321 2015/10/08
あとで読む

データ

ML

機械学習

NLP

統計学

統計

statistics

人工知能

machinelearning
リンク
日本語で読める自然言語処理のチュートリアルスライドまとめ
先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。自然言語処理全般系の資料や、少し境界的なテーマは入っていません。また、ぱっと読めるスライドだけにしています。幾つか手前味噌な資料も載せてます・・。頑張って集めてみましたが、思ったほど集まりませんでした。作っていてわかったのですが、意外とスライドを公開している人は少ないようです。埋もれてしまうのはもったいないですね。いずれ、英語で読めるスライドを集めてみようと思います。そっちはそっちで、
beth321 2015/04/20
自然言語処理

資料

@

nlp

deeplearning

slide

スライド

プレゼン

あとで読む

勉強
リンク
ディープラーニングチュートリアル応用編
Transcript 1. 大規模データから単語の意味表現学習-word2vec ボレガラダヌシカ博士(情報理工学) 英国リバープール大学計算機科学科准教授 2. 2 2005 2008~10 学部修士博士助教/講師東京大学工学部東京大学大学院情報理工学系文書自動要約における重要文順序学習同姓同名抽出別名抽出属性類似性計測関係類似性計測評判分類の分野適応関係抽出の分野適応進化計算を用いたWeb 検索結果順序学習ソーシャルネットワークの関係予測対話型協調 Web検索エンジン潜在関係検索エンジン自己紹介専門分野：自然言語処理, 機械学習,データマイニング 2006~07 2010~13 2010~現在准教授リバープール大学深層学習 3. 今回の講演の背景 •深層学習に関する活動 •2014年9月に深層学習のチュートリアルをCyberAge
beth321 2015/04/18
NLP

機械学習

あとで読む

データマイニング

自然言語処理

チュートリアル

ML

deep learning

deeplearning

word2vec
リンク
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成
beth321 2015/03/14
あとで読む

mecab

自然言語処理

これはすごい

辞書

nlp

研究

プログラミング

dictionary

技術
リンク
言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
beth321 2015/03/13
プログラミング

NLP

データ分析

あとで読む

学習

データ

Programming

python

自然言語処理

機械学習
リンク
相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ
ディープラーニングが猛威を振るっています。私の周りでは昨年から多く聞かれるようになり、私も日経BPさんの連載で昨年5月にGoogleの買収したDeep Mind社について触れました。今年はさらに今までディープラーニングについて触れていなかったメディアでも触れられるようになってきましたね。例えば、イケダハヤトさんも先日。高知でも話題になっているのですね。私事ですが、今度湯川鶴章さんのTheWaveという勉強会で、人工知能とビジネスについて一時間ほど登壇させていただくことになりました。有料セミナーということです。チャールズべバッジの解析機関についてはこのブログでも以前触れましたが、「機械が人間を置き換える」みたいな妄想は100年位は言われていることですね。「解析機関」「機械学習」「人工知能」「シンギュラリティー」など、呼び名はどんどん変わり、流行り廃りもありますが、最近ロボットの発達も相まっ
beth321 2015/02/24
機械学習

machine-learning

あとで読む

2013年

deep learning

科学

DeepLearning

ai

研究

NLP
リンク
はてなブックマークのトピックページの裏側 - Hatena Developer Blog
こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。内容「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、トピック生成の精度が低いトピックタイトル生成が難しいという問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。トピック生成これまでキーワードなどを用いて記事をクラスタリ
beth321 2015/02/13
はてなブックマーク

自然言語処理

hatena

はてな

はてな

開発

WEBサービス

あとで読む

NLP

elasticsearch
リンク
自然言語処理技術を用いたはてなブックマークの新機能「トピック」をベータリリースしました - はてなブックマーク開発ブログ
こんにちは、はてなブックマークのディレクター id:jusei です。本日、はてなブックマークの新機能「トピック」をベータリリースしました。現在はPC版でのみご利用いただけます。スマートフォン版、iOSアプリ、Androidアプリでは順次対応していきます。新機能「トピック」では、「人気エントリー」に掲載されている記事の中から関連性の高い記事をまとめ、さらにそれ以外の関連エントリーも含めて一覧できる「トピックページ」を生成します。各トピックの見出しは、自然言語処理技術を用いて自動生成しております。トピックページの生成対象は、過去10年間に蓄積されたはてなブックマークの全エントリーです。 2015年1月のトピック2005年2月のトピックトピックページには、ユーザーの皆さまの間で多く話題になっている記事を抜粋して表示する「ハイライト」、すべての記事を表示する「新着」の2つの表示モードがありま
beth321 2015/02/06
はてなブックマーク

はてなブックマーク

はてな

はてブ

はてな

elasticsearch

あとで読む

hatena

自然言語処理

NLP
リンク
形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
概要偶然５７５７７になっている文章を短歌としてつぶやく Twitter の bot を作りました。フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日本語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日本語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日本語版を対象としました。作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。このスクリプトで５７５７７になっている文を抽出。数時間かけて（遅い）
beth321 2015/01/18
タイトル五七五

twitter

# |ω・)……

短歌

twitter

形態素解析

NLP

mecab

あとで読む

bot
リンク
RakutenMAによる形態素解析入門 - あんちべ！
概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら
beth321 2015/01/08
形態素解析

text

自然言語処理

JavaScript

あとで読む

MeCab

RakutenMA

nlp

学習

技術
リンク
パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース
（これまでのあらすじ）前回、パソコン工房から「統計処理用のPCのPR企画をやりたい」と依頼を受けて、はてなエンジニアと一緒にword2vecで遊んでみた編集部。読者の皆さまにも好評だったので、調子に乗って第2弾を実施することにしました。今回は「"word2vec"で艦これ加賀さんから乳を引いてみる」で一世を風靡した、あの統計屋さんが全面協力です！記事の最後にはプレゼントのお知らせも。（※この記事は株式会社ユニットコムによるPR記事です）皆さまは前回の記事を、覚えておりますでしょうか？ ▽ Python - Perl + Java = ？はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュースパソコン工房の統計処理用PC × はてなブログのデータ × word2vec という記事でした。ブックマークコメントから感想をいくつかピックアップし
beth321 2015/01/08
はてな

あとで読む

形態素解析器

nlp

自然言語処理

Rakuten MA

hatena

javascript

Java
リンク
kuromoji.js使って構文解析した - Qiita
こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを
beth321 2014/12/27
js

nlp

()

本

Google

javascript

kuromoji.js

自然言語処理

あとで読む

language
リンク
kuromoji.js - Webブラウザ上で分かち書き！ MOONGIFT
テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
beth321 2014/12/25
apache

javascript

形態素解析

あとで読む

js

日本語

library

文章

分かち書き

nlp
リンク
日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
前にこんなツイートをしたけどもうちょっとちゃんとメモっておくゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです勝手なイメージだと、MeCab →一番使われてる。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解するいわゆる学校でならった文法とは違う文法を使っているので注意が必要ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ
beth321 2014/12/24
メモ

*program

自然言語処理

形態素解析

()

NLP

データ

あとで読む

機械学習

文章
リンク
機械学習をこれから始める人に押さえておいてほしいこと - Qiita
いしたーです。アルバイトで機械学習やってます。こんにちは。とある勉強会に出席したときに、「機械学習をやりたいけどわからないことが多い」という意見を聞いたので、いくつかアドバイスを載せておきます。読む前の注意研究についてのアドバイスは書いていません。趣味で機械学習をやろうと思っている方が対象です。この記事は他の方の意見をまとめたものではありません。私個人の経験に基づいて書いたものです。よって、この記事の内容はほとんど「私の意見」です。以上2つの注意点を踏まえた上でお読みください。「機械学習で何をしたいのか」を決めてほしい機械学習を学ぶ前に、機械学習を使って何をしたいのかを決めてください。機械学習は数式がたくさん登場したり、難しい概念を理解しなければならなかったりすることがあります。やりたいことを決めてから学ぶと、今自分はある目的を達成するために学んでいるんだと思うことができ
beth321 2014/12/07
機械学習

コンピュータ

あとで読む

Qiita

NLP

プログラミング

数学

deferred

あとで

MikuMikuDance
リンク
日本語解析API、「gooラボ」で公開　形態素解析やひらがな化など
NTTレゾナントは12月3日、日本語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出」、漢字混じりで書かれた文字列をひらがなかカタカナに変換する「ひらがな化」のAPI。今後も、企業や大学などからニーズが高い技術を公開し、オープンコラボレーションを加速するとしている。関連記事変わるAPIのエコシステム　ヤフーはなぜ、検索APIを有料にしたか TwitterのAPI利用制限が厳しくなり、ヤフーが検索API有料化を発表し……昨年は、大規模サービスのAPI公開姿勢に大きな変化があっ
beth321 2014/12/04
ITmedia ニュース

言語

gooラボ

ニュース

api

形態素解析

プログラミング

あとで読む

NLP

webサービス
リンク
1 2 次のページ