このサイトでは、マルコフ連鎖で作成した校長先生の話を永遠に聞くことが出来ます。ぜひ音声ありでご視聴ください。
![校長先生の話エンドレス](https://cdn-ak-scissors.b.st-hatena.com/image/square/6826747c1464094d0fa4d1f02a5258540032d466/height=288;version=1;width=512/https%3A%2F%2Fkoucho-endless.com%2Fimage%2Fogp.jpg)
こんばんは。プログラマーのhakatashiです。2ヶ月ぶりですね。普段はpixivコミックやpixivノベルの開発を手伝っていますが、今回もそれとは全く関係ない話をします。 pixiv×機械学習 「機械学習」「深層学習」といった単語がプログラマーの間でも広く囁かれるようになって既に幾年月経とうとしています。ここpixivの開発陣においても、人口に膾炙する機械学習の輝かしい成果に関する話題は尽きることがなく、常に最新のトピックに目を光らせています。 そんな取り組みの一環として、今回は弊社が運営するpixivの小説機能の投稿データで機械学習を行ってみたので、簡単に紹介したいと思います。 ※この記事における「pixiv小説」とは「pixivの小説投稿機能およびそれによってpixivに投稿された小説」を指し、「pixivノベル」とは異なります。 word2vecとは 自然言語処理における機械学習
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
こんにちは、はてなブックマークのディレクター id:jusei です。本日、はてなブックマークの新機能「トピック」をベータリリースしました。現在はPC版でのみご利用いただけます。スマートフォン版、iOSアプリ、Androidアプリでは順次対応していきます。 新機能「トピック」では、「人気エントリー」に掲載されている記事の中から関連性の高い記事をまとめ、さらにそれ以外の関連エントリーも含めて一覧できる「トピックページ」を生成します。各トピックの見出しは、自然言語処理技術を用いて自動生成しております。トピックページの生成対象は、過去10年間に蓄積されたはてなブックマークの全エントリーです。 2015年1月のトピック2005年2月のトピック トピックページには、ユーザーの皆さまの間で多く話題になっている記事を抜粋して表示する「ハイライト」、すべての記事を表示する「新着」の2つの表示モードがありま
第42回 データマイニング+WEB @東京( #TokyoWebmining 42nd ) −深層学習・表現学習 徹底活用 祭り− Eventbrite Google グループ 会場提供し運営を手伝って下さった FreakOut のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧 参加者Twitter List : tokyowebmining-42 参加者セキココ:第42回 データマイニング+WEB @東京 セキココ (作成してくれた [Twitter:@komiya_atsushi] さんに感謝) 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「データマイニング+WEB@東京 につ
言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこで本チュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less
概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ
2011/02/27 "第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−"を開催しました。 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 以下、全講師資料、関連資料、ツイートまとめ、参加者の声です。 AGENDA: ■10回開催記念トーク: 1. 「データマイニング+WEB〜データマイニング・機械学習活用による継続進化〜」 (発表40分
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く