[B! textmining] headless_pastaのブックマーク

マンションポエム徹底分析！

マンションポエム。それはマンション広告にちりばめられた詩的キャッチコピー。折り込みチラシや、駅や電車内の広告などでよく見かけると思う。「洗練の高台に、上質がそびえる」（「プラウドタワー白金台」野村不動産より）といったあの名調子のことだ。このマンションポエム観察をライフワークにしているぼく。今回はさらに踏み込んだ分析をしてみよう。

headless_pasta 2017/07/28

こういう分析大好きだ。

textmining

リンク

MacでRubyを使ってMeCabを利用する準備 - 別館子子子子子子（ねこのここねこ）はてブロ部

形態素解析など言語解析業界では Python のほうがメジャーなようです。でも Rubyist としてはそこでも Ruby で突き進んでいきたいわけです（速度は気にしないという前提）。なので Ruby での使い方をやっていきます。 MeCabとは MeCab (和布蕪)とは MeCabは京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです。言語, 辞書,コーパスに依存しない汎用的な設計を基本方針としています。パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。ちなみに和布蕪

headless_pasta 2015/07/08

リンク

はてなブックマーク全文検索の精度改善

Hatena Engineer Seminar #5 での発表スライド

headless_pasta 2015/06/19

ここでもTF-IDF法が。

リンク

“感情分析”から広がる「ヤフーリアルタイム検索」の可能性--開発チームに聞く

ヤフーは11月、SNS上の投稿を検索できるサービス「リアルタイム検索」に、Twitterの投稿を分析し、検索したキーワードに対してどのような感情を持っているかをポジティブ／ネガティブ（ポジネガ）で判定する機能「つぶやき感情分析」の“正式版”を実装した。従来との主な変更点は、分析できる言葉が大幅に拡張されたこと。これまでは頻繁に検索される1万1000語とその時に話題になっているキーワードのみが対象だったが、あらゆる言葉で感情を分析できるようになった。また、分析システムが辞書方式から機械学習方式に変更されたことで、学習を重ねることで分析精度を高められるようにもなった。この感情分析機能は、ヤフーとYahoo!（米ヤフー）の共同開発によるものという。もともと検索分野を中心に協力していたが、今回は自然言語処理や機械学習をあわせた要素技術が必要となったことから、同分野に長けた米ヤフーが開発に加わっ

headless_pasta 2014/12/10

リンク

PC

機械学習の基礎の基礎、最小二乗法を学ぶ最小二乗法で回帰式が2次関数になったらどうする？　重回帰分析の計算も 2024.01.17

headless_pasta 2014/04/01

リンク

日本語形態素解析の初歩 - あらびき日記

この記事は abicky.net の日本語形態素解析の初歩に移行しました

headless_pasta 2014/04/01

リンク

形態素解析に基づくＡＶタイトルの特徴分析 - oscillographの日記

こんばんは。夜の@oscillographです。最近DMMアダルトがAPIを公開しました。つまり、プログラムで直接データを取得できるようになったわけです。ということで、今回はDMMアダルト（動画）の全タイトルを取得して形態素解析を行うことによって日本のAVタイトルの特徴を分析しようということになりました。手順としては、 DMM（ビデオ）のメーカーページを「あ」～「ん」までHTMLで取得メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得タイトルについて形態素解析を行うことによって単語を集計正規化（全体の数で割ることによって割合で表す）という感じでやりました。とりあえず、集計結果です。上位３０位を抜き出し

headless_pasta 2013/11/19

リンク

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！

はじめに最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。これだけ人気なんだからきっと面白いに違いないのですが、なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。扱うデータとして、pixivのタグ情報を利用します。商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、そこに付与されるタグ情報は、ファンの熱（過ぎる）いメッセージが込められているに違いありません。今回、以下のような縛りを入れています。 1．勿論原作は見ない 2．pixivのタグ情報は参照するけど、

headless_pasta 2013/08/10

リンク

カフカ『変身』はラノベよりもずっと読みやすい←日本語難易度推定をやってみた

語彙学習を最適化するために、自分のレベルにあった文章を探すにはどうすればいいのだろう？自分の語彙数は、「語彙数推定テスト」（ＮＴＴコミュニケーション科学基礎研究所） http://www.kecl.ntt.co.jp/icl/lirg/resources/go itokusei/goi-test.html 語彙推定テストで分かった。それから語彙を増やすには読書が一番ということ、それも分からない言葉だらけのものより、出てくるほとんどの言葉は分かるが、その中に少しだけ知らない単語が入っているようなものを読むのがもっとも学習効率がよいらしいこともできる子はできない子の4.6倍のボキャブラリーがあるー日本語の語彙の測る／増やす方法読書猿Classic: between / beyond readers で触れた。あとは自分のレベルに合ったものを読むだけなのだが、今日はそれに役立つウェ

headless_pasta 2012/07/13

テキストマイニングのお話。これは面白い。

リンク

ブレインパッド、独自のセマンティック自然言語処理エンジンを夏に公開

ブレインパッドは5月29日、ウェブ上のクチコミや発言、書き込みなどのテキストデータを解析し、マーケティングなどに有用な情報を抽出する「自然言語処理エンジン」を夏頃に公開すると発表した。自然言語処理エンジンは、人間が日常的に使用する自然言語をコンピュータに処理させ、利用しやすい状態にする自然言語処理技術を活用したもの。単語や文節単位の分析に加え、文章を理解するのに必要な「文脈解析」と、文章の意図を理解するのに必要な「意味解析」の2つの技術を使用している。人手に頼らず情報リソースに意味（セマンティック）を付与し、重要語を自動で判別して、自然な言い回しの抄録を作成できる。従来のテキストデータ解析サービスのネックとなっていた、辞書の作成とメンテナンスの負荷が軽減され、消費者やユーザーの声をより早く、より精緻に解析できるという。ブレインパッドでは、サービスの開始にさきがけて、開発評価版（アルフ

headless_pasta 2012/05/30

textmining

リンク

アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ

「君と僕の関係*1」、というタイトルで、AKB48メンバーブログの“コメント欄”のテキスト分析をしました。さながら、「ファンレター2.0」、ですよ。すごい世界。ぞくぞく。きっかけと背景個人的に、アイドルブログの真骨頂はコメント欄だと思ってて、わりと眺めるのがすきです。甘い愛の言葉も熱い激励の言葉も、クラスの友達かよｗってくらい軽くて近くて短すぎるコメントもまぜこぜで、あまりに混沌としていてうっとりします。すてき。距離感がめちゃくちゃ。今、2011年（データとった当時）のアイドルとファンの関係を知りたくて、ブログの“コメント欄”だけで形態素解析をしました。あっち側の人たちの経営戦略やマネジメントの手腕は誰か偉い人がきっと分析してくれるから、わたしはもっとこっち側の、お祭に加担してる、一緒に踊らされてる人たちのことを知りたい。どんな人がいるんだろう、何を考えているんだろう、どんなことに

headless_pasta 2012/02/09

ちくしょー、テキストマイニング面白いなー

textmining

リンク

なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか？ - あんちべ！

件名：主人がオオアリクイに殺されて1年が過ぎました。差出人：久光いきなりのメール失礼します。久光さやか、29歳の未亡人です。お互いのニーズに合致しそうだと思い、連絡してみました。自分のことを少し語ります。昨年の夏、わけあって主人を亡くしました。自分は…主人のことを…死ぬまで何も理解していなかったのがとても悔やまれます。主人はシンガポールに頻繁に旅行に向っていたのですが、それは遊びの為の旅行ではなかったのです。収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。一年が経過して、ようやく主人の死から立ち直ってきました。ですが、お恥ずかしい話ですが、毎日の孤独な夜に、身体の火照りが止まらなくなる時間も増えてきました。主人の残した財産は莫大な額です。つまり、謝礼は幾らでも出きますので、私の性欲を満たして欲しいのです。お返事を頂けましたら、もっと詳

headless_pasta 2011/11/26

リンク

形態素解析の過去・現在・未来

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transf ormers for Language Und...Deep Learning JP

headless_pasta 2011/10/23

コスト調整はドリフのタンス/テキストマイニングで欲しいのは単語というより「概念」

リンク

http://www.nri.co.jp/opinion/chitekishisan/2011/pdf/cs20110810.pdf

headless_pasta 2011/10/04

リンク

江崎グリコが取り組むテキストマイニングは広告キャンペーンをどう変えるのか

『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

headless_pasta 2011/07/25

リンク

意味解析ができるテキストマイニングを売りに来るのは止めて欲しい - U.gEn.FujitsU++

■テキストマイニング1.0テキストマイニングエンジンといえば、とりあえずは野村総研のTrueTellerを思い出す。TrueTellerが主に扱っていた情報は、CS部門などに溜まる情報である。TrueTellerは業界随一ぐらいの解析精度を誇るし、値段の高さも随一だと思うのだけど、べつに意味解析とかできないと思う。できるといってるけど、精度が悪くて使えない。それでも、多くの会社が導入して、それなりに使えているのは、解析対象がCS部門の入力したテキスト情報だったからだ。テキストマイニングの源流みたいなのは、シーベルとかのCRMとかSFAパッケージが持っていた自動FAQ生成機能とか、営業日報解析とかそのあたりに原点があるように思う。当時のCRMの合言葉は「データが命」である。要するに、CS部門のオペレータや営業が綺麗な起承転結がはきりした文章で入力し、さらにそれらを分類してくれるから、ある程度

headless_pasta 2008/10/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

textminingに関するheadless_pastaのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年4月第3週）

今週のはてなブックマーク数ランキング（2024年4月第2週）

今週のはてなブックマーク数ランキング（2024年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス