マンションポエム。それはマンション広告にちりばめられた詩的キャッチコピー。 折り込みチラシや、駅や電車内の広告などでよく見かけると思う。「洗練の高台に、上質がそびえる」(「プラウドタワー白金台」野村不動産より)といったあの名調子のことだ。 このマンションポエム観察をライフワークにしているぼく。今回はさらに踏み込んだ分析をしてみよう。
形態素解析など言語解析業界では Python のほうがメジャーなようです。でも Rubyist としてはそこでも Ruby で突き進んでいきたいわけです(速度は気にしないという前提)。なので Ruby での使い方をやっていきます。 MeCabとは MeCab (和布蕪)とは MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。 ちなみに和布蕪
ヤフーは11月、SNS上の投稿を検索できるサービス「リアルタイム検索」に、Twitterの投稿を分析し、検索したキーワードに対してどのような感情を持っているかをポジティブ/ネガティブ(ポジネガ)で判定する機能「つぶやき感情分析」の“正式版”を実装した。 従来との主な変更点は、分析できる言葉が大幅に拡張されたこと。これまでは頻繁に検索される1万1000語とその時に話題になっているキーワードのみが対象だったが、あらゆる言葉で感情を分析できるようになった。また、分析システムが辞書方式から機械学習方式に変更されたことで、学習を重ねることで分析精度を高められるようにもなった。 この感情分析機能は、ヤフーとYahoo!(米ヤフー)の共同開発によるものという。もともと検索分野を中心に協力していたが、今回は自然言語処理や機械学習をあわせた要素技術が必要となったことから、同分野に長けた米ヤフーが開発に加わっ
こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日本のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し
はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、
語彙学習を最適化するために、自分のレベルにあった文章を探すにはどうすればいいのだろう? 自分の語彙数は、 「語彙数推定テスト」( NTTコミュニケーション科学基礎研究所) http://www.kecl.ntt.co.jp/icl/lirg/resources/goitokusei/goi-test.html 語彙推定テスト で分かった。 それから語彙を増やすには読書が一番ということ、それも分からない言葉だらけのものより、出てくるほとんどの言葉は分かるが、その中に少しだけ知らない単語が入っているようなものを読むのがもっとも学習効率がよいらしいことも できる子はできない子の4.6倍のボキャブラリーがあるー日本語の語彙の測る/増やす方法 読書猿Classic: between / beyond readers で触れた。 あとは自分のレベルに合ったものを読むだけなのだが、今日はそれに役立つウェ
ブレインパッドは5月29日、ウェブ上のクチコミや発言、書き込みなどのテキストデータを解析し、マーケティングなどに有用な情報を抽出する「自然言語処理エンジン」を夏頃に公開すると発表した。 自然言語処理エンジンは、人間が日常的に使用する自然言語をコンピュータに処理させ、利用しやすい状態にする自然言語処理技術を活用したもの。単語や文節単位の分析に加え、文章を理解するのに必要な「文脈解析」と、文章の意図を理解するのに必要な「意味解析」の2つの技術を使用している。 人手に頼らず情報リソースに意味(セマンティック)を付与し、重要語を自動で判別して、自然な言い回しの抄録を作成できる。従来のテキストデータ解析サービスのネックとなっていた、辞書の作成とメンテナンスの負荷が軽減され、消費者やユーザーの声をより早く、より精緻に解析できるという。 ブレインパッドでは、サービスの開始にさきがけて、開発評価版(アルフ
「君と僕の関係*1」、というタイトルで、AKB48メンバーブログの“コメント欄”のテキスト分析をしました。 さながら、「ファンレター2.0」、ですよ。すごい世界。ぞくぞく。 きっかけと背景 個人的に、アイドルブログの真骨頂はコメント欄だと思ってて、わりと眺めるのがすきです。甘い愛の言葉も熱い激励の言葉も、クラスの友達かよwってくらい軽くて近くて短すぎるコメントもまぜこぜで、あまりに混沌としていてうっとりします。すてき。距離感がめちゃくちゃ。 今、2011年(データとった当時)のアイドルとファンの関係を知りたくて、ブログの“コメント欄”だけで形態素解析をしました。あっち側の人たちの経営戦略やマネジメントの手腕は誰か偉い人がきっと分析してくれるから、わたしはもっとこっち側の、お祭に加担してる、一緒に踊らされてる人たちのことを知りたい。どんな人がいるんだろう、何を考えているんだろう、どんなことに
件名: 主人がオオアリクイに殺されて1年が過ぎました。 差出人: 久光 いきなりのメール失礼します。 久光さやか、29歳の未亡人です。 お互いのニーズに合致しそうだと思い、連絡してみました。 自分のことを少し語ります。 昨年の夏、わけあって主人を亡くしました。 自分は…主人のことを…死ぬまで何も理解していなかったのが とても悔やまれます。 主人はシンガポールに頻繁に旅行に向っていたのですが、 それは遊びの為の旅行ではなかったのです。 収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。 一年が経過して、ようやく主人の死から立ち直ってきました。 ですが、お恥ずかしい話ですが、毎日の孤独な夜に、 身体の火照りが止まらなくなる時間も増えてきました。 主人の残した財産は莫大な額です。 つまり、謝礼は幾らでも出きますので、 私の性欲を満たして欲しいのです。 お返事を頂けましたら、もっと詳
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
■テキストマイニング1.0テキストマイニングエンジンといえば、とりあえずは野村総研のTrueTellerを思い出す。TrueTellerが主に扱っていた情報は、CS部門などに溜まる情報である。TrueTellerは業界随一ぐらいの解析精度を誇るし、値段の高さも随一だと思うのだけど、べつに意味解析とかできないと思う。できるといってるけど、精度が悪くて使えない。それでも、多くの会社が導入して、それなりに使えているのは、解析対象がCS部門の入力したテキスト情報だったからだ。テキストマイニングの源流みたいなのは、シーベルとかのCRMとかSFAパッケージが持っていた自動FAQ生成機能とか、営業日報解析とかそのあたりに原点があるように思う。当時のCRMの合言葉は「データが命」である。要するに、CS部門のオペレータや営業が綺麗な起承転結がはきりした文章で入力し、さらにそれらを分類してくれるから、ある程度
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く