タグ

lexに関するmas-higaのブックマーク (2)

  • 形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記

    こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し

    形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記
    mas-higa
    mas-higa 2013/11/19
    特徴ってジャンル分けのことなのか。
  • TinySegmenterをLaTeXに移植してみた

    この記事はTeX & LaTeX Advent Calendarの傘下記事です. 15日はk16.shikanoさんの「TeX がむかついたので実装したけど挫折してる話」, 17日は@egtraさんの「LCDF TypetoolsでOpenTypeフォントを使う(DVIPDFMXで)」です. neruko3114が参加しているのを見てなんだか楽しそうだったで参加してみました. とはいってもネタも思いつかなったので,過去に作ったものをTeXに移植してみました. ターゲットはTinySegmenter. 以前作ったTinySegmenterMakerでLaTeXを出力できるようになったよ! 使ってみる TinySegmenterMakerのレポジトリをダウンロードするなりgit cloneするなりして 落としてきます. レポジトリに入っているのはモデルファイルとスクリプトだけです. これらを使

    mas-higa
    mas-higa 2012/12/17
    すごい。誰得。
  • 1