You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
三ヶ月ほど前に僕が「作ります!」と宣言していた、はてブホッテントリの感情分析サイトだが、ようやく完成したので公開したいと思う。 hotentry-sa.appspot.com このサイトでできること はてなブックマークのホッテントリ内の各エントリーについた全てのブクマコメントを解析して、感情的なネガティブ度・ポジティブ度を算出して表示している。 次の3種類の分析結果が表示できるようになっている。 闇ホッテントリ⇒ネガティブなコメントの多いエントリを順に表示する。 きれいなホッテントリ⇒ポジティブなコメントの多いエントリを順に表示する。 揺れホッテントリ⇒ネガティブとポジティブの間の揺れ幅が大きい、つまり賛否両論の激しいエントリを順に表示する。 サイトが出来上がるまでの経緯 今年の始めにネットのどこかのサイトを覗いていたら、グーグルが自然言語処理に関するWebAPIを提供しているということを
tl;dr (要約) Kuromojiに代わる新しい形態素解析器「Sudachi」 なにが良いの? 最新の辞書 企業(ワークスアプリケーションズ)による継続的な更新 複数の分割単位 → 検索用途での再現率と適合率の向上 プラグインによる拡張 省メモリ Elasticsearchで使いたい プラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください 注: この記事の執筆者はSudachiの開発に関わっています さまざまな形態素解析器 形態素解析は、伝統的な自然言語処理(Natural Language Processing, NLP)において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利
リクルートテクノロジーズの大杉です。 広島市立大学修士2回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ(行数など)に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな目的
リクルートテクノロジーズの大杉です。 広島市立大学修士2回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ(行数など)に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな
目次 やりたかったこと Qiita投稿を取得する Tweet2Vecを使う GPUインスタンスを使う タグ予測結果 類似投稿を出してみる 考察と課題 やりたかったこと 短い日本語文書(ツイートなど)を分類したい ニューラルネットワーク使いたい 形態素解析せずにやりたい SNSの投稿などを処理する場合、誤字、脱字、スラング、新語、絵文字、顔文字、外国語、専門用語、表記ゆれなどが多く含まれるため、形態素解析器を用いたアプローチは不利に思われる。近年のNLP論文を読んでいると単語レベルではなく文字レベルで学習させる方向にいっているようなので、その流れに乗ってみる。日本語は一文字あたりの情報量が大きいので英語より有利だと思う。 文書が長すぎず、形態素解析しにくそうで、ある程度トピックにまとまりがある題材として、Qiitaの投稿をタイトルのみで分類してみることにした。Qiitaの本文はmarkdow
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く