2020年10月3日のブックマーク (3件)

  • PythonのJanomeで名詞の出現回数をカウントする【自然言語, 形態素解析】 - Yunix Blog

    目次 Python形態素解析 Janomeのインストール Janomeでトークン列に分解 自力で名詞を抽出する 自力で名詞の出現回数をカウントする Analyzerで名詞を抽出する Janomeで名詞の出現回数をカウントする 問題 Python形態素解析 人間が自然発生的に使っている言語を「自然言語」と言います。 その自然言語を構造的に解析する手法の1つに「形態素解析(けいたいそかいせき)」というジャンルがあります。 自然言語に対して形態素解析を行うと、名詞や動詞を抽出したりできるようになります。 Pythonには形態素解析を行うライブラリに「Janome」があります。 Janomeは形態素解析器として有名な「MeCab」の辞書を使っており、精度的にはMeCabと同程度の解析が可能です。 Welcome to janome's documentation! (Japanese) — J

    PythonのJanomeで名詞の出現回数をカウントする【自然言語, 形態素解析】 - Yunix Blog
  • PHPでMeCabのユーザー辞書を作成する

    このプログラムを実行するには、MeCab がインストールされている必要がある。MeCab の入手方法やインストール方法については公式サイトを参照されたい。 MeCabは ChaSen をもとに開発が始まった。ChaSenに比べて解析精度は同程度で、解析速度は平均3~4倍速いという。 46: //表示幅(ピクセル) 47: define('WIDTH', 600); 48: 49: //Spinner - jQuery UI を使用するかどうか 50: define('USESPINNER', TRUE); 51: 52: //コスト(初期値) 53: define('COST_DEF', 10); 54: //コスト(最小値)→コスト計算する 55: define('COST_MIN', 0); 56: //コスト(最大値) 57: define('COST_MAX', 9999); 58

  • Yahoo!ニュースの「不適切コメント対策」最前線――自然言語処理研究者に聞く、スパコンによる機械学習導入後の変化とは?

    Yahoo!ニュースの「不適切コメント対策」最前線――自然言語処理研究者に聞く、スパコンによる機械学習導入後の変化とは? 記事についてさまざまな意見が寄せられる、Yahoo!ニュースのコメント欄。コメントの投稿数は伸び続け、1日の投稿数は約40万件にのぼることも。 しかし同時に、その中には、規定のルールに反するものも……。そこで、Yahoo!ニュースのコメントプロジェクトでは、多様な意見や考えが集まる場を目指し、24時間・365日体制でのパトロールをはじめ、さまざまな取り組みを行ってきました。 さらに2019年11月からは、スーパーコンピュータ「kukai(クウカイ)」を活用した、機械学習による対策もスタート。ルール違反の1つである「記事との関連性の低いコメント」を表示させなくする仕組みを実装しました。 ここには、最先端の深層学習ベースの自然言語処理モデルが使用されているそう。技術戦略

    Yahoo!ニュースの「不適切コメント対策」最前線――自然言語処理研究者に聞く、スパコンによる機械学習導入後の変化とは?
    gengohouse
    gengohouse 2020/10/03
    自然言語処理の現場において機械学習がうまく機能している(おそらく)数少ない事例だと思う。今動いているサービスをいきなり機械学習に切り替えるのは無謀。私は少しだけ人手作業を残したほうが現実的に思える。