タグ

nlgに関するkaorunのブックマーク (2)

  • 2019年末版 形態素解析器の比較 - Qiita

    形態素解析は日語処理の初歩であり、文を単語に分割したり、品詞や活用形、基形を分析するために行います。記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

    2019年末版 形態素解析器の比較 - Qiita
  • 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

    老舗Q&Aサービス「Yahoo!知恵袋」は、長い間あるものに悩まされてきた。規約違反ではないため削除できないが、見る人を不快にさせる内容の“グレーな投稿”である。これまで社内でパトロールを行うなど対応してきたが、同サービスの投稿は約6億件にものぼり、全てのグレーな投稿を見つけ出すことは難しかった。スーパーコンピュータ「kukai」(クウカイ)が導入されるまでは。 グレーな投稿には、中身がなく質問への回答になっていないものや、アダルトカテゴリーではないのに年齢制限が必要そうなものなどがある。ユーザー投稿型サービスだからこそ起こる問題だが「利用者から厳しい意見をいただくことも多い。どこかで線引きをする必要があった」とヤフーの丹羽達洋さんは話す。 そこで考えたのが、グレーな投稿を検出し、トップページなど人目につきやすい場所では非表示にするという対応だった。 グレーな投稿、どうやって見つける? し

    「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS
  • 1