タグ

組版とスクレイピングに関するotori334のブックマーク (2)

  • 姓名分割プログラムをつくる-手法編- - 生き抜くぜ21世紀

    (201701/23追記) この記事にミスが見つかりましたので是非とも訂正編もあわせてご覧になってください。すみません。 人間だれでも一度は姓名分割を自動化したくなったことがありますよね? しかしながらネットにはほんの少ししか姓名分割にチャレンジしている人がいないのが現状です。 精度もあまり高くありません。 ということで自分で姓名分割プログラムを作ってみました。 まあまあうまくいったのでブログにする次第です。 試行錯誤はけっこうしたのですが、内容がぶれるのを恐れてあくまで手法の解説記事とします。 要件 入力:篠田麻里子 出力:篠田 麻里子 のようなプログラムを作る ざっくりした方針 さて、まず絶対にやりたくなかったのが苗字・名前データベースの作成です。理由は以下です。 ・どれだけ苗字を用意すればいいのかわからない ・森、森久、森久保など苗字がどこまでなのかの判定が難しそうだったから(データ

  • darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 呪術廻戦をみて喜久福がべたくなりました *1。 今回は形態素解析について深堀りしてみます。 日語の自然言語処理において、形態素解析は必ずといっていいほど通る道です。 形態素解析を必要としないSentencePieceのような深層学習向けのtokenizerも出現していますが、品詞単位で分割する形態素解析が重要であることは変わりありません。 そんなこんなで、『実践・自然言語処理シリーズ2 形態素解析の理論と実装』 (以降「形態素解析」と表記)を読んでいます。 リンク先の目次を見て分かるとおり、基礎の部分から実装まで説明されているです。 今回は4章で紹介されている darts-clone を使って、精度は粗いが高速で分かち書きができる最長一致法で、どれぐらい分かち書きが可能かを検証します。 事前知識・辞書引き darts-cloneを使ってみる 単語辞

    darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ
  • 1