タグ

PythonとPoCに関するmohnoのブックマーク (1)

  • 自然言語処理を10年ぐらいやってきた

    学業でも仕事でも趣味でも、ずっと自然言語処理をやってきた。 別に最初からAIだのNLPだのに興味があったわけじゃない。 きっかけは、学生時代にちょっとしたレポートでテキストの単語出現頻度を数えようとしたとき、「あれ、そもそも日語ってどうやって単語に分けんの?」って疑問が出たところからだ。 英語ならスペースで切れるけど、日語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。 その瞬間にちょっとハマったんだよね。 辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。 そこからMeCabとかJumanとかKyTeaとか、いろんなツールを触った。 Pythonでテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語に対応させたり。 「言葉を数理で扱え

    自然言語処理を10年ぐらいやってきた
    mohno
    mohno 2025/10/14
    「それまでチマチマ特徴量を設計して、分類器を学習して、F値を0.02上げるために夜中までパラメータをいじってたのが、全部一瞬で過去になった」/AlphaGoもそうだけど、桁違いの物量でブレークスルーが起きるんだよな。
  • 1