これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。 筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。 形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。 世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として
![形態素解析器Sudachiの「辞書」はどのように作られているか: 複数の分割単位を例として](https://cdn-ak-scissors.b.st-hatena.com/image/square/39da60bb3212e0a315df2356ad971a5c09204f07/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--VDpDetF5--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E5%2525BD%2525A2%2525E6%252585%25258B%2525E7%2525B4%2525A0%2525E8%2525A7%2525A3%2525E6%25259E%252590%2525E5%252599%2525A8Sudachi%2525E3%252581%2525AE%2525E3%252580%25258C%2525E8%2525BE%25259E%2525E6%25259B%2525B8%2525E3%252580%25258D%2525E3%252581%2525AF%2525E3%252581%2525A9%2525E3%252581%2525AE%2525E3%252582%252588%2525E3%252581%252586%2525E3%252581%2525AB%2525E4%2525BD%25259C%2525E3%252582%252589%2525E3%252582%25258C%2525E3%252581%2525A6%2525E3%252581%252584%2525E3%252582%25258B%2525E3%252581%25258B%25253A%252520%2525E8%2525A4%252587%2525E6%252595%2525B0%2525E3%252581%2525AE%2525E5%252588%252586%2525E5%252589%2525B2%2525E5%25258D%252598%2525E4%2525BD%25258D%2525E3%252582%252592%2525E4%2525BE%25258B%2525E3%252581%2525A8%2525E3%252581%252597%2525E3%252581%2525A6%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Asorami%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EtL0FPaDE0R2lkYlg1ZE5mcUVMekJHUm1PRV9xSU5WNnVfRW1FclJPQ0F4R3hJMUE9czI1MC1j%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)