[B! mecab][python] manabouのブックマーク

日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました | Amazon Web Services

Amazon Web Services ブログ日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

manabou 2020/10/10

リンク

自然言語処理の前処理・素性いろいろ - Debug me

ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize

manabou 2018/05/30

リンク

【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita

はじめに固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項理論的な話は一切出てきません。理論を知りたい方は他を当たってください。対象読者固有表現抽出を少しは知っている方固有表現抽出器を作ってみたい方 Pythonコードを読める方固有表現抽出とは？ここでは、固有表現抽出の概要と方法について説明します。概要固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。上記の文に含まれる固有表現を抽出すると人名と

manabou 2016/02/03

python
mecab

リンク

moco(beta)'s backup: PyConJP で janome の発表をしてきました

10/9 - 12 に開催された PyConJP 2015 で、「Python で作って学ぶ形態素解析」というタイトルで janome の発表をさせていただきました。スタッフの皆様、聞きに来てくださった方々、ありがとうございました。発表スライド終わってから、スゴい緊張してたねーと色んな方に言われましたがｗ、良い経験になりました。内容は初歩的なもので、詳しい人には面白くないだろうなあと思いつつ、今まで言語処理に触れる機会がなかった方向けに、何か持ち帰ってもらえればいいなと思ってスライドを作りました。 Togetter まとめてもらえた。ありがとうございます！【すもも】Pure Python 実装 janome のアルゴリズムから学ぶ形態素解析入門 #PyConJP_C #pyconjp 発表して良かったことこのPRをくれた nakagami さんとお会いできた。なんだか「神PR

manabou 2015/10/22

リンク

Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web

検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏作者:山田浩之,末永匡発売日: 2014/09/25メディア: 単行本（ソフトカバー） (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析検索エンジンの構築データをMongo DBに格納 Fl

manabou 2014/11/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

mecabとpythonに関するmanabouのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス