並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 250件

新着順 人気順

UniDicの検索結果161 - 200 件 / 250件

  • ElasticsearchでSudachiとベクトル検索を組み合わせて使う方法 ①Sudachi導入編 | 株式会社AI Shift

    こんにちはAIチームの友松です。 本記事では、ElasticsearchでSudachiとベクトル検索を組み合わせて使う方法について2回に分けて解説を行いたいと思います。今回はSudachi導入までを行いたいと思います。 Elasticsearchにおける文書検索 analyzerについて analyzerはcharacter filter, tokenizer, token filterの3つで構成されています。analyzerは文書が与えられるとcharacter filter → tokenize → token_filterの順で解析を行います。 character filter character filterはtokenizerに渡す前の前処理として文字ベースのfilterを行います。組み込みのcharacter filterは現時点で3つ存在します。 mapping-char

      ElasticsearchでSudachiとベクトル検索を組み合わせて使う方法 ①Sudachi導入編 | 株式会社AI Shift
    • 国会議案データで「ワードクラウド」を作ってみよう - Media × Tech

      スマートニュース メディア研究所では、7月1日に「国会議案データベース」を公開しました。衆議院および参議院の公式ウェブサイトから計約1万8000件以上の法律案や予算案を取得し、機械可読な形で整理されたデータベースとしてGitHubで無償提供するものです。参議院については、会派や議員、質問主意書のデータも同時に公開しました。 国会議案データベース(GitHub) 衆議院 https://github.com/smartnews-smri/house-of-representatives 参議院 https://github.com/smartnews-smri/house-of-councillors 国会議案データベース・閲覧用ページ 衆議院 https://smartnews-smri.github.io/house-of-representatives/ 参議院 https://sma

        国会議案データで「ワードクラウド」を作ってみよう - Media × Tech
      • [PDF]公開シンポジウム 「やさしい日本語」研究の現状とその展開 発表予稿集

        公開シンポジウム 「やさしい日本語」研究の現状とその展開 発表予稿集 2014 年 5 月 24 日(土) 一橋大学兼松講堂 主催 「やさしい日本語」シンポジウム実行委員会 共催 一橋大学国際教育センター 後援 公益社団法人日本語教育学会、東京日本語ボランティアネットワーク(TNVN) 目次 「やさしい日本語」研究の現状とその展開 ………庵 功雄( 1) ―ごあいさつに代えて― パネルセッション1 公的文書の書き換えをめぐって 公的文書の書き換え ………岩田一成( 3) ―語彙・文法から談話レベルへ― 重要度に応じて公的文書の圧縮を提案するシステム ………森 篤嗣( 9) 公的文書の書き換え作業を支援する言語処理システム ………山本和英・中島明則(15) 公的機関における日本語とはどうあるべきか ………宇佐美洋(21) ―不特定多数に対する対応と、「個」への対応と― パネルセッション2

        • 【頭の整理】日本での「テキストデータベース」作りの最初のあたり - digitalnagasakiのブログ

          標題の件につき、少し頭を整理するためにメモを残しておく。多分これが本来的なブログの使い方なのではないかと思うので、情報収集したい人にはあまり有益ではないかもしれず申し訳ないがご容赦いただきたい。 テキストデータベースを作る、という取組みは、テキスト研究をしているとどうしても関心を持たざるを得ない。もちろん、 テキストとして書かれたものだけを対象としたところで人間文化の何が明らかにできるのだろうか、という立場もあるとは 思うのだが、テキストほどに高度に集約的で持続性も高い情報伝達手段はなかなかないので、一定の有用性は認めてよいのでは ないかと思っている。 一方で、テキストは、Unicodeなどの文字コードに準拠して並べていけば割と高度な処理が比較的容易に可能となるので、 テキストデータベースをどういう風に作っていくかということは結構重要なのである。 もちろん、Unicodeなどが出てくる以前

            【頭の整理】日本での「テキストデータベース」作りの最初のあたり - digitalnagasakiのブログ
          • 百人一首の形態素解析 - ならば

            Ubuntu 14.04 LTSがリリースされた。 少し前には中古和文UniDicも更新されていた。 何の関係性もないけど、新しい仮想環境を作って遊んだ。 前にやったときの記事:MeCabで古文の形態素解析。 さて、小倉百人一首 第85番を解析にかけたところ、いきなり、夜もすがら、とそのまま出てきた。 解析に失敗しているのではと疑って意味を検索した(無教養)。 echo "夜もすがら 物思ふころは 明けやらで 閨のひまさへ つれなかりけり" | mecab -d ./unidic-mecab/ 夜もすがら 副詞,*,*,*,*,*,ヨモスガラ,夜もすがら,夜もすがら,ヨモスガラ,ヨモスガラ,和,夜もすがら,ヨモスガラ,ヨモスガラ,ヨモスガラ,*,*,*,*,*,*,"0,3",*,* 物 名詞,普通名詞,サ変可能,*,*,*,モノ,物,物,モノ,モノ,和,物,モノ,モノ,モノ,*,*,*,

              百人一首の形態素解析 - ならば
            • UniDic - 総合

              形態素解析辞書UniDic UniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 UniDic(現代語版)は次のダウンロードサイトから入手できます。 UniDicダウンロードサイト ↑

              • UniDic - 言語データベースとソフトウェア

                近代文語UniDic† 近代文語UniDicは、UniDic(現代語版)をもとにして近代文語文を解析できるようにした形態素解析辞書です。 近代文語UniDicについては次のページをご覧ください。 →近代文語UniDic ↑ 中古和文UniDic† 中古和文UniDicは、UniDic(現代語版)をもとにして中古の和文系資料(仮名文学作品,いわゆる古文)を解析できるようにした形態素解析辞書です。 中古和文UniDicについては次のページをご覧ください。 →中古和文UniDic

                • Japanese Tokenizer Dictionaries - Registry of Open Data on AWS

                  The Registry of Open Data on AWS is now available on AWS Data Exchange All datasets on the Registry of Open Data are now discoverable on AWS Data Exchange alongside 3,000+ existing data products from category-leading data providers across industries. Explore the catalog to find open, free, and commercial data sets. Learn more about AWS Data Exchange Description Japanese Tokenizer Dictionaries for

                  • Catalogue of Language Resources and Tools in Japan

                    [形態素解析器] [パーザ] [アノテーション支援] [可視化ツール] [検索ツール] [機械学習] [ツール(その他)] 新聞記事 毎日新聞CD-ROM 毎日新聞CD-ROM (1991年) 毎日新聞CD-ROM (1992年) 毎日新聞CD-ROM (1993年) 毎日新聞CD-ROM (1994年) 毎日新聞CD-ROM (1995年) 日経新聞CD-ROM 日経産業・金融・流通新聞CD-ROM 読売新聞CD-ROM (邦文記事) 読売新聞CD-ROM (英文記事) 朝日新聞CD-ROM 知的障害者向け新聞『ステージ』テキストデータ 注釈付きコーパス RWCテキストデータベース RWC-DB-TEXT-94-1 RWC-DB-TEXT-94-2 RWC-DB-TEXT-95-3 RWC-DB-TEXT-96-2 RWC-DB-TEXT-97-1 CRL-DB-TEXT-97-1 ED

                    • takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる

                      プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの MBROLAについてのエントリーを書こうと思っていたのですが、Unidicを使ったらどうなるだろうかと好奇心が沸いてしまって、前回作った mmtts.py を修正して使えるようにしてみました。 Unidic というのは、ChaSen や MeCab で使える 形態素解析辞書です。無料でダウンロードして使えるのですが、再配布は不可です。 http://www.tokuteicorpus.jp/dist/ Unidicは、国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されているという特徴を持ちますが、今回興味を持ったのはアクセントや音変化の情報が付加されていることです。この情報はGalateaTalkでも利用されているようです。そういうことを知ると、前回作った棒読み

                        takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる
                      • ドッグフードは割とおいしい。-- ChaIME は続くよどこまでも - 武蔵野日記

                        ChaIME というのは Preferred Infrastructure の @tkng さんと自分が作っている統計的かな漢字変換エンジンなのだが、コアエンジンだけ作って時間が取れず放置していたら、tkng さんがちょくちょくいじってくれていて、最近は進化して日常的に使えるようになったそうで、新バージョンの ChaIME で生活を始めたらしいので、自分も乗っかってみる(Eat your own dog food. という表現があるそうだが、自分で作ったものを自分で使わないとだめだ、という意味らしい)。 注: 現在まだリリースもコミットもされていません。古いバージョンは上記のリンクからデモが試せます。 tkng さんグッジョブ!! と思って書いていたら「季節」という単語が変換できないので tkng さんに調べてもらったら、どうもこの単語、NAIST-jdic には収録されていないらしい。N

                          ドッグフードは割とおいしい。-- ChaIME は続くよどこまでも - 武蔵野日記
                        • 自然言語処理の基本に関するまとめ - Qiita

                          ※2020年に発表されたGPT-3や2023年に発表されたGPT-4のようなLLM(大規模言語モデル)に関する説明は現在含まれていません。 LLMより前の自然言語処理の内容をまとめているためご注意ください。 はじめに 最近、自然言語処理始めました。 自然言語処理の分野自体、研究中ということもあり、日々情報が更新されたり、各ワードの関係性が全く分からなかったため、文章分類を軸に一通りの流れや関連するワードをまとめました。 間違った理解をしている場合は、ご指摘ください。 内容は時間が取れれば随時更新を行っています。 以下の悩みを抱えている人に役立つかと思います。 自然言語処理と機械学習を使って何かしたいけれども、一連の流れがわからない 各ワードは知っているけれども、どのように関連しているのかがわからない 流れは大体わかるけれども、具体的に何を使って何をすればよいかわからない 個々のワードで詳し

                            自然言語処理の基本に関するまとめ - Qiita
                          • PythonでMBROLAを使って日本語をしゃべらせる

                            プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの MBROLAというシステムを使って日本語をしゃべらせるスクリプトの紹介です。MBROLAはあらゆるプラットフォームに対応していますが、このスクリプトはWindows限定です。 MBROLAというものがあるのを知って、「日本語を音素に分解してくれるPythonスクリプト」というエントリーを書いたのがもう2年以上前になります。MBROLAを調べているうちに日本語を発音させるRubyスクリプトのmuDaTTSというのを知って、その頃いろいろ調べていた pythonでも似たようなことができないかと思って調べて書いたものです。このときは音素に分解するだけで満足してしまって、作業を止めてしまったのですが、最近になって音声出力の部分を完成させてみようという気になりました。まだ完全な形ではないので

                              PythonでMBROLAを使って日本語をしゃべらせる
                            • MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】

                              こんにちは!monachan_papaです。 前回までで、形態素解析の基本的なことについてやりました。 男は黙ってサッポロビールを形態素解析してみよう!【Pythonによる自然言語処理超入門】 川端康成『雪国』の冒頭を形態素解析してみよう!【Pythonによる自然言語処理超入門】 さて、このシリーズで使っている形態素解析器はMeCabを採用していますが、MeCabの辞書について今回ひとつ取り上げてみたいと思います。 MeCabの辞書とは? 形態素解析は、辞書によって行われています。とてもたくさんの単語情報を網羅したデータベースみたいなものです。このデータベースがあるからこそ初めて形態素解析ができるといえるでしょう。 import MeCab t = MeCab.Tagger() print(t.parse('男は黙ってサッポロビール')) 男 名詞,一般,*,*,*,*,男,オトコ,オトコ

                                MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】
                              • PHPから日本語形態素解析「MeCab」を使うためにコンパイル

                                前の記事ではwordpressの記事の類似ページ(関連記事)を表示するための方法を調べた。今回は実際に日本語形態素解析「MeCab」をコンパイル、インストールしてPHPから利用できるように設定してみた。 環境はCentOS 5.4, Lampp 1.7.1 まずはMeCabのコンパイル。詳しくは公式サイトを参考に。 必要なツールをインストール # yum install gcc-c++ iconvはインストール済みだった。 # tar zxvf mecab-0.98.tar.gz.gz # cd mecab-0.98 # ./configure --with-charset=utf-8 # make # make check # make install 辞書のインストール # tar xzvf mecab-ipadic-2.7.0-20070801.tar.gz.gz # cd meca

                                • コーパスツール - コーパス日本語学のための情報館

                                  はじめに コーパスデータを分析するためのツールを紹介します。 人文系にとっても比較的低コストで使えそうなコーパスツールをまとめておきます。主にWindows版です。 PCスキルは、設定および操作に要するPCの基礎知識を意味します。星の数が少ないほど設定が簡単という意味です。 データ抽出系 いわゆるコンコーダンスソフトです。比較的設定が簡単なものの順に挙げておきます。 KWIC Finder 内容:PDF/WORD/EXCEL等のファイル形式に対応したGREP検索・テキストビューア。 PCスキル:★ 入手方法:ウェブページよりダウンロード。シェアウェア(1000円)ですが、機能限定のフリーバージョンもあります。詳細はこちらから コメント:語句を単純に検索する程度なら一番簡単に使えるツールかもしれません。形態素解析を前提にしない分、あと処理に手間と時間はかかりますが、設定や操作は非常に楽です。

                                    コーパスツール - コーパス日本語学のための情報館
                                  • 複数の形態素解析器と辞書を入れた Docker コンテナを作って Python で使う - Qiita

                                    はじめに いくつかの形態素解析器(と辞書)を比較する機会があったので、まとめて動かせる環境を Docker コンテナにして Python で使えるようにしました。 やったこと 今回使ったのは、MeCab と spaCy と GiNZA の3つ、辞書は以下の通り MeCab 用の6つと spaCy 用の3つです。 MeCab で使った辞書 IPAdic UniDic(現代書き言葉版) JUMAN 辞書 NAIST-jdic mecab-ipadic-NEologd mecab-unidic-NEologd spaCy で使った辞書 ja_core_news_sm ja_core_news_md ja_core_news_lg Docker コンテナを作る これらをまとめて動かせる環境を Docker コンテナにできたら便利、というわけで、ネット上の情報1を参考にしながら、Ubuntu 20.

                                      複数の形態素解析器と辞書を入れた Docker コンテナを作って Python で使う - Qiita
                                    • ニコ動コメントコーパスでkaomoji2vecして顔文字をベクトル表現で扱う - Qiita

                                      どうも、オリィ研究所(http://orylab.com) の ryo_grid こと神林です。 今回は顔文字をベクトル表現で扱うというテーマに取り組んでみました。 いきさつ 知人がSNSで顔文字の足し算引き算というネタ(今の気持ちはこれ足すこれ、みたいな話)を書いていて、これ、word2vecならぬkaomoji2vecしたら、実際できるんじゃないか?と思ったのがきっかけ。 ちなみに 検索して分かったことですが、絵文字だと天下のプリンストン、ロンドン大学の研究者の人たちが既に論文を出しています。 今回のテーマですが、ネタと思うことなかれ、真面目な話なのです。 emoji2vec: Learning Emoji Representations from their Description https://arxiv.org/pdf/1609.08359.pdf 実装も公開されています。 h

                                        ニコ動コメントコーパスでkaomoji2vecして顔文字をベクトル表現で扱う - Qiita
                                      • 概要 UniDic

                                        UniDicは日本語テキストに形態論情報を付与するための電子化辞書です。 UniDicは国立国語研究所のコーパスの構築に利用されています。 形態素解析辞書としてのUniDic(unidic-mecab)は形態素解析器MeCabの辞書として利用できます。 UniDicの特徴 FEATURE 国立国語研究所で規定した「短単位」という揺れの少ない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 アクセントや音変化の情報を付与することができ、音声処理の研究に利用することができます(現代語用のみ)。 言語資源としてのXML版UniDic 形態素解析辞書とは別に,言語資源として使いやすいXML形式にまとめたUniDicの公開を予定して

                                        • 日本語係り受け解析器「2021年の総ざらえ」 | yasuokaの日記 | スラド

                                          自然言語処理Advent Calendar 2021を見に行ってみたところ、今年は閑古鳥が鳴いている。もはや、自然言語処理ブームが過ぎ去った、ということなのかもしれないが、それでも、今年発表された日本語係り受け解析器のうち、私(安岡孝一)の目に止まったものを「総ざらえ」してみよう。 ja-ginza-electra transformers-ud-japanese-electra-base-ginzaをベースにした日本語係り受け解析器で、GiNZAの最新モデルである。単語間係り受けのみならず、文節間係り受けもサポートしており、日本語係り受け解析器としてはダントツの性能(私見)。 SuPar-UniDic 形態素解析部に10種類のUniDicを、係り受け解析部に21種類のBERTモデルを、つなぎ換えて楽しむ日本語係り受け解析器。どれをどう繋げば性能が出るのかわかりにくいが、使い方は3月12日

                                          • Public Morphologically Tagged Corpus

                                            形態素解析済みコーパスの公開 更新履歴 青空文庫コーパスの配布形式を変更しました。内容は以前と変わりませんが、メモリの少ないPCでも動作するよう配慮されています。 (2010.6.24) 青空文庫の全テキストを検索するための設定ファイルを公開しました。 (2010.6.14) 青空文庫(茶筌+UniDic版、茶筌+IPAdic版、Juman版)を公開しました。 (2009.12.17) プロジェクト杉田玄白コーパス(茶筌+UniDic版)を公開しました。 (2009.9.14) プロジェクト杉田玄白コーパス(茶筌+IPAdic版、Juman版)を公開しました。 (2009.4.1) このページについて このページでは形態素解析済みのコーパスを公開しています。 本コーパスは、ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。 データのフォーマ

                                            • リーダビリティ測定ツール

                                              ページ上のテキストボックスに日本語のテキストを入力し、[測定]ボタンをクリックしてください。測定には「9学年用」と「12学年用」があります。 [各文字種の頻度グラフを作成] にチェックを入れると、テキスト中の「漢字」「カタカナ」「ひらがな」「記号」の割合を表す円グラフが表示されます。 テキストはセンテンスに分割され連番が振られます。 制限事項と仕様 英数字およびス空白以外の半角文字や記号はすべて対応する全角文字に変換されます。 形態素解析にMeCab(0.996)とUniDic辞書(2.1.2)、文節・係り受け解析にCaboCha(0.69)を利用しています。 以前のリーダビリティ測定ツールとは、結果が多少異なる場合があります。

                                              • 茶筌chasen-2.4.2, Darts 0.31, UniDic1.3.5のインストール

                                                最新版茶筌chasen-2.4.2をDarts 0.31、UniDic1.3.5と組み合わせてインストールしました。結構落とし穴があるようなので、参考のためにブログに記します。 Darts 0.31のインストール wget http://chasen.org/~taku/software/darts/src/darts-0.31.tar.gz tar xvzf darts-0.31.tar.gz cd darts-0.31 ./configure *configure error: C++ prerrocessor "/lib/cpp" fails sanity check などのエラーが出たら、C++のコンパイラがインストールされていないということなので、gcc-c++をインストールする。 yum install gcc-c++ そして作業再開。 make make install ch

                                                • spaCyのDependencyMatcherでレビュー文から情報を抽出してみる

                                                  これは、自然言語処理 Advent Calendar 2021の20日目の記事です。 新卒2年目のエンジニア、吉成です。 普段はフォルシアのDXプラットフォーム部・技術研究所という2つの部署に所属し、web開発と自然言語処理の二足の草鞋を履いています。二兎を追う者は一兎をも得ずという言葉もありますが、今はひーひー言いながらも二兎を追えるエンジニアを目指しています。 ところで皆さん、依存構造解析してますか? 依存構造解析は自然言語処理の実応用において重要な基礎解析の1つです。文中のどの単語(あるいは句)がどの単語(句)に依存しているか、またそれらの単語(句)間はどんな関係を持っているのか(依存構造)を解析します。一般的に依存構造解析は、文を単語や形態素に分割したり、単語や形態素に品詞のラベルを付与したりする形態素解析と呼ばれる処理の後に行われます。 (画像:「部屋から見える夜景が美しかった。

                                                    spaCyのDependencyMatcherでレビュー文から情報を抽出してみる
                                                  • 【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし

                                                    みなさんこんにちは!FOLIOアドベントカレンダーの8日目の記事です! 昨日は弊社の顧客基盤部でバックエンドエンジニアをされているmsawadyさんによる記事でした! 8日目の本記事は、FOLIO金融戦略部でコンテンツの編集&執筆をおこなっています設楽がお届けします。 この記事の目的・初心者向けに、Pythonを使ったデータ分析(自然言語処理)の初歩の初歩を伝える記事。 読者対象・Python初心者。データ分析初心者 ・アンケートとか顧客の声を分析してみたいと考えている人 私ですが、普段は弊社サービスを使って頂いているユーザー様向けに、投資や資産運用に関するいろいろな記事を執筆、編集しているという、データ分析とかプログラミングとは全然関係ない業務をおこなっています。 今回は、お客様から回答頂いているアンケートを使い、サービスがもっと良くなるためのヒントや、お客様がどういう点に困っていたり悩

                                                      【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし
                                                    • DiaParserの日本語係り受け解析をGoogle Colaboratoryで動かす | yasuokaの日記 | スラド

                                                      ネットサーフィンしていたところ、DiaParserという係り受け解析ツールを見つけた。Transformers上で、22の言語の係り受け解析をおこなえるらしいが、品詞付与をおこなわずに、元の文に対してダイレクトに係り受け解析をおこなうようだ。とりあえず、DiaParserの日本語モデルを、Google Colaboratory上でdeplacyに繋いでみよう。 !pip install deplacy diaparser fugashi unidic-lite ipadic from transformers.tokenization_bert_japanese import MecabTokenizer tokenizer=MecabTokenizer(mecab_dic="unidic_lite") from diaparser.parsers import Parser parser

                                                      • Slearp + mpaligner で発音推定 - Qiita

                                                        ちゃお……† 動機 MeCabの辞書に英語など外国語を入れると辞書のボリュームが膨大になって辞書のコンパイルに時間がかかるようになってしまいます。 その逆に、新語の発音推定 (読み推定) がしたいという需要もあります。 また、発音推定ができれば一昨年ごろに流行ったコンピュータで575判定するプログラムへの英語対応もできるようになります。 そこで今回は発音推定の一手段を紹介したいと思います。 アルファベット単語と読みのペアを抽出 UniDicからアルファベット単語と読みのペアを抽出します。 抽出用スクリプトはこちら↓ https://gist.github.com/ikegami-yukino/40a10a0e9611450b0c2a07ceb94b4b4c アラインメント ここでは mpaligner を使います。 自動読み推定(発音推定)のための文字列アライメントツールです.多対多のアラ

                                                          Slearp + mpaligner で発音推定 - Qiita
                                                        • Kuromoji(Atilika)0.9-SNAPSHOTに、NEologd(ipadic、unidic)を適用してみた話 - CLOVER🍀

                                                          Lucene Kuromojiとの組み合わせで、時々エントリを書いていますmecab-ipadic-NEologdですが、以前Kuromoji(Atilika)との組み合わせでは失敗したことがあります。 Kuromoji(Atilika)に、mecab-ipadic-neologdの辞書を適用できない?という話 http://d.hatena.ne.jp/Kazuhira/20150318/1426690374 Kuromoji http://www.atilika.org/ Kuromoji(GitHub) https://github.com/atilika/kuromoji で、このAtilikaのKuromojiなのですが、最近更新が活発なようで、masterブランチは0.9系になっています。 AtilikaのMavenリポジトリには、相変わらず0.7.7しかないのですが。 htt

                                                            Kuromoji(Atilika)0.9-SNAPSHOTに、NEologd(ipadic、unidic)を適用してみた話 - CLOVER🍀
                                                          • Topics Related to Computers and NLP

                                                            Coming soon to the master branch. Many thanks to people who helped me either through Twitter or face-to-face. http://www.slideshare.net/yoshinarifujinuma/kuromoji-fst Link to Hatena Blog ver. 最近時間ができて学びを促進させようと考えているのですが、どのように機械学習、自然言語処理、情報検索に関連する技術や研究動向を学ぶかについて考えていました。結論を先に言ってしまいますと、よく聞く「自分で疑問を持ち、自分で答えられるようにする。また細部を追ってきちんと中身を咀嚼する」になります。結構当たり前なことを書いている、と書いているうちに気がつきましたが、せっかく書いたので公開しておきます。 あるとき、「読む」

                                                              Topics Related to Computers and NLP
                                                            • Yahoo! の日本語係り受け解析Webサービス API 等 - 傀儡師の館.Python:楽天ブログ

                                                              2008.08.26 Yahoo! の日本語係り受け解析Webサービス API 等 (4) テーマ:プログラミング言語 Python を使う(336) カテゴリ:ことばの処理 ちょっと今、時間がなくてできないのだが、Yahoo! が日本語係り受け解析のWebサービス APIを公開したのね。ヤフー、係り受け解析と指定形容詞係り先検索をWebサービスで提供 等参照。 Yahoo! 日本語係り受け解析Webサービス を使って、ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 なんて作っている方がいらっしゃる。修飾はバッサリ省いちゃうのね。プログラムは Perl で書かれている。 Python だと inforno の方が Python版Yahooテキスト解析 APIライブラリを日本語係り受け解析に対応させました ってあるので、そのうち使わせていただこう。 ちなみに X

                                                              • 分類語彙表-増補改訂版データベース

                                                                国立国語研究所言語資源開発センターでは、 日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。 English 国立国語研究所 分類語彙表とは,「語を意味によって分類・整理したシソーラス (類義語集) 」です。昭和39年 (1964年) に出版された初版『分類語彙表』 (現在は絶版) は,現代日本語の本格的なシソーラスとして幅広く活用されてきました。その後,収録語数を増やした『分類語彙表 −増補改訂版−』が刊行されましたが,研究開発用にそのデータベース版を用意しました。 本データベース版は,書籍版の『分類語彙表 −増補改訂版−』(pdf)の元となったデータを加工したものです。データベースソフトに取り込めるようCSV形式になっています。レコード総数は,101,070件です (この中には,見出しの併記を分割してできたレコード及び分類項目内の意味的区切り

                                                                • CentOS5(x86_64)にGalateaTalkを入れてみた - [サ]ロンパスの日記

                                                                  いろいろ苦戦しましたが、なんとか入りました。*1 Dartsを取得 $ wget http://chasen.org/~taku/software/darts/src/darts-0.31.tar.gz $ tar zxvf darts-0.31.tar.gz $ cd darts-0.31 $ ./configure $ make $ make check $ sudo checkinstall $ sudo rpm -ivh /usr/src/redhat/RPMS/x86_64/darts-0.31.x86_64.rpm ChaSenを取得 $ wget http://jaist.dl.sourceforge.jp/chasen-legacy/26441/chasen-2.4.2.tar.gz $ tar zxvf chasen-2.4.2.tar.gz $ cd chasen-2.

                                                                    CentOS5(x86_64)にGalateaTalkを入れてみた - [サ]ロンパスの日記
                                                                  • CabochaとComainuをDockerで動かす - skozawa's blog

                                                                    下の記事を見て、研究とかで使われるツールでちょっとインストールとかが複雑なものはもうDockerで配布したほうがいいのかなと思った。 専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました - CreateField Blog なので、試しにCabochaとComainuをDockerで動かせるようにしてみた。 Cabocha(日本語構文解析器) Cabochaのインストールはそんなに複雑じゃないけど、--enable-utf8-only(CabochaというかMeCabだけど) みたいなの毎回気にしなくて良くなくなる。 今回は辞書にはUnidicを利用 docker pullして $ docker pull skozawa/cabocha-unidicdocker runすればCabochaが使えるようになる。 $ echo "太郎は花子が読んでいる本を次

                                                                      CabochaとComainuをDockerで動かす - skozawa's blog
                                                                    • 2022年最新版 Python + mecab の周辺事情 - techtekt

                                                                      データエンジニア兼バックエンドエンジニアの @kazasiki です。 今回は2022年現在のPythonおよびmecabまわりの事情をつらつらとまとめたいと思います。 日本語の自然言語処理(特に形態素解析)を扱う場合はよくお世話になるツールなのですが、mecab自体が歴史のあるツールだったり、辞書データにも栄枯盛衰があったり、ビルドが大変だったり、という感じで、初学者にはやさしくない要素が満載です。 実際に開発に使う際もプロジェクトによって環境構築や利用方法がばらついたりする可能性もあります。実際、社内でも少し問題になったことがあるので、今回ちょっと整理するための記事を書こうと思った次第です。 また、環境に依存しない記述をするように努めますが、筆者の環境はMacなのでWindowsのことはよくわかりません。そこは承知の上でお読みください。 結論 先に結論をかくと、mecab-python

                                                                        2022年最新版 Python + mecab の周辺事情 - techtekt
                                                                      • MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue

                                                                        大体はこの通りにcsvのカラムを作り直せば大丈夫ですが、似ているようで違うので、何点か注意が必要です。 見出し (TRIE 用) Sudachiには文字の正規化が必要です(参考)。 左連接ID・右連接ID Sudachiのドキュメントにunidic-mecab 2.1.2 の左文脈ID・右文脈ID参考にするように、とあるので、使っているunidic-mecabのバージョンを確認しなければいけません(UniDicの左文脈ID)。 MeCabにとっては-1は連接IDを自動推定する特殊な値です。 コスト MeCabのコストには制限がありませんが、Sudachiのコストの範囲は32767~-32767の制限があるので調整が必要です。 Sudachiにとっては-32768はコストを自動推定する特殊な値です。 品詞1~4 品詞も連接IDと同様、MeCabのunidic-mecab 2.1.2の品詞体系

                                                                          MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue
                                                                        • 辞書共通化

                                                                          辞書データの共通化 dixchange ML 辞書の共通化について、dixchange ML で議論が進められています。意見のある 方は参加していただけると幸いです。 ML は sf.jp の方に移りました。講読方法については以下を確認して下さい。 http://lists.sourceforge.jp/mailman/listinfo/dixchange-dev (knok 2003/07/22 17:44:08 JST) SourceForge.jp http://sourceforge.jp/projects/dixchange/ http://lists.sourceforge.jp/pipermail/dixchange-dev/2003-July/000001.html UniDic との比較 by komatsu http://lists.sourceforge.jp/pip

                                                                          • 文章から誰の文章かを判別してみた - Qiita

                                                                            1.はじめに 大学の時、犯罪捜査に文章の解析を使用した教授がいらっしゃっいました。 曰く、人の文章の癖は読点に出るそうです。 青空文庫の小説で読点の前の文字の割合を比較してみました。 2.やること 著作権切れの小説が青空文庫というサイトに保存されています。 ここから夏目漱石と太宰治の作品について特徴を取って比較します。 ここからの内容は全てこちらのColabで実行できます。 3.mecabのインストール 形態素解析を行うmecabというソフトがありますのでインストールします。 今回mecabは文章を区切るため使用します。 # mecabインストール apt-get install mecab apt-get install libmecab-dev apt-get install mecab-ipadic-utf8 pip install mecab-python3 > /dev/null

                                                                              文章から誰の文章かを判別してみた - Qiita
                                                                            • 4年ぶりの MSR 訪問、変わっていたものと変わらないもの - 武蔵野日記

                                                                              昨日歩き過ぎたので早めに起きられず (しかしいつも通り日本時間の夜9時に起きてしまう習性)、朝ご飯を食べつつ慌ただしくスライドを準備することに…… 朝9時半にホテルで松本先生と @neubig さんと合流し、タクシーで Microsoft Research (MSR) へ。MSR は Microsoft のメインキャンパスから少し離れたところにある (歩いたら40分くらいかかり、社員向けの無料バスが出ているくらい) のだが、ビルの名前を言っても通じないだろうと思っていたら、タクシーのドライバーはビル名だけ言って通じたようだ。すごい。 タクシーはフリーウェイである SR 520 を通って一路 MSR のある Redmond へ。この道、夕方の時間帯は異常に混んでにっちもさっちも行かなくなるのを思い出す。午前のこの時間帯は混まないと言われていたが、どうもなにかあったようで、1人しか乗っていない

                                                                                4年ぶりの MSR 訪問、変わっていたものと変わらないもの - 武蔵野日記
                                                                              • 言語処理学会第19回年次大会(NLP2013) 3日目(最終日)終了

                                                                                NLP2013の本会議3日目が終了しました。これで年次大会が終了です。来年2014年4月には20周年になるらしく、次回の年次大会等で記念イベント的なものを盛り込む予定とのこと。 今日のスケジュールは、一般セッションx2回にポスターセッションx2回。今回は口頭発表とポスター発表の割合がほぼ同等になっていて、並列度が高いです。見たい発表をあれこれ見て回れるし、直接討論しやすいので個人的には良いですが。昨日体調崩していた学生もそれなりに回復できたようで、ポスターセッションにも参加できたらしい。 今日の発表の中で個人的に面白かったのは、RSTチックな依存構造木に基づいて文章間構造を加味して要約を生成する話、入力文そのものと別途用意した教師データを同時学習するオートエンコーダの例、多職種が集まった長期間のミーティングログ分析してみた話、政治家のプロジェクト毎の参画度合い抽出したいという話、動的変化す

                                                                                  言語処理学会第19回年次大会(NLP2013) 3日目(最終日)終了
                                                                                • https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md

                                                                                    https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md