タグ

dictionaryに関するmanabouのブックマーク (10)

  • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

    特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

    公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
  • 電子辞書は組み込みLinuxの夢を見るか? Ver. 2.0.0

    分解のススメ 第6回 2021/1/30

    電子辞書は組み込みLinuxの夢を見るか? Ver. 2.0.0
  • PHPとPythonとRubyの連想配列のデータ構造が同時期に同じ方針で性能改善されてた話 - hnwの日記

    PHPPythonRubyの連想配列のデータ構造がそれぞれ4〜5年ほど前に見直され、ベンチマークテストによっては倍以上速くなったということがありました。具体的には以下のバージョンで実装の大変更がありました。 PHP 7.0.0 HashTable高速化 (2015/11) Python 3.6.0 dictobject高速化 (2016/12) Ruby 2.4.0 st_table高速化 (2016/12) これらのデータ構造はユーザーの利用する連想配列だけでなく言語のコアでも利用されているので、言語全体の性能改善に貢献しています1。 スクリプト言語3つが同時期に同じデータ構造の改善に取り組んだだけでも面白い現象ですが、さらに面白いことに各実装の方針は非常に似ています。独立に改善に取り組んだのに同じ結論に至ったとすれば興味深い偶然と言えるでしょう2。 稿では3言語の連想配列の従来実

    PHPとPythonとRubyの連想配列のデータ構造が同時期に同じ方針で性能改善されてた話 - hnwの日記
  • 「動作」に特化した創作者のためのシソーラス『動作表現類語辞典』

    文章を書いていて、似たような表現をくりかえすことがないだろうか。 わたしは、よくある。そんなとき役立つのは、シソーラス・類語辞典だ。関連するワードや概念を別の言葉で表現することで、ボキャブラリーを広げ、マンネリに陥らぬようにする。 よく使うのは名詞や形容詞の言い換えだが、所作や行動に特化した『動作表現類語辞典』が斬新なり。これ、小説やシナリオを書く人にとって、強力な一冊になるだろう。 見出しは全て「動詞」で、五十音順に並んでいる。 たとえば、「教える(teach)」だと……アドバイスする、補助する、承知させる、文明化する、コーチする、調子を整える、忠告する、開発する、監督する、規律に従わせる、改善する、叩き込む、強化する etc……とある。 かなりのバリエーションだが、「教える」は様々な行動になる。ありがちな「アドバイスする」から、状況により「叩き込む」こともありだ。えっちなシーンだと、「

    「動作」に特化した創作者のためのシソーラス『動作表現類語辞典』
  • New dict implementation in Python 3.6 (KLab Tech Meetup 2017-09-04)

    https://techplay.jp/event/628483 #KLabTech

    New dict implementation in Python 3.6 (KLab Tech Meetup 2017-09-04)
  • 単語分散表現のためのダウンローダを作りました - Qiita

    単語の分散表現は現在の自然言語処理で当たり前のように使われています。最近は学習済みのモデルが数多く公開されており、自分で時間とお金をかけて学習させる必要性が少なくなってきました。しかし、公開されているとはいえ自分で探してきてダウンロードするのはなかなか手間がかかります。 この手間をなくすために単語分散表現のダウンローダを作ってみました。名前は chakin です。 chakki-works/chakin (スターつけていただけるとやる気がでますm(__)m) chakinの特徴としては、Pythonで書かれておりpipでインストールできる、検索からダウンロードまでワンストップでできる、23のベクトルをサポートしている(2017/5/29時点)と言ったことが挙げられます。サポートするベクトルについては今後増やしていく予定です。 では使い方をご紹介します。 chakinの使い方 インストールは

    単語分散表現のためのダウンローダを作りました - Qiita
  • 日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run

    みなさん、和布蕪は好きですか。私はべたことがありません。 さて、MeCab は優秀な日語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。わず嫌いは感心できませんねぇ。 日語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触

    日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run
  • Perlで完備辞書(Fully Indexable Dictionary)のモジュールを書いた - EchizenBlog-Zwei

    ウェーブレット木/行列など「高速文字列解析の世界」で扱っているデータ構造やアルゴリズムは完備辞書(Fully Indexable Dictionary)を基的な道具として用いるものが多い。 とはいえ実用的な完備辞書を一から作るのは大変なので、高速文字列を読んで「ちょっとウェーブレット行列を作ってみようかな」と思ったとしても完備辞書は適当なモックで済まさないといけなかったりして面白くない。 というわけでPerlモジュールを書いた。 https://github.com/echizentm/FullyIndexableDictionary 例えば以下のような感じ。これでLOUDSもウェーブレット行列もさくさく作れますね! use FullyIndexableDictionary; my $fid = FullyIndexableDictionary->new(); $fid->set(1,

    Perlで完備辞書(Fully Indexable Dictionary)のモジュールを書いた - EchizenBlog-Zwei
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • Dec 03 2006 :: 英和辞書ひきまくる Greasemonkey スクリプト / nulog, NULL::something : out of the washer(-)

    このエントリは古いのでアテにしないでください。新しいスクリプトは userscripts.org で公開され、CodeRepos で保守されています。 mallowlabsの備忘録 - ポップアップ型英英辞書 見てて選択したらすぐ検索できるのっていいなぁと思ったので似たようなのを作ってみた。 fastlookupalc.user.js 相違点 英和 (alc) 一個ひいた後に、さらにひける。(こういう機能は英英のほうが便利だけど) 結果のタイトル (赤い部分) をクリックするとその結果だけ消えます。ドキュメント内のどっかをクリックすると全部消えます。 ダブルクリックで単語を選択するのでどんどんひける。

  • 1