[B! python][language] lepton9のブックマーク

lepton9 id:lepton9

pythonとlanguageに関するlepton9のブックマーク (10)

自然言語処理をサービスで活用しよう！ Sansanに学ぶ「多種多様なテキスト」からのデータ分析｜ハイクラス転職・求人情報サイトアンビ（AMBI）
自然言語処理をサービスで活用しよう！ Sansanに学ぶ「多種多様なテキスト」からのデータ分析自然言語処理をサービスに投入し、“できること”とは？名刺管理サービス「Sansan」を提供するSansan社では、名刺に記載された情報のデータ化において、自然言語処理を徹底的に活用しています。同社のデータ統括部門DSOCで日夜研究を続ける奥田裕樹さんと高橋寛治さんの2人に、サービスの裏で動く、自然言語処理のユースケースを語っていただきました。名前や企業名、電話番号、メールアドレス──。名刺のなかには、重要な個人情報がテキストの形で記載されています。そういった情報や企業のWebページ情報などを解析し、ユーザーに有効活用してもらうべく研究開発を続けているのが、法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供するSansan株式会社です。同社はいわば、日本で
lepton9 2019/02/16
python

language

technology
リンク
奴隷制を連想させるとして、Pythonで「master」「slave」といった単語が削除される | スラドデベロッパー
Pythonのバグトラッカーに、「Avoid master/slave terminology」という要望が寄せられている。これは「多様性のため」に奴隷制度を連想させる「master」「slave」という単語を削除するほうが好ましいという提案だ（Slashdot、Motherboard、Register）。そもそも「master」という単語は非常に多くの場所で使われており、たとえばバージョン管理システムGitでは「masterブランチ」という概念がある。そのため、これを変更するのは容易なことではない。また、master/slaveという単語は電子回路やソフトウェアアーキテクチャにおいて奴隷制とはまったく関係ない文脈で使われている。そして、「slave」を置き換えられる単語で適切かつ広く普及している単語はいまのところ存在しない。こういった理由から反対の声も出ていたが、最終的には「salve
lepton9 2018/09/14
python

language

society

+
リンク
B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常
1. 本Part概要前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatena blog.com 2. LDAとは 2.1 LDAのイメージ先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。このグループ1つ1つを「トピック」と呼びます。例えば、大量のニュース記事にLDAを適用する例を考えます。ニュース記事データにLDAを適用した例 LDAでは「各トピック（トピック数は予め指定）における各単語の所属確率」が算出されます。理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法との理解で大丈夫です。よく勘違いされることとして以下の2点を示します。トピック数（いくつ
lepton9 2018/07/31
python

music

language

machinelearning
リンク
自然言語処理における前処理の種類とその威力 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? **自然言語処理に前処理は不可欠です。**テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: [Deep learning for computational biology](http://msb.embopress.org/content/12/7/878) 本記事では自然言語処理における前処理の種類とその
lepton9 2017/04/17
python

programming

language
リンク
http://www.gembook.org/2011-03-11.html
lepton9 2015/08/08
python

language
リンク
PythonのUnicodeDecodeError、UnicodeEncodeErrorを正しく理解する - hikm's blog
はじめに Pythonで日本語を扱おうとすると「UnicodeDecodeError」、「UnicodeEncodeError」に悩まされるというのをよく聞きます。私自身もこれまではエラーが発生してもなんとなく曖昧な理解で乗り切ってきましたが、以下の記事を読んで色々と調べたら自分なりにスッキリしたので、整理した内容についてサンプルコードを交えながらまとめたいと思います。 UnicodeDecodeError/UnicodeEncodeErrorに悩まないPython 2.x プログラミングなお、以下の説明はPython2.xを対象とした内容になっています（基本的な考え方はPython3でも同じです）ポイント Pythonの文字列型について文字列(str型)とユニコード文字列(unicode型)は別物「str型」純粋なバイトの列(中身はutf8でエンコードされたバイト列だったり、
lepton9 2015/08/08
python

language
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
lepton9 2014/11/04
python

programming

language

book

cc
リンク
自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！
概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ
lepton9 2014/03/10
python

language

game

neta
リンク
日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる（同窓）会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄
lepton9 2014/01/03
language

python

book

***

programming
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
lepton9 2010/11/15
programming

python

language
リンク
1