五山送り火京都市如意ケ岳(大文字山)他、五つの山で行われるかがり火。しゃんしゃん祭り鳥取市で中心街の主要道路を利用して、地元の各団体が鈴の付いた傘を使い、きなんせ節など鳥取の唄に合わせて踊る。元は県無形民俗文化財の「因幡の傘踊り」。備中たかはし松山踊り岡山県高梁市で行われ、五穀豊穣と町家の繁栄を願って踊る。(8月14日から)木頭おどり徳島県那賀郡那賀町で行われる盆踊り 8月16日のことばをすべて見る
五山送り火京都市如意ケ岳(大文字山)他、五つの山で行われるかがり火。しゃんしゃん祭り鳥取市で中心街の主要道路を利用して、地元の各団体が鈴の付いた傘を使い、きなんせ節など鳥取の唄に合わせて踊る。元は県無形民俗文化財の「因幡の傘踊り」。備中たかはし松山踊り岡山県高梁市で行われ、五穀豊穣と町家の繁栄を願って踊る。(8月14日から)木頭おどり徳島県那賀郡那賀町で行われる盆踊り 8月16日のことばをすべて見る
インターネットの電子図書館、青空文庫へようこそ。 「青空文庫、新館引越中」 初めての方はまず「青空文庫早わかり」をご覧ください。 ファイル利用をお考えの方は、こちらをご一読ください。 「青空文庫収録ファイルを用いた朗読配信をお考えのみなさまへ」 メインエリア
P-Study System から英辞郎 第9版で 例文検索 できることを確認しました。 (2017.02.21) P-Study System Ver.8.5.2 を公開しました! (2016.05.22) ロングマン現代英英辞典 5訂版 や オックスフォード現代英英辞典 第8版 の ネイティブ音声に対応 しました。 (2013.04.27) P-Study System から英辞郎 第7版で 例文検索 できることを確認しました。 (2013.04.17) P-Study System Android版(リピたん)を公開しました! [Facebook] (2011.12.27) 英単語の覚えやすさを追求したソフト! 学習効率を向上させるためのあらゆる機能を標準搭載! いま話題の 忘却曲線理論も標準搭載! さらに、 英辞郎 第9版 による 例文の自動表示機能 → [詳細] Google イ
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =
不思議の国 SEが住んでいるところ、そこは不思議な不思議なお国柄です。 新たな国民として移住してきた人、特産物のシステムを買いに来た人など色々な人がこの国には存在します。 しかしこの国で話される言葉は 独特 です。 ぱっと聞いただけでは意味がわからなかったり、よく似た表現であっても微妙にニュアンスが違っていたり。 似たような表現を使い分けるその裏に、その人の意図や省略された文脈が隠されていたりもします。 どこの国でもコミュニケーションを間違うと非常に厄介ですが、そんなことにならぬよう、 お国言葉らしきもの をまとめてみました。 SEを代表例として、このお国言葉を話す人も、話される人も、改めて言葉の意味合いを見つめなおしてみると新たな気付きが得られるかもしれません。 なお、そんなことから 「絶対にSEしか使わない用語」を集めたわけではない のでその点ご了承くださいませ。 他言語版 @micr
言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています
文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。
「ロボットは東大に入れるか」プロジェクトでぶつかった「ある疑問」国立情報学研究所(NII)の社会共有知研究センター。 「ロボットは東大に入れるか(東ロボ)」プロジェクトで知られる人工知能(AI)の研究チームが、子どもたちの読解力テストに着手した。 なぜ、AI研究者が「読解力」に関心をもつのか。 そこには、AIの限界を探る研究の過程でぶつかった、ある疑問が関係している。 センター長の数学者・新井紀子さんに話を聞いた。 今日(11月14日)の「東ロボ 2016成果報告会」で冒頭あいさつする新井紀子教授。東ロボプロジェクトは2011年にスタートしたAIは国語が苦手――なぜ、AI研究者が「読解力」に関心を? 東ロボは、問題を解き、正解も出すが、読んで理解しているわけではない。 現段階のAIにとって、文章の意味を理解することは、不可能に近い。 そうすると、特に難しいのが国語と英語だ。 国語では、20
==ネタ編== まだ書こうとするものがはっきりと見えて来ない段階や、曖昧模糊とした「原初のスープ」にスパイスの一撃を加えたい時など、探してみて見るとよい検索たちです。 ■物語要素事典 古典、民話から小説、映画や漫画に至るまでを対象に、物語のパーツとなる「物語要素」(物語素)を拾い出し、分類、整理したもの。いわば定番的あらすじ/エピソードの集成なので、ストーリーを考えたり、必要な要素を加えたりする際のヒントになる。 (使用例)上の検索ボックスをつかって ・「"犬" site:http://www.aichi-gakuin.ac.jp/~kamiyama/」で犬が活躍する物語を探す。 ・「"雨宿り" site:http://www.aichi-gakuin.ac.jp/~kamiyama/」で雨宿りにまつわるエピソードを探す。 (サイトURL) http://www.aichi-gakuin.
音声データに登場する発言者を分類して各発言の話者を特定する「話者分類機能」、書き起こした文章の文末・表記のゆれ・誤字・脱字などを検出する「整文支援/校正支援機能」、テキスト中のカーソル位置から音声再生を開始する「自動頭出し機能」、エアコン・プロジェクターのファンノイズなどを抑える「ノイズ除去/聞きやすさ向上機能」、声の高さを変更せずに話速を調整する「話速変更」といった、「音声書き起こし」「文字起こし」などの作業を支援するための機能が満載のすさまじい完全無料音声データ書き起こし支援サービス「ToScribe」が東芝からリリースされました。 なお、現在は試験的な公開であり、2012年2月9日(木)正午までにユーザー登録した場合はその後もサービス利用が可能、とのことなので登録して使ってみました。今までもいろいろな文字起こし支援のソフトやサービスを利用してきたのですが、今回の東芝の無料サービスはか
(例文/コーパス) ◯KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言 www.kotonoha.gr.jp/shonagon/search_form 現代の日本語の書き言葉の全体像を把握できるように集められた約1億語収録の『現代日本語書き言葉均衡コーパス』をジャンルを指定したり、前後にくる言葉を指定した上で検索できる。用例を探したいときはまずここを当たる。 ◯コーパス検索ツールNINJAL-LWP for BCCWJ (NLB) nlb.ninjal.ac.jp/ 『現代日本語書き言葉均衡コーパス』を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システム。上の少納言との違いは、名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示できるところ。 たとえば「タバコ」を検索すると、用例が「タバコ+助詞+動詞」や「動詞+タバコ」+「タバコ+助詞+形容詞
5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からすると、どうにも流行り廃りがあるようです。 5chの過去ログを過去18年ほどさかのぼって取得する方法と、懐かしいネットスラングのドキュメントに占める出現具合を時系列でカウントすることで、時代の変遷でどのように使用の方法が変化したのか観測することができます。 文末に「orz」って付けたら若い人から「orzってなんですか?」と聞かれて心身共にorzみたいになってる— ばんくし (@vaaaaanquish) October 19, 2018 図1. 今回集計したorzの結果 例えば、今回集計した5chの書き込み500GByte程度のログからで
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
フランスの希代の美食家であるブリア・サヴァランは「ふだん何を食べているのか言ってごらんなさい、そしてあなたがどんな人だか言ってみせましょう」といったそうだ。これは、「ドン・キホーテ」の有名な一文「君の友人を教えなさい、そうすれば君がどういう人間か言ってみせよう」をもじったものであるが、示唆に富んだ文である。その人が何を食べるか(もっと正確に言えば、何を食べないか)によって、その人の育ちや信仰、文化的・民族的背景など様々なことを知ることが出来る。 同様に、口コミもそれを書いた人について多くを物語る。ここで試しに、以下に挙げた食べログの口コミを読んで頂きたい。 バラのクリームにたっぷりのフランボワーズをマカロンとともに。ルバーブのアクセント。コレめっちゃカワイイ(*^_^*) 一目ぼれです☆ バラにフランボワーズにマカロンにピンクときたら、女子にはたまらない~! ちょっと高めの価格設定やけど、
ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機 以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。 特に不足がちだと感じるのは「時間」に関する描写です。 季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。 しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。 計算式は、 時間描写の文の数 * 時間描写分布のエントロピー / 文の数 です。 「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。 例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。 あと時間描写というのは、一応「季節、
外国語を書くのに、すべて丸投げしておまかせできるウェブサービスは存在しない。 有料で、向こうにちゃんと翻訳できる人がいる場合でもできるのは、〈外国語で書く〉という問題解決を支援することである。 複数の情報源(ソース)から得られたものを突き合せて信頼性を高めるのが情報に関する問題解決の基本スタンスである。 どのような辞書も事典も専門家も、間違えることは必ずあるから、ひとつの情報源だけに頼ることは避けられる。 突き合わせるだけで問題が解決する訳ではないが、突合せにより浮かび上がる情報源の間の違いが、問題解決の糸口になる。 機械翻訳 英語←→フランス語、日本語←→韓国語などに比べて日本語←→英語その他の外国語の機械翻訳は、現在のところ実用レベルにはほど遠い。 しかし、とても信用できない機械翻訳も、異なる機械翻訳から得られる複数の結果を突合することで、見えてくるものがある。 ◯翻訳比較くんwith
サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは本日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp
Horn List (100 Most Common Words) 頻度順 http://www.englishcorner.vacau.com/vocabulary/hornlistfreq.html アルファベット順 http://www.englishcorner.vacau.com/vocabulary/hornlistalpha.html [出典]Horn, E. (1926), A basic writing vocabulary, 10,000 words most commonly used in writing, College of Education. Dolch List (220 Basic Sight Words) 頻度順 http://www.englishcorner.vacau.com/vocabulary/dolchfreq.html アルファベット順
概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ
三井物産は11日、アラブ首長国連邦(UAE)でアブダビ国営石油会社(ADNOC)が主導する液化天然ガス(LNG)プロジェクトへの投資を決定したと発表した。三井物産は10%出資し、設... マイクリップ登録する
米スタンフォード大学は、今秋から同大学で行われているコンピュータサイエンスの講義のうち、3つのコースをオンラインで無料公開することを発表しました。 公開されるのは、「Machine Learning」(機械学習)、「Introduction to Databases」(データベース入門)、「Introduction to Artificial Intelligence」(人工知能入門)の3コース。どのコースも今年の10月に開講し12月に終了する3カ月間の予定。コースによっては実際の講義とほぼ同様の宿題も用意され、提出すると自動採点してくれるようです。 機械学習のコースを担当するAndrew Ng准教授は発表の中で次のようにコメントしています。 “Both in the United States and elsewhere, many people simply do not have a
東京大学合格を目指し、毎年、センター試験の模試を受けてきた人工知能の「東ロボくん」が、東大合格を諦め、進路変更することを開発チームの国立情報学研究所のグループが明らかにしました。 これまで順調に成績を伸ばしてきた東ロボくんですが、教科書などの情報と検索技術によって正解にたどりつく世界史などは得意な一方、文章の意味を理解して、問題文を読み解く「読解力」がなかなか向上しませんでした。このため国語や英語などの科目では、今後の成績向上に限界があり東大合格の水準にあたる偏差値70以上にまで成績を上げることは現在の技術では難しいと判断したということで、ことしで東大合格は諦め、“進路変更”を決めました。 チームでは、「東ロボくん」よりもセンター試験模試の偏差値が低い受験生がいる背景には、読解力の問題がある可能性があると見ていて今後は、東ロボくんの研究成果を中高生の「読解力」を養う教育分野の研究などに生か
Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
英語で書かれたウェブ上のテキストを巨大な例文集(コーパス)とみなし、それを検索します。Web Service by Yahoo! Developer Network / 連絡先
ここ最近、Google翻訳がリニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。 ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。 なぜこの文が気にかかっていたかは後述する。 結果は次の通り。 "My mother is angry because my father forgot her birthday." すばらしい。 では、「母は、父が鞄を忘れたので、怒っている。」はどうだろうか。 "My mother is angry because my father forgot his bag." 完璧だ! 「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。 これこそ、利用者が翻訳に求めるものじゃないだろうか。 しかし、ここまでだった。 次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日
ディープラーニングで「インド人を右に」を理解する: Generative Adversarial Network による画像モーフィング 「インド人を右に」問題 インターネットを長く使っている方は、伝説の誤植「インド人を右に」 [1] についてご存知なのではないでしょうか。 「くお〜!! ぶつかる〜!! ここでアクセル全開、インド人を右に!」 この唐突に過ぎる意味不明な「インド人」は「ハンドル」の誤植であり、それはライターの手書きの文字が汚かったために発生したとされています。 …手書きの文字が汚かったとして、どうすれば「ハンドル」が「インド人」になるのか? 従来より、この問題について様々な考察がなされてきました。 ここでは、近年の技術の発展の成果を取り入れ、コンピュータに文字を書かせることによって「ハンドル」から「インド人」への変容についてアプローチしてみたいと思います。 # これは De
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く