タグ

2013年9月24日のブックマーク (24件)

  • 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

    来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】 言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【/注】 第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

    極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足
  • Sign in - Google Accounts

    Sign in - Google Accounts
    nhayato
    nhayato 2013/09/24
  • 形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

    形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。 ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,

    形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室
    nhayato
    nhayato 2013/09/24
  • takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる

    プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの MBROLAについてのエントリーを書こうと思っていたのですが、Unidicを使ったらどうなるだろうかと好奇心が沸いてしまって、前回作った mmtts.py を修正して使えるようにしてみました。 Unidic というのは、ChaSen や MeCab で使える 形態素解析辞書です。無料でダウンロードして使えるのですが、再配布は不可です。 http://www.tokuteicorpus.jp/dist/ Unidicは、国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されているという特徴を持ちますが、今回興味を持ったのはアクセントや音変化の情報が付加されていることです。この情報はGalateaTalkでも利用されているようです。そういうことを知ると、前回作った棒読み

    takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる
    nhayato
    nhayato 2013/09/24
  • grepで該当する行の前後も一緒に表示するには

    grepは、デフォルトでは該当する行だけが表示される。これを、該当する行の前後の行も一緒に表示させるには「-」の後ろに表示したい行数を指定してgrepを実行する。例えば、該当行の前後3行を併せて表示する場合は、「-3」というオプションを指定する。 $ grep -n kitaura smb.conf 4:      workgroup = kitaura ←-nオプションを付けたので、4行目に該当する文字列があることが分かる $ grep -3 -n kitaura smb.conf 1-[global] 2-      coding system = euc 3-      client code page = 932 4:      workgroup = kitaura ←-3オプションによって、前後各3行も表示される 5-      server string = Samba %v

  • Webサイトで全角英数字ではなく、半角英数字を採用する理由

    Webで文章を掲載する際、英数字は半角表記で統一するのが「常識」です。ですが、なぜ全角英数字はダメで半角英数字に統一するべきなのでしょう。改めて聞かれるとついつい「そういうものだから」と答えてしまいがちではないですか? また、検索してみても、ちゃんとまとめられた記事がなかなか見つけられません。ということで、全角英数字ではなく、半角英数字を採用する理由をまとめてみました。 ※記事は技術的な検証が十分に行われておらず、誤った情報である可能性があります。あらかじめご了承ください。 全角英数字は再利用性できません たとえば、電話番号やURLが全角で表記されていると、Office製品やメーラーでリンクとして認識されません。ブラウザのアドレスバーにコピーアンドペーストしても開けず大変不便です。 全角英数字は禁則処理が行われません ブラウザでは英単語が途中で改行されないよう折り返しが行われます(禁則処

    Webサイトで全角英数字ではなく、半角英数字を採用する理由
    nhayato
    nhayato 2013/09/24
  • 日本語学会

    語学会会長選挙:結果の公告(2024年5月10日) 「日語学会倫理綱領」制定のお知らせ(2024年4月13日) 『日語の研究』第20巻1号における誤記訂正のお知らせ(お詫び)(2024年3月28日) 日語学会理事選挙:結果の公告(2024年3月25日) 英文機関誌『Language in Japan』創刊号刊行のお知らせ(2024年1月6日) 自然災害により被害を受けられた会員の年会費免除について(2024年1月6日) 「第2回中高生日語研究コンテスト」表彰作の公開について(2023年12月28日) 『日語の研究』第19巻3号における誤記訂正のお知らせ(お詫び)(2023年12月18日) 「大会発表について」(発表形態・応募要領)の改定について(2022年11月27日) 機関誌『日語の研究』はJ-STAGEにて公開中です(1巻1号~。刊行から6か月後,オープンアクセス)。

    nhayato
    nhayato 2013/09/24
  • 言語系学会連合

    nhayato
    nhayato 2013/09/24
  • 計量国語学会(The Mathematical Linguistic Society of Japan)

    学会は、計量的または数理的方法による国語研究の進歩をはかり、 言語に関係がある諸科学の発展に資することを、目的としています。 計量国語学会は日学術会議の協力学術研究団体です。 概要 1.学会名称 計量国語学会(The Mathematical Linguistic Society of Japan) 2.創立年月日 1956年12月15日 3.目的 数理的方法による国語研究の進歩をはかり,言語に関係がある諸科学の発展に資することを,目的とする. 4.歴代代表委員・会長 渡辺 修     1957.5-1987.3 代表委員 水谷 静夫  1987.4-1995.3 代表委員 草薙 裕     1995.4-2002.3 代表委員 草薙 裕     2002.4-2005.3 会長 土屋 信一  2005.4-2009.3 会長 荻野 綱男  2009.4-2023.3 会長 山崎 誠 

    nhayato
    nhayato 2013/09/24
  • 形態素解析 - Wikipedia

    語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

    形態素解析 - Wikipedia
    nhayato
    nhayato 2013/09/24
  • 日本言語学会 -

    夏期講座2022の申し込み期間が、8月26日(金)17:00まで延長されました。 詳細はこちらをご確認下さい。□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 日学術会議では、今後20~30年頃まで先を見通した学術振興の「グランドビジョン」を示すために「未来の学術振興構想」を策定することになり、そのために「学術の中長期研究戦略」提案を公募しています。詳細についてはこちらのリンクをご覧下さい。 これを受けて、日言語学会から会長名で提出する「学術の中長期研究戦略」提案の学会内公募をいたします。応募書類、及び応募方法は以下の通りです。 応募書類: 以下の項目をA4用紙に記入したもの 1. 代表者氏名 2. 代表者連絡先メールアドレス 3. 「学術の中長期研究戦略」の名称 4. 学術振興のビジョン (1) 学術振興のビジョン概要(200字以内) (2)

    nhayato
    nhayato 2013/09/24
  • 授業資料/形態素解析 - OGI-Wiki

    形態素解析とは† どんなものか デモ: Web茶まめ (MeCab + UniDic) https://chamame.ninjal.ac.jp/ 日語の自然言語処理の基礎技術 今ではかなり枯れた技術 機械学習による言語処理のはしり 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 「形態素解析」= "Morphological analysis" morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある) 日語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る) 形態素解析の仕組み 生起コストと連接コスト その語はどれくらい出てくるか、どんな語とつながりやすいか コーパスから統計的に取得(機械学習) 経路の選択(参考:ビタビアルゴリズム) ↑ 形態素解析用ソフトウェア† 以前から使われているソフトウェア 形態素解析器(解析エ

    nhayato
    nhayato 2013/09/24
  • そもそもネットに書き込む必要ってあるの?:Geekなぺーじ

    ブログに何を書くかとか、ソーシャルメディアに書き込むリスクなどの話題が色々と盛り上がっていますが、そもそもネットに書き込む必要ってあるのかどうかに関して疑問なことも色々あります。 これまでは「積極的に書く」とか「何でも掲載する」というのがトレンドでしたが、そろそろ「書かない」ということに関しても真面目に考え始めた方が良いのではないかという気がしています(何でもネットに掲載するというトレンドは個人的には嫌いです→「情報デリカシー」)。 ということで、この文章は、主に「ブログ」について「特に理由がなければブログを書く必要がないのでは」という視点で語っていますが、ところどころソーシャルメディア全般について語っています。 アテンションを獲得して何がしたいの? 私の以前の記事(知名度ゼロからの「ネット影響力」獲得への道)は、基的に「リアル世界で知名度が必要な業種」とか「中小企業が宣伝を行うため」と

    nhayato
    nhayato 2013/09/24
  • 共働きをゆるく考えよう - Willyの脳内日記

    ここ数年、イクメンがどうだとか、育休を延長するとか、 共働き夫婦がキャリアと子育てをどうやって 両立して行けばいいのかの議論が盛んだ。 社会的、制度的な面に目を向ければ、 保育所の待機児童問題、産休の問題、 長時間労働の問題、子供が病気になった時の問題、 時短や残業不可などによる職場への影響の問題、 と一朝一夕には解決できない問題がたくさんあることはすぐに分かる。 こうした問題の中には、日独特の問題もあるけれども、 それでは、共働きの多いアメリカなどと比べて 日育児環境の方が障害が多いかと言えば、 必ずしもそういうわけではない。 例えば、保育所の待機児童問題は日独自だけれども、 一方で米国のプリスクールや託児所の保育料は桁違いに高いし、 私の住んでいるような典型的なアメリカの地方都市では、 午後6時半以降も子供を預かってくれる託児所は皆無だ。 また、子供との移動は車社会の米国の方が

    nhayato
    nhayato 2013/09/24
  • 日本語圏特化型ag -白金- の配備が完了しました

    かねてより開発を続けていたパターンマッチ検索sg (日語圏特化型ag) の配備が完了したので、その経緯と仕様を以下に記す。 開発経緯 パターンマッチ戦線に鳴り物入りで配備されたUTF8連合の誇るagだったが、極東戦線において、旧式日語文字セットを散りばめ潜伏するEUC-JP/Shift-JIS軍の極東迷彩の前に、その索敵機能を充分に発揮できないことが判明するや一気に劣勢化。戦線から離脱しつつあった。 事態を重く見たUTF8連合極東支部開発主任は、UTF8ディテクション機能を応用したEUC-JP/Shift-JISディテクション機能を追加、日語圏仕様の改良型を開発した。[開発コード legacy-0.1] 戦線投入のため、同支局によりHomeBrew化が加えられるも、入出力機構が従来型のため活躍の範囲は限定された。 後に入出力機構にiconvを組み込み、旧式日語文字セットの自動検出に

    日本語圏特化型ag -白金- の配備が完了しました
    nhayato
    nhayato 2013/09/24
  • 河南快三预测-在线投注平台

    通讯地址:贵州省安顺市开发区学院路25号  邮编:561000 Copyright © 2012-2014 黔ICP09002237号 版权所有: 体彩排列5走势图 电话:0851-32214230  传真:0851-32214631  网络管理员 E-mail: 体彩排列5走势图

    nhayato
    nhayato 2013/09/24
  • GitHub - tarowatanabe/expgram: expgram: an ngram toolkit with succinct storage

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - tarowatanabe/expgram: expgram: an ngram toolkit with succinct storage
    nhayato
    nhayato 2013/09/24
  • ほぼ日刊イトイ新聞 - 婦人公論 井戸端会議

    ダジャレの未来 (全4回) “おやじギャグ”が嫌がられるのはなぜ? 「寒~い」は、ほめ言葉である? ダジャレの名手、ダジャレマシン研究者、 かく語りき! ゲスト 小田島雄志 松澤和光 構成:福永妙子 写真:和田直樹 (婦人公論2000年9月22日号から転載) 小田島雄志: 英文学者、演劇評論家、 翻訳家。 1930年生まれ。 東京大学名誉教授。 文京女子短期大学教授、 東京芸術劇場館長をつとめる。 シェイクスピアの個人全訳 『シェイクスピア全集』 を始め、 イギリス現代戯曲や 評論の翻訳書、著書多数。 近刊に 『駄ジャレの流儀』 がある。 松澤和光: 神奈川大学教授。 1953年生まれ。 東京工業大学大学院修士課程 修了、 電電公社武蔵野電気通信研究所 入所。 NTT(株) サービスインテグレーション 基盤研究所主幹研究員を経て 現在に至る。 工学的アプローチから、 ことばと知能や コミュ

    nhayato
    nhayato 2013/09/24
  • 理系女子のキャンパストーク! | 神奈川大学 工学部 電気電子情報工学科

    今日は理系女子学生の音を聞き出す座談会ということで、みんなにいろいろ聞いてみたいと思います。まずは、みんながこの学科を選んだ理由と、実際に入学してからの印象を聞いてみようかな? 私は高校生のときにコンピューターを好きになり、ハードとソフトの両方を学べる大学を探しました。そのふたつを別々に学べる学校はいくつもあったのですが、一緒に学べる数少ない学科がここだったというのが決め手になりましたね。実際の学科の印象は、授業でわからないことがあってもすぐに質問できるし、授業中に率先して質問しても、詳しく説明してくれるところがよかったです。何かわからないことがあったときに、とても聞きやすい雰囲気です。 確かにこの学科には、情報系から電気系まで色々な分野の研究室が揃っているから、さまざまな分野の勉強が同時にできるよね。授業の体制にしても、学科の定員としては180人だけど、AとBのふたつのクラスに分かれて

    nhayato
    nhayato 2013/09/24
  • コンピューターにダジャレを教える

    駄洒落の歴史は古い。適当な言葉の語源を調べていると江戸時代の駄洒落に行き当たることがあるし、平安時代の短歌にも今で言う駄洒落みたいなのがいっぱい入っている。 人類はいったい何年、駄洒落を作っているのだ。そろそろ駄洒落くらい機械に作らせて、空いた時間で二度寝とかしようぜ。 インターネットユーザー。電子工作でオリジナルの処刑器具を作ったり、辺境の国の変わった音楽を集めたりしています。「技術力の低い人限定ロボコン(通称:ヘボコン)」主催者。1980年岐阜県生まれ。 『雑に作る ―電子工作で好きなものを作る近道集』(共著)がオライリーから出ました! 前の記事:野良バーコードを読む > 個人サイト nomoonwalk 駄洒落といってもいろいろあるが、今回言ってるのはこういうやつである。 ・江戸川乱歩(エドガー・アラン・ポー) ・ハイファイ新書(解体新書) ・水曜どうでしょう(金曜ロードショー)

    コンピューターにダジャレを教える
    nhayato
    nhayato 2013/09/24
  • JR北海道の沿革と概況

    夏休み前から連日のようにJR北海道の事故がお茶の間をお騒がせしておりますこれはひとえに、国鉄分割民営化により知識と技術の継承が途切れたからです 今から26年前、1987年に国鉄は分割民営化されましたこの時、社員を目一杯抱え込んで発足したため、JR各社は長らく新規採用をやめましたこれでは教育が途絶えざるを得ませんでした 日と同時期に国鉄を民営化した多くの国では、技術が失われたことによる事故が続発して見直しが行われました一方日は民営化に起因する事故も信楽高原鉄道事故しか見られず、世界でもっとも成功した国鉄民営化だと考えられてきましたしかしどうやら、国鉄マンの生き残りがJRを支え続けていたにすぎなかったようです国鉄で鍛えられた彼らがJRを去る日が来ると、JRの現場は誰も気づかないうちに静かに崩壊してしまっていましたそれゆえに、諸外国、最も典型的にはイギリスが直面したような、技術の継承が失われ

    nhayato
    nhayato 2013/09/24
  • pythonでオフィス快適化計画

    タイトル: 『OpenID ConnectとAndroidアプリのログインサイクル』 概要: GoogleやFacebook、Yahoo! JAPANの提供するOAuth、OpenID Connectのシングルサインオン(SSO)を利用する上でトークン、ログイン状態の管理が必要になります。ログイン、ログアウトに加えアプリによってはマルチアカウント利用やアカウント切り替えを必要とするケースもあります。スマフォアプリではネイティブ、WebViewでSSOの認証方法が異なり、実装パターンは多岐にわたります。 これまでID連携の設計や実装サポートしてきたナレッジをもとに、AndroidアプリにおけるSSOからログイン状態の管理まで、アプリの要件にあった実装方法をご紹介します。 Developers Summit 2015 【19-C-5】 Feb. 19, 2015 URL: http://eve

    pythonでオフィス快適化計画
  • だいがくものがたり

    だいがくものがたり

    だいがくものがたり
    nhayato
    nhayato 2013/09/24
  • mxcl

    MAX HOWELL is a legendary open source developer. Creator of Homebrew, used by tens of millions of developer around the world. Founder of tea protocol a decentralized technology protocol that enables open source developers to be rewarded for their software contributions for the benefit of all humanity. He is known for his careful approach to software development that results in delightful products

    mxcl
    nhayato
    nhayato 2013/09/24