タグ

linguisticsに関するsstのブックマーク (65)

  • トップ┃NINJAL-LWP for BCCWJ

    ■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日語学習者用基動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言と少納言が公開されていますが、NLBはコンコーダンサとは異なるレキ

  • テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜

    中年以降の人生を考えるための5冊 今までずっと、ひたすらラクなことや楽しいことだけをやって生きていきたいと思っていたのだけど、40歳を過ぎた頃から、今までのやり方ではいろいろと行き詰まってくるようになってきました。何をやってもそんなに楽しくない。これからの人生はずっと下り坂が続いてい…

    テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜
  • コンテンツを要約する画期的なiOSアプリ、16歳が開発

  • 社内セミナーで形態素解析について話しました

    持ち回りの社内セミナーが自分の番になったので、形態素解析についてまとめてみて、発表しました。係り受け解析入門に引き続き、自然言語処理チュートリアルシリーズ第2弾になります。結構ボリュームがあって、力作になってます。 今回の狙いは3つくらいありました。 ひとつは自分自身昔の文献などを読んだことがなかったので読んでみたこと。見ると、昔は多くの論文を企業の人が書いていて驚きます。初期の文献で引用したものはほとんどが企業系研究者の方の論文です。日本語入力の文脈で研究されていたからなのかな、という気がします。 もうひとつは現在の問題点と問題意識をまとめる。書いたとおり、アプリケーションに対して最適なことをすべき、という思いがあります。それは単にアプリケーションごとに形態素解析器を作るべき、ということではないです。そもそも形態素解析というソリューションは適切ですか?という問いかけです。実際に弊社では、

  • 姓名・苗字・名前一覧 - 漢字検索

    入力した漢字を含む名字や名前の一覧検索が行える無料オンライン漢和辞書です。 字典のエントリー更新は頻繁に行っているため、今日検索結果に現れなかったものが明日以降に出る場合もあります。 また、現在まだ登録されていない(検索結果に出てこない)漢字や読み方があれば、ご指摘(登録)いただけると非常に助かります。

    姓名・苗字・名前一覧 - 漢字検索
  • 単語重要度入門 〜テキストをダイエットさせよう〜

    第3回のさくさくテキストマイニング勉強会で発表を行った資料です。 TF*IDFについての解説です。 http://atnd.org/events/15873Lire moins

    単語重要度入門 〜テキストをダイエットさせよう〜
  • しゃべるのがあんまり得意でない人って思考回路が最適化されている - ひらめき箱

    しゃべるのが苦手な人って、別のとこで凄い能力を持ってる人が多いなぁって思っていて、そのことについてつぶやいたものをちょっとまとめてみました。 しゃべるのがあんま得意ではない人って、独自の思考回路を進化させまくっている人が多い。自分の思考に最適化された構造をしているから、物を憶えるのが凄い得意だったり、一人の作業が凄く早かったり質が高かったりする。つまり「自分語」で脳が動いてるので、それを公用語に翻訳するのに時間がかかる http://twitter.com/#!/fta7/status/15939525465341952 独自の思考回路を進化させてきた人にとって重要なのは「コミュニケーション能力」というよりも、その回路の独自性を更に磨き上げていきながら、そこから生産されるものをどう「言葉」に変換するか、あるいは言葉以外の何かに変換するか、ってところなんだとおもう。つまりプロトコルをどうする

    しゃべるのがあんまり得意でない人って思考回路が最適化されている - ひらめき箱
  • 地球上の様々な言語を一枚の絵で比較してみたインフォグラフィック |SEO Japan by アイオイクスSEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ

    新作のインフォグラフィックをご紹介。今回は、ITではないですがグローバルな話題を。地球上で話されている言語に着目し、色々比較統計してみました。毎月、世界で2つの言語が消滅しているって知っていましたか? — SEO Japan 日程、日語しか使われていない国も珍しいと思いますが、世界に目を向けると英語はもちろん、中国語、フランス語をはじめとして多数の言葉が使われています。そんな世界の言語事情を一枚のインフォグラフィックにまとめてみました。改めて世界の広さを(そして日の小ささも?)感じます。Enjoy! (画像をクリックすると大き目のサイズの画像が表示されます) しかしこれを見ると21世紀は中国の時代なのかぁ?!と思わずにいられないですね。とはいえ、これだけマイナーな日語、そして日語を使う日人が世界で経済その他にここまで影響力を持っていること自体が驚異的とも感じますけどね。50年後

    地球上の様々な言語を一枚の絵で比較してみたインフォグラフィック |SEO Japan by アイオイクスSEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ
  • 「漢字テスト」

    漢字テスト 漢字の読み方を「ひらがな」で、送りがな含めて入力してください。 例 「轟く」→「とどろく」 Copyright(C)2006 GAMEDESIGN

  • こんちには みさなん おんげき ですか?:ぁゃιぃ(*゚ー゚)NEWS 2nd

    http://pc11.2ch.net/test/read.cgi/prog/1238112399/ 652 名前:仕様書無しさん[sage] 投稿日:2009/05/08(金) 03:37:19 こんちには みさなん おんげき ですか? わしたは げんき です。 この ぶんょしう は いりぎす の ケブンッリジ だがいく の けゅきんう の けっか にんんげは たごんを にしんき する ときに その さしいょ と さいご の もさじえ あいてっれば じばんゅん は めくちちゃゃ でも ちんゃと よめる という けゅきんう に もづいとて わざと もじの じんばゅん を いかれえて あまりす。 どでうす? ちんゃと よゃちめう でしょ?

    sst
    sst 2009/05/08
    ケアレスミスは根性でなくせ、という人に見せたい
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

  • Webサイトの構成・文書作成のコツは「パラレリズム」:日経ビジネスオンライン

    3月17日現在、一冊のの入稿を終えて、この原稿を書いているところです。この編集作業をしていた時、Webサイトや社内文書でも、似たような間違いを犯しているのでは? と感じるポイントに気付いたのです。それは、単純なようで見落としがちなことでした。 「配慮」も最後までできていないならバツ 原稿執筆を依頼した著者さんから、シンクタンクや政府などの調査結果を掲載してほしいとデータを受け取りました。例えば、小売業の市場シェアに関するデータで、原稿に合わせる形で7種類あったのですが、そのうち2種類だけに調査した年月日が書かれていたのです。 そこで「あのー、残りの5種類も年月日をもらえないですかね?」とお願いしました。「パラレリズム」が最後まで守られていなかったからです。 パラレリズムというのは、「並列」という意味。テクニカルライティングなどでは、よく知られている手法で、内容的に並列するパラグラフや章で

    sst
    sst 2009/03/23
    読み手は、物事が並列してあるのを見ると、そこには同じ種類のものが同じ形で並んでいるだろうという「メンタルモデル」を作って予測します。それによって、後続する情報の理解が早まります。
  • 「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

    数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も

    「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
  • かんぴょう - 漢字と表記

    各メニューの御案内 表記いろいろ 日語に書き方の統一基準はない!? お手持ちの国語辞典の巻末あたりに載っていると思いますが、内閣告示・訓令の形で出されている「常用漢字表」は強制力のない目安的存在であり、「法令、公用文書、新聞、雑誌、放送など、一般の社会生活において」と適用範囲を示しているものの「科学、技術、芸術その他の専門分野や個々人」は対象外とされています。内閣告示「送り仮名の付け方」についても、適用範囲は常用漢字表と同じであり、常用漢字表にある訓読みのことしか書かれていません。常用漢字(1945文字)以外の「表外字」については、読み方や送り仮名のつけ方のよりどころ、目安さえもないのです。 そこで数種類の用字用例辞典を比較してみました。(ただし、平成22年11月30日内閣告示の新しい常用漢字表には未対応です。旧常用漢字表のままで相済みません) その他 当サイトは速記もできないのに日

    sst
    sst 2008/07/03
    本語の書き方(表記)に関すること /各社表記比較や常用漢字表+、略語など
  • 日本語形態素解析 - Japanese Morphological Analyzer

    Visited: 5294 アルゴリズムによる日形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

  • onomatopedia.net - このウェブサイトは販売用です! - onomatopedia リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    sst
    sst 2008/02/08
    全てクライアントサイドで解析を行う/辞書を使っていません
  • 誤字ェネレータを作った (polog)

    誤字ェネレータは、入力された文章に含まれている漢字を誤字に置換するアプリです。dreamhost上のRailsで動いてます。 glitchmonkeyとかその辺の技術が僕は結構好きで、glitchというかcorruptingと言うか、そう言ったノイズ系のフィルタを日語の文章にかけるのはどうしたらいいのか考えてました。一つの解は多分カットアップなんですが、それはもうきょうじんでやっていて結構いい感じなので、別のアプローチを考えてたんです。で、誤字かな、と。誤字って大抵見た目の似てる漢字を書いてしまうものなので、そういった感じの事を裏側ではやっています。 ぶっちゃけこれ僕の初めての割とまともな趣味webアプリなので、嬉しくって動画とか撮っちゃってます。使い方結構シンプルですがとりあえずこれを見て頂くと言う事で。 見ると分かると思うのですが、日語の文章なんてぱっと思いつかねえよって方の

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 漢字を類似度検索可能にする (polog)

    アイデアとしては単純で、画像情報に落としたあとで全漢字pairに対して全pixelの一致数をカウントするだけ。 これの時にはリアルに全漢字でやろうとしてたんだけど、2万字=>4億ペアなので断念した。常用漢字1945文字を対象とする。 ActiveRecordやら何やら使いたかったけど、普通にやると結構面倒だったのでrailsプロジェクト作ってscript/runnerした。 ファイル rake db:migrateで create_table :chars do |t| t.column :char, :string t.column :byte, :integer end add_index :chars, :char add_index :chars, :byteこんなのと create_table :similarities do |t| t.column :c