
世界中の自然言語についてその話者数や実情を可視化する Language Explorer がおもしろい
かなりマイナーな言語についても言及がある
今回ご紹介するのは Google Research が公開している Language Explorer というウェブサイトです。
こちらは人々が日常的に発話する自然言語をテーマにしたウェブサイトになっており、世界中で話されている膨大な自然言語について知ることができます。
学生や研究者が利用することを念頭に置いているようで、話者数がかなり少ない言語まで網羅されているようです。
リンク:
Google Research Language Explorer
日本という国にも複数の言語
今回のサイトのような体験型ウェブサイトの場合、まずは自国の内容がどうなっているのかから見てみるというひとが多いと思います。
かくいうわたしも、まず最初にやったのは日本を選択したらどういうふうに表示されるのかを確かめることでした。
Google 謹製のウェブアプリらしく検索性も担保されたインターフェースになっていますが、ドラッグ操作を行うことで目的の国を見つけることも容易にできるようになっています。

国を選択すると、画面右下にダイアログのようなインターフェースがポップアップしてくるのですが、そのなかには「該当する国や地域で話されている言語の一覧」がタイル状に並べられて表示されます。
日本の場合であれば、たとえばアイヌの言葉のような、いわゆる国の標準語とは異なる言語が並んでいたりするイメージです。
そして驚くことに、その言語の詳細を更に詳しく見ることができるようになっていて、現在の話者数やその絶滅危惧度のような指標を見ることができるようになっていますね。

実際のところ、話者数とかはどの程度信憑性がある数値なのか、またどの程度リアルタイム性の高い数値なのかはわかりません。
このサイトで提示されているデータは Google が主導したある研究論文とそれに関連したオープンソースの資料から出てきているもののようですが、ざっくりと現状を把握するという目的程度であれば十分に信用してよさそうな感じはしました。
話者数の数などのパラメータを用いてフィルタすることもできて、たしかに言語について研究しているような立場の方々であれば活用したり参考にしたりするのに、取っ掛かりとしてはいいのかもしれません。

話者数が100以下のフィルタを掛けてみるとわかるのですが、ほぼすべての国でそういった言語が存在することがわかります。
こういったいわゆるビッグデータみたいなものって「それをどう見て、捉えて、解釈するか」という一種のリテラシーみたいなものや興味がないとなかなか楽しめなかったりするものですが、自然言語という我々一般人にも身近なテーマだけに、いろいろと興味深い発見が詰まっているように感じました。
WebGL の実装としては、この手の「地図系 WebGL 実装」をやったことがあるひとなら思わず細部を観察したくなるような、ポリラインを用いた国境線の表現などが見どころかもしれませんが…… 正直に書いてしまうと、そんなにキレイなラインではないですね。
パーティクルを組み合わせてみたり、色を変化させるシェーディングが行われていたり、ビジュアル面でも工夫がされています。
ぜひチェックしてみてください。