Tech Racho エンジニアの「?」を「!」に。
  • 開発

言語コードを定義したISO639についてちょっと調べてみた

※文字コードの話ではありません

多言語対応したWebサイトを構築する際、言語をDBに入れておきますよね。

lang=ja などの言語コードは、ISO639で定義されていますが、これにはいくつかのバージョンがあります。
一般的な用途では、ISO639-1で十分です。マイナーな言語に対応する場合、最初からISO639-3でやっておくと、文字数が2文字→3文字になって焦らなくて良いかもしれません。

ISO639-1
2文字のアルファベットからなるコード。200程度の言語が定義されています。
一般によく使う、html lang=ja などの表現ですね。

例)日本語:ja、英語:en、中国語:zh

ISO639-2
3文字のアルファベットからなるコード。550程度の言語が定義されています。
ISO639-2には、bibliographic(B)とterminology(T)の2種類のコードが定義されています。多くの言語はBとTが同じですが、たとえば中国語はchi(B), zho(T)となっています。
なぜ2つあるかは、歴史的理由によるようです。詳細はこちら
言語コードを利用するシステムを開発する際は、両方に対応できるように配慮しておく必要があります。

例)日本語:jpn、英語:eng、中国語:chi(B), zho(T)

ISO639-3
3文字のアルファベットからなるコード。7900程度の言語が定義されています。
ISO639-2にある言語は、ISO639-2(T)とほぼ同じになっているようです。

ISO639-4 ~ ISO639-6
策定中のようです。どれだけ増えるんでしょうね。

以下で、ISO639-1とISO639-2を比較・確認できます。
http://www.loc.gov/standards/iso639-2/php/code_list.php

以下で、ISO639-3を確認できます。
http://www-01.sil.org/iso639-3/codes.asp

CONTACT

TechRachoでは、パートナーシップをご検討いただける方からの
ご連絡をお待ちしております。ぜひお気軽にご意見・ご相談ください。