※文字コードの話ではありません
多言語対応したWebサイトを構築する際、言語をDBに入れておきますよね。
lang=ja などの言語コードは、ISO639で定義されていますが、これにはいくつかのバージョンがあります。
一般的な用途では、ISO639-1で十分です。マイナーな言語に対応する場合、最初からISO639-3でやっておくと、文字数が2文字→3文字になって焦らなくて良いかもしれません。
ISO639-1
2文字のアルファベットからなるコード。200程度の言語が定義されています。
一般によく使う、html lang=ja などの表現ですね。
例)日本語:ja、英語:en、中国語:zh
ISO639-2
3文字のアルファベットからなるコード。550程度の言語が定義されています。
ISO639-2には、bibliographic(B)とterminology(T)の2種類のコードが定義されています。多くの言語はBとTが同じですが、たとえば中国語はchi(B), zho(T)となっています。
なぜ2つあるかは、歴史的理由によるようです。詳細はこちら。
言語コードを利用するシステムを開発する際は、両方に対応できるように配慮しておく必要があります。
例)日本語:jpn、英語:eng、中国語:chi(B), zho(T)
ISO639-3
3文字のアルファベットからなるコード。7900程度の言語が定義されています。
ISO639-2にある言語は、ISO639-2(T)とほぼ同じになっているようです。
ISO639-4 ~ ISO639-6
策定中のようです。どれだけ増えるんでしょうね。
以下で、ISO639-1とISO639-2を比較・確認できます。
http://www.loc.gov/standards/iso639-2/php/code_list.php
以下で、ISO639-3を確認できます。
http://www-01.sil.org/iso639-3/codes.asp