コンピュータは情報をどないな風にメモリに保持するんか?

The Unix and Internet Fundamentals HOWTO
Prev		Next

The Unix and Internet Fundamentals HOWTO

9.2. 文字

文字は、通常、ASCII (American Standard Code for Information Interchange) と呼ばれるコーディングにしたがった 7 bit の並びとして表現されはります。現在のマシンでは、128 個の ASCII 文字のそれぞれが、オクテット (octet) もしくは 8-bit のバイト (byte) の下位 7 bit を使うて表されとりまんねん。オクテットは、メモリのワード単位にまとめられはるさかい、例あげたろか、たとえばやなあ 6 字の文字列の場合、ようけとも 2 メモリワード分の場所しか取らしまへん。この ASCII 文字のコード表を見るには、Unix プロンプト上で `man 7 ascii' と打っておくんなはれ。

とはいえ、上記の段落は、ふたつの点で誤解を招くかもしれしまへん。いっちゃんはじめに、ひとつ目は、やや細かいことやけど、そやけどアンタ、オクテットちう用語や。こら、正式には間ちごてはいまへんが、実際にはほとんど使われてへんねん。大部分の人は、オクテットを バイト(byte) と呼び、バイトを 8 bit 長であると考えとりまんねん。厳密にいうと、バイトという用語は、もっともっともっともっともっともっともっともっともっと一般的な意味を持っとりまんねん。例あげたろか、たとえばやなあ、よりどエライ昔は 36-bit マシンで 9-bit バイトといった言い方もなされとったのや(もうこないな使い方は決してなされんとは思うのやけど)。

ふたつ目のより重要な問題は、全世界で ASCII 文字が使われとるわけではおまへんちうことや。事実、ようけの国では、ASCII を使うていまへん。ASCII は、アメリカ毛唐のセリフの場合には問題ありまへんのやが、他の言語の利用者が必要とするアクセント付きの文字や特殊な記号の付いた文字のようけが欠落してんねんさかいや。英国毛唐のセリフやら、ポンド記号が欠けとることから、ASCII 文字では問題が生じてまうのや。

この問題を解決したろとおもう試みは、過去にいくつもなされてきましたのや。それらはずぅぇえええぇぇええんぶ、ASCII では使われておらへん最上位 bit を使うゆうもんなんやし、それによって 256 文字セットをもうひとつ作ってしまおうゆうものや、それらのうち、もっとも広く利用されとるのが Latin-1 と呼ばれるもんや(正式には、ISO 8859-1 と呼ばれとります)。こら、 Linux, HTML および X でのデフォルトの文字セットとなっとりまんねん。 Microsoft Windows は、Latin-1 に手を加え、正式な Latin-1 では歴史的な理由から空欄とされとる箇所に左翼右翼の二重引用記号やらなんやらを追加してるんや。(これが、トラブルを引き起こす原因になっとるちう事件の解説は、demoroniser のページを御覧おくんなはれ。)

Latin-1 は、毛唐のセリフ、フランス語、ドイツ語、スペイン語、イタリア語、オランダ語、ノルウェー語、スウェーデン語、デンマーク語といった西ヨーロッパの言語を扱うもんや。せやけどダンさん、Latin-1 は、どれひとつの言語においても満足のゆく出来ではおまへんために、その結果として、Latin-2 から Latin-9 までの一連の文字セットが生まれ、これらを使うて、ギリシャ語、アラビア語、ヘブライ語、エスペラント語、セルビア・クロアチア語やらなんやらも扱っとりまんねん。ねちっこくは、ISO alphabet soup のページを御覧おくんなはれ。

究極の解決策が、Unicode (および、その双子の兄弟である ISO/IEC 10646-1:1993) と呼ばれる膨大な標準規格や。Unicode は、冒頭の 256 箇所については Latin-1 とまるっきし同じや。それ以降の 16 bit 空間には、ギリシャ、キリル、アルメニア、ヘブライ、アラビア、デヴァナーガリー(訳注：サンスクリット・ヒンディーその他を含む現代インド諸語)、ベンガル、グルムキー(訳注：パンジャブ地方の文字)、グジャラート、オーリヤ(訳注：インドの Orissa 州)、タミル、トゥルグ、カンナダ(訳注：インドの Mysore 州)、マラヤーナム(訳注：インド南西)、タイ、ラオス、グルジア、チベット、やまと仮名、現代韓国のハングル完全版、中国・やまと・韓国の表意文字 (漢字) の統一セットといった文字コードが含まれとりまんねん。ねちっこくは、 Unicode ホームページを御覧おくんなはれ。

Prev	Home	Next
コンピュータはどないして複数のプロセスが干渉しあいまへんようにしてんか?		コンピュータはどないな風にディスクに情報を保存するんか?

9. コンピュータは情報をどないな風にメモリに保持するんか?

9.1. 数字

9.2. 文字