Principii Unix şi Internet HOWTO: Cum ţine calculatorul meu lucruri în memorie?

10. Cum ţine calculatorul meu lucruri în memorie?

Probabil că ştiţi că totul într-un calculator este păstrat ca şiruri de biţi (cifre binare; puteţi să vă gândiţi la ele ca multe butoane mici pornit-oprit). Aici vom explica cum acei biţi sunt folosiţi ca să reprezinte literele şi numerele pe care calculatorul dvs. le mestecă.

Înainte să facem aceasta, trebuie să înţelegeţi despre lungimea cuvântului a calculatorului dvs. Lungimea cuvântului este mărimea preferată a calculatorului pentru a muta unităţi de informaţie în jur; tehnic este lungimea regiştrilor procesorului, care sunt zonele pentru depozitare pe care procesorul le foloseşte să facă calcule aritmetice şi logice. Când oamenii scriu despre calculatoare având mărimea în biţi (numindu-le de exemplu ``32 biţi'' sau ``64 biţi''), la aceasta se referă.

Majoritatea calculcatoarelor (incluzând PCurile 386, 486, Pentium şi Pentium II) au o lungime a cuvântului de 32 biţi. Vechile maşini 286 aveau o mărime a cuvântului de 16. Mainframeurile (calculatoare imense) în stil vechi aveau deseori cuvinte de 36 biţi. Puţine procesoare (precum Alpha de la fostul DEC care acum este Compaq) au cuvinte de 64 biţi. Cuvântul de 64 biţi o să devină mai obişnuit în următorii cinci ani; Intel plănuieşte să înlocuiască Pentium IIul cu un chip pe 64 de biţi numit `Merced'.

Calculatorul vizualizează memoria core ca o secvenţă de cuvinte numărate de la 0 în sus, până la o valoare mare dependentă de mărimea memoriei dvs. Acea valoare este limitată de lungimea cuvântului, din cauza căreia maşini mai vechi precum 286 trebuiau să treacă prin contorsiuni dureroase ca să adreseze cantitaţi mari de memorie. Nu o să le descriu aici; ele încă le mai creează programatorilor bătrâni coşmaruri.

10.1 Numere Numerele sunt reprezentate fie ca cuvinte sau ca perechi de cuvinte,depinzând de lungimea de cuvânt a procesorului dvs. Un cuvânt de maşină de 32 biţi este cea mai obişnuită marime.Aritmetica numerelor întregi este apropiată dar nu chiar matematicîn baza doi. Bitul cel mai nesemnificativ este 1, apoi 2, apoi 4 şiaşa mai departe ca în binarul pur. Dar numerele cu semn sunt reprezentateîn notaţia twos-complement.Bitul cel mai semnificativ este un bit de semn careface cantitatea negativă, şi fiecare număr negativ poate fi obţinutdin valoarea pozitivă corespunzătoare inversând toţi biţii.De aceasta numerele întregi pe o maşină 32 biţi sunt în intervalul-2^31 + 1 până la 2^31 - 1 (unde ^ este operatia de `ridicare la putere', 2^3 = 8). Acel al 32-lea bit este folosit pentru semn.Unele limbaje de calculator vă dau acces la aritmetică fără semn care este chiar în baza 2 doar cu numerepozitive. Cele mai multe procesoare şi unele limbaje pot să lucreze cunumere în virgulă mobilă (această capabilitateeste construită în toate cipurile procesor recente). Numerele învirgulă mobilă vă dau un interval mult mai larg de valori decâtnumerele întregi şi vă lasă să exprimaţi fracţii. Felurile în carese realizează aceasta variază şi sunt destul de complicate pentru ale discuta în detail aici, dar ideea generală asemenea aşa numitei`notaţie ştiiţifică', unde cineva ar putea să scrie (de exemplu)1.234 * 10^23; codarea numărului este împărţită într-omantisă (1.234) şi partea exponentului (23) pentrunumarul putere a lui zece.

10.2 Caractere

Caracterele sunt normal reprezentate ca şiruri de şapte biţi fiecare într-o codare numită ACSII (American Standard Code for Information Interchange - Codul Standard American pentru Interschimbare de Informaţie). Pe maşinile moderne, fiecare din cele 128 de caractere ASCII sunt cei şapte biţi mai nesemnificativi dintr-un octet de 8 biţi; octeţii sunt împachetaţi în cuvinte de memorie aşa încât (de exemplu) un şir de saşe caractere ocupă numai două cuvinte de memorie. Pentru un tabel al codurilor ASCII, tastaţi `man 7 ascii' la promptul dvs. Unix.

Paragraful precedent era înşelător în două feluri. Cel minor este că termenul `octet' este formal corect dar rareori folosit cu adevărat; cei mai mulţi oameni se referă la un octet folosind byte şi se aşteaptă ca byţii să fie de opt biţi lungime. Strict vorbind, termenul `byte' este mai general; au existat, de exemplu, maşini de 36 biţi cu byţi de 9 biţi (deşi probabil nu vor mai exista din nou).

Cel major este că nu toată lumea foloseşte ASCII. De fapt, multă lume nu poate -- lui ASCII, în timp ce este bun pentru engleza americană, îi lipsesc multe caractere cu accent sau speciale de care au nevoie folositorii altor limbi. Chiar engleza britanică are probleme cu lipsa unui semn pantru liră.

Au fost câteva încercări de a repara această problemă. Toate folosesc bitul în plus pe care ASCII nu-l foloseşte, făcându-l jumătatea joasă a unui set de 256 de caractere. Cel mai răspândit este aşa numitul set de caractere `Latin-1' (mai formal numit ISO 8859-1). Acesta este setul de caractere standard pentru Linux, HTML şi X. Microsoft Windows foloseşte o versiune mutantă a lui Latin-1 care adaugă o mică cantitate de caractere, precum ghilimele duble prentru dreapta şi stânga, în locuri pe care Latin-1 standard le lasă nefolosite pentru motive istorice (pentru mai multe detalii a necazurilor pe care aceasta le cauzează, vedeţi pagina demoroniser).

Latin-1 se ocupă de limbile europene majore, incluzând engleza, franceza, germana, spaniola, italiana, olandeza, norvegiana, suedeza, daneza. Oricum, nici aceasta nu este destul de bun, şi ca rezultat este o serie întreagă de seturi de caractere Latin-2 până la -9 pentru a se ocupa de lucruri ca greacă, arabică, evreiască şi sârbo-croaţiană. Pentru detalii, vedeţi pagina Supa alfabetului ISO (n.t. Setul de caractere pentru limba română este ISO 8859-2).

Ultima soluţie este un standard uriaş numit Unicode (şi gemenul său identic ISO/IEC 10646-1:1993). Unicode este identic cu Latin-1 în 256 din sloturile sale cele mai mici. Peste acestea în spaţiu pe 16 biţi include greacă, chilirică, armeană, evreiască, arabică, devanagari, bengali, gurmukhi, gujarati, oriya, tamil, telugu, kannada, malayalam, thai, lao, georgian, tibetană, kana japoneză, setul complet al modernei coreene hangul, şi un set unificat de ideografe chineze/japoneze/coreene (CJK). Pentru detalii, vedeţi Home Pageul Unicode

Înainte Înapoi Cuprins