Hiperteksto kaj la Tut-Tera Teksa¼o — J.C. Wells

3.4 Unikodo

Unikodo (Unicode) estas internacia norma kodo por la signoj de plej diversaj skribsistemoj, inkluzive la æinan, la japanan, la korean, la hindian, la hebrean kaj la araban. Øi kovras la cirilan, grekan kaj armenan alfabetojn. Øi entenas la latinan alfabeton kune kun æiuj kromsignitaj literoj bezonataj ekzemple por la pola, la hungara, la æe¶a kaj la latva, kaj certe ankaý por Esperanto. Æiu litero aý alia signo havas sian unikan kodonon -- 38 885 diversaj signoj en la dua eldono (1996). Por atingi tion, oni evidente bezonas pli ol la 256 kodelementojn de la okbitaj Aski-etendoj. Do Unikodo adoptis deksesbitan (du-bajtan) kodsistemon, kiu liveras pli ol 65 mil diversajn kodonojn -- sufiæe por la signoj de praktike æiuj homlingvaj skribsistemoj, kaj ankaý de diversaj teknikaj simbolaroj, ekzemple de la fonetikaj simboloj de Internacia Fonetika Asocio. La kodlibro de Unikodo estas tre dika volumo (ekzistas ankaý rete atingebla resumo).

Unikodo estas la krea¼o de konsorcio, al kiu apartenas la plej grandaj kompanioj de internacia komputado, inter kiuj IBM, Lotus, Microsoft, Sun.

emblemo de Unikodo

La unuaj 128 kodnumeroj de Unikodo (de 0 øis 127) estas precize la samaj, kiel Askio. La numeroj de 128 øis 255 egalas al Latina-1. (Tial Askio estas subkodo de Unikodo; ankaý la Askietendo Latina-1 estas subkodo de Unikodo.) Æiuj specialaj supersignitaj literoj de Latina-2, Latina-3 kaj Latina-4, plus kelkaj aldona¼oj, okupas numerojn inter 256 kaj 383. Ekzemple, nia Esperanta æ havas en Unikodo la kodonon 265. Tial principe oni povus HTML-kodi øin ĉ.

E-literoUnikodo (16-ume)Unikodo (dekume) E-literoUnikodo (16-ume) Unikodo (dekume)
Æ0108264 æ0109265
Ø011C284 ø011D285
¦0124292 0125293
¬0134308 ¼0135309
Þ015C348 þ015D349
Ý016C364 ý016D365
Tabelo 4'

La tabelo 4' montras la kodonojn de Unikodo interesajn por ni en du formoj: deksesume kaj dekume. La kodlibro de Unikodo prezentas æion nur en la deksesuma formo. Temas pri du bajtoj (bitokoj) por æiu signo, anstataý la unu bajto de etendita Askio. Deksesume, Askio okupas 0000 øis 007F, Latina-1 0000 øis 00FF. La supersignitaj latinaj literoj, kiuj mankas en Latina-1, troviøas inter 0100 (dekume, 256) kaj 017F (dekume, 383). Nia æ (dekume 265) havas la deksesuman kodonon 0109. Vidu Tabelon 5.

Unikodo 0100-107F

En Unikodo troviøas loko sinsekve por la signoj de ASCII, la etendita latina, la greka, la cirila, la araba, la hindia, la japana, la korea, la æina... (Tabeloj 6, 7). Proksimume unu triono el la 65 mil kodonoj estas ankoraý ne difinitaj, por ke estontece oni povu aldoni aliajn.

U+0-78-F
00Askio (ASCII)Latina-1 (ANSI)
01Eýrop-LatinaEtendita-Latina
02fonetika (IPA)
03kromsignojGreka
04Cirila
05ArmenaHebrea
06Araba
07-08diversaj, nedecidite
09-0FHindi(ec)a
10(eble estos Mongola)Kartvela
11-2Fdiversaj, nedecidite
30Japana (hiragana, katakana)
31-9F Æina - Japana - Korea
A0-ABnedecidite
AC-D7Korea (hangul)
D8-F8nedecidite
F9-FFspecialaj variantoj
Tabelo 6. Unikodo: diversaj skribsignaroj

Teorie, do, Unikodo prezentas tre bonan solvon al la problemo de multlingvismo en TTT. Necesas nur, ke via foliumilo kapablu kompreni Unikodon kaj montri ĝiajn signojn. Tamen... restas unu granda malavantaøo. La versioj de Netscape kaj Internet Explorer øenerale uzataj de la publiko nun, meze en 1997, ne havas tiun kapablon. (Aldono, novembro 1997: Nun Netscape 4.03 kaj Internet Explorer 4.0, kaj supozeble postaj versioj, jes havas tiun kapablon. Se vi volas provi la kapablon de via krozilo, rigardu æi tiun paøon.)

Kredeble tio þanøiøos. Oni povas elþuti Unikod-kapablan foliumilon "Tango" de la kompanio Alis. Jam ekzistas versio de Netscape, kiu povas ĝuste interpreti la tutan eýropan parton de Unikodo, t.e. la signojn de la greka, cirila kaj latina alfabetoj, æi-lasta kun æiuj bezonataj kromsignoj inkluzive la Esperantajn.

La kompanio Microsoft difinis subaron de Unikodo, nomatan WGL4, kiu estas pli-malpli precize tiu eýropa parto de Unikodo (do inkluzive la Esperantajn literojn). En Vindozo-95 jam troviøas tiparo adekvata por surkekranigi kaj elpresi la signojn de WGL4 -- mankis nur programoj kapablaj ekspluati tiun eblecon -- kaj nun Microsoft disponigas senpage per la TTT diversajn aliajn tiparojn, same adekvatajn. (Krozu tien!) Versioj de Vindozo-95 vendataj en aziaj landoj jam kompreneble havas kapablon prezenti la signojn de la æina kaj aliaj tiuregionaj lingvoj.

Oni povas profeti, ke post unu jaro la publiko disponos pri TTT-foliumiloj kapablaj montri -- se ne la tutan Unikodon -- do almenaý æion el WGL4. Tio signifas kapablon montri ankaý Esperanton, sen la bezono instali specialan tiparon.

Tre baldaý, do, Esperantaj TTT-verkistoj volos kodi la supersignitajn literojn ne plu laý Latina-3, sed laý Unikodo. En julio 1997 aperis "labormalneto" (working draft) de HTML 4.0, do la plej lasta versio de HTML. Laý øi, Unikodaj signoj povas esti referencataj aý deksesume aý dekume; la unua bezonas antaýan ikson. Do oni skribu nian æ (vidu tabelon 4') aý kiel &x0109; aý kiel ĉ. La dekuma formo þajnas pli simpla.


Interesa kurioza¼o: Invito al la Deka Internacia Konferenco de Unikodo, en 30 diversaj lingvoj, inkluzive en Esperanto.


Antaýen al Lastaj Vortoj
Revenu al Æapitro 3