ASCII, UTF-8, ISO-8859 ... Jūs, iespējams, esat redzējuši šos dīvainus apzīmējumus, kas peld pāri, bet ko viņi patiesībā nozīmē? Lasiet tālāk, izskaidrojot, kāda ir rakstzīmju kodēšana un kā šie akronīmi attiecas uz vienkāršu tekstu, ko mēs redzam uz ekrāna.
Kad mēs runājam par rakstisko valodu, mēs runājam par burti, kas ir vārdu veidojošie bloki, kuri pēc tam izveido teikumus, punktus utt. Burti ir simboli, kas pārstāv skaņas. Kad jūs runājat par valodu, jūs runājat par skaņu grupām, kas apvienojas, lai veidotu kādu nozīmi. Katrai valodu sistēmai ir sarežģīts noteikumu un definīciju kopums, kas regulē šīs nozīmes. Ja jums ir vārds, tas ir bezjēdzīgi, ja vien jūs nezināt, no kādas valodas tā ir, un jūs to lietojat ar citiem, kuri runā šajā valodā.
(Grantas, Tulu un Malayalam skriptu salīdzinājums, Vikipēdijas attēls)
Datoru pasaulē mēs izmantojam terminu "raksturs". Raksts ir sava veida abstrakts jēdziens, kas definēts ar specifiskiem parametriem, bet tas ir pamata jēgas vienība. Latīņu valoda "A" nav tāda pati kā grieķu "alfa" vai arābu "alifs", jo viņiem ir atšķirīgi konteksti - viņi ir no dažādām valodām un ir nedaudz atšķirīgi vārdos - tādēļ mēs varam teikt, ka tie ir dažādi rakstzīmes. Simbola vizuālo attēlojumu sauc par "glifu", un dažādas glifu kopas sauc par fontiem. Grupu rakstzīmes pieder pie "set" vai "repertuāra".
Kad jūs ierakstāt punktu un maināt fontu, jūs nemaināt burtu fonētiskās vērtības, jūs maināt to izskatu. Tas ir tikai kosmētikas līdzeklis (bet ne mazsvarīgi!). Dažās valodās, piemēram, senajā Ēģiptē un ķīniešu valodā, ir ideogrammas; tie attēlo veselas idejas, nevis skaņas, un to izteikumi laika gaitā un attālumā var mainīties. Ja jūs aizstājat vienu rakstzīmi citam, jūs aizstājat ideju. Tas ir vairāk nekā tikai burtu mainīšana, tas maina ideogrammu.
(Vikipēdijas attēls)
Kad tastatūrā ievadāt kaut ko vai ielādējat failu, kā dators zina, ko parādīt? Tas ir rakstzīmju kodējums. Teksts datorā faktiski nav burts, tas ir virkne pāra burtu un ciparu vērtību. Rakstzīmju kodēšana darbojas kā atslēga, kuras vērtības atbilst tām rakstzīmēm, tāpat kā ortogrāfija nosaka, kuras skaņas atbilst kādām burtiem. Morzes kods ir sava veida rakstzīmju kodējums. Tajā paskaidrots, kā garu un īsu vienību grupas, piemēram, pīkstieni, ir rakstzīmes. Morzes kodā rakstzīmes ir tikai angļu burti, cipari un pilnas pieturas. Ir daudzi datora rakstzīmju kodi, kas tulko burtu, ciparu, zīmju zīmes, pieturzīmes, starptautiskos simbolus utt.
Bieži vien šajā tēmā tiek lietots arī termins "kodu lapas". Tie būtībā ir rakstzīmju kodi, kurus lieto konkrēti uzņēmumi, bieži ar nelielām izmaiņām. Piemēram, Windows 1252 koda lapa (agrāk dēvēta par ANSI 1252) ir modificēta ISO-8859-1 forma. Viņi galvenokārt tiek izmantoti kā iekšēja sistēma, kas attiecas uz standarta un modificētiem rakstzīmju kodiem, kas ir raksturīgi vienām un tām pašām sistēmām. Agrāk rakstzīmju kodēšana nebija tik nozīmīga, jo datori savstarpēji nesazinoties. Tā kā internets kļūst arvien svarīgāks un tīklu veidošana ir izplatīta parādība, tā ir kļuvusi arvien svarīgāka par mūsu ikdienas dzīvi bez mums, to pat neapzinot.
(Attēls no sarah sosiak)
Tur ir daudz dažādu rakstzīmju kodējumu, un tam ir daudz iemeslu. Kāda rakstzīmju kodēšana, kuru izvēlaties lietot, ir atkarīga no jūsu vajadzībām. Ja jūs sazināties krievu valodā, ir lietderīgi izmantot rakstzīmju kodējumu, kas atbalsta kiriliku. Ja jūs sazināties Korejā, tad jūs vēlaties kaut ko, kas labi atbilst Hangul un Hanja. Ja jūs esat matemātiķis, tad jūs vēlaties kaut ko, kas labi atspoguļo visus zinātniskos un matemātiskos simbolus, kā arī grieķu un latīņu valodas glifus. Ja jūs esat prankster, varbūt jūs gūtu labumu no otrā teksta. Un, ja vēlaties, lai visi šāda veida dokumenti tiktu apskatīti kādā konkrētā personā, jūs vēlaties, lai šifrēšana būtu diezgan izplatīta un viegli pieejama.
Apskatīsim dažus no visbiežāk sastopamajiem.
(ASCII tabulas fragments, attēls no asciitable.com)
(Tibetas skripta fragments, Unicode v4, no unicode.org)
Nu, ASCII darbojas lielākajai daļai angļu valodas runātāju, bet ne daudz. Biežāk jūs redzēsit ISO-8859-1, kas darbojas vairumā Rietumeiropas valodu. Pārējās ISO-8859 versijas darbojas kirilicas, arābu, grieķu vai citu specifisku skriptu veidā. Tomēr, ja jūs vēlaties parādīt vairākus skriptus tajā pašā dokumentā vai tajā pašā tīmekļa lapā, UTF-8 ļauj daudz labāk saderību. Tas arī ļoti labi darbojas cilvēkiem, kuri izmanto pareizas pieturzīmes, matemātikas simbolus vai aploksnes rakstzīmes, piemēram, laukumus un izvēles rūtiņas.
(Vairākas valodas vienā dokumentā, screenshot of gujaratsamachar.com)
Tomēr katram komplektam ir trūkumi. ASCII ir ierobežots ar tā pieturzīmēm, tādēļ tas nedarbojas neticami labi tipogrāfiski pareiziem labojumiem. Kāds veids kopēt / ielīmēt no Word tikai, lai būtu daži dīvaini kombināciju glyphs? Tas ir ISO-8859 trūkums, vai pareizāk, tā iespējamā sadarbspēja ar OS-specific koda lapām (mēs skatāmies uz JUMS, Microsoft!). UTF-8 galvenais trūkums ir nepietiekams atbalsts lietojumprogrammu rediģēšanai un publicēšanai. Vēl viena problēma ir tāda, ka pārlūkprogrammas bieži neinterpretē un vienkārši parāda UTF-8 kodētā rakstzīmju baitu secības atzīmi. Tas noved pie nevēlamu glifu parādīšanas. Un, protams, deklarējot vienu kodējumu un izmantojot rakstzīmes no citas, nedeklarējot / nepiesaistot tās pareizi tīmekļa lapā, pārlūkprogrammām ir grūti padarīt tos pareizi un meklētājprogrammās tos pareizi indeksēt.
Saviem dokumentiem, manuskriptiem un tā tālāk varat izmantot visu, kas jums nepieciešams, lai veiktu darbu. Ciktāl tīmeklī iet, šķiet, ka lielākā daļa cilvēku piekrīt izmantot UTF-8 versiju, kurā netiek izmantots baitu pasūtījumu marķējums, bet tas nav pilnībā vienprātīgs. Kā redzat, katram rakstzīmju kodam ir savs lietojums, konteksts un stiprās un vājās puses. Kā gala lietotājam jums, iespējams, nebūs jārisina šis jautājums, bet tagad jūs varat veikt papildu soli uz priekšu, ja jūs to izvēlaties.