HTML
HTML-KOULUTUSTA VUONNA 2025!
Kurssit saatavilla kautta Suomen. Tule ja varaa oma koulutustapahtumasi heti! Koulutuksen järjestää asiantuntijasi Koulutus- ja konsultointipalvelu KK Mediat.
Miksi merkistöllä on merkitystä HTML-tiedostossa?
Koska Internet on globaali ja monikielinen ympäristö, HTML-tiedostojen on tuettava useita merkistöjä ja kirjoitusjärjestelmiä. HTML ratkaisee tämän määrittämällä merkistökoodauksen tiedostotasolla. Yleisin ja suositelluin merkistökoodaus HTML:ssä on UTF-8. Sen käyttö takaa, että esimerkiksi aksenttimerkit, umlaut-kirjaimet ja muut kielikohtaiset symbolit näkyvät oikein, riippumatta käyttäjän sijainnista tai selaimen asetuksista.
Mikä on enkoodaus?
Merkistö, eli enkoodaus, on standardi, joka määrittelee miten kirjoitusjärjestelmään kuuluvat merkit tallennetaan konekoodina eli binaarinä.
Historiallisista syistä merkistöjä on olemassa satoja erilaisia, mutta käytännössä vain muutamia yleisiä käytetään nykyään aktiivisesti:
- UTF-8: yleisin vaihtoehto, kattaa enemmistön globaalisti käytetyistä merkeistä
- ISO-8859-1: länsi-Eurooppalaiset kirjaisimet (sisältää ääkköset)
- Windows-1252: länsimaalainen Windows-merkistö (sisältää ääkköset)
- ISO-8859-5: kyrillinen kirjaimisto (Venäjä)
Merkistöä voi verrata näppäimistöön. Jos käytössäsi on vaikka norjalainen näppäimistö, suomenkielisten Ä:n ja Ö:n sijainnissa ovatkin merkit Æ ja Ø. Koska merkkeillä on sama looginen "sijainti" eri kielten merkistöissä, väärän enkoodauksen käyttö voi aiheuttaa tilanteen jossa suomeksi kirjoitettu sana "ääkkönen" korvautuisi sanalla "æækkønen.
Mitä merkistöä HTML-tiedostoissa kannattaa käyttää?
Nykyään HTML-tiedostot tulisi tallentaa ensisijaisesti UTF-8-merkistöllä. UTF-8 tukee yli 140 000 kirjoitusmerkkiä, mukaan lukien myös suomen kielen erikoismerkit (ä, ö, å).
Poikkeustilanne edellä mainittuun sääntöön on tilanne, jossa verkkopalvelimen (kuten Apache) tuki UTF-8 merkistölle on syystä tai toisesta disabloitu. Varmista aina, että HTTP-palvelin on konfiguroitu tukemaan UTF-8-merkistöä, jotta vältät nämä ongelmat.
Jos työskentelet vanhojen HTML-tiedostojen parissa, voi olla tarpeen tuntea myös vanhemmat merkistöt, kuten ISO-8859-1 ja Windows-1252. Näitä käytettiin Suomessa ja Pohjoismaissa ennen UTF-8:n yleistymistä. Vanhat tiedostot kannattaa pyrkiä muuntamaan UTF-8-muotoon.
HTML-tiedoston käyttämän merkistön voi vaihtaa ja tarkastaa esimerkiksi NotePad++-ohjelmassa.
Valitse ylävalikosta kohta Encoding
, niin näet käytetyn merkistön ja mahdolliset vaihtoehdot sille.
Mitä tapahtuu, jos HTML-tiedoston merkistö on väärä?
Jos HTML-tiedoston rakenteessa kuvattu merkistötieto ei vastaa merkistöä jolla tiedosto on oikeasti tallennettu, selain näyttää erikoismerkit väärin.
Jos tiedosto on esimerkiksi tallennettu ISO-8859-1 -merkistöllä, mutta HTML-dokumentissa on määritetty UTF-8 (<meta charset="UTF-8">
), selain yrittää tulkita ISO-8859-1 -tavuja UTF-8 -sääntöjen mukaan.
Tällöin sivulla näkyy kysymysmerkkejä tai ruutuja ääkkösten ja muiden ASCII:n ulkopuolisten merkkien tilalla.
Esimerkiksi sana "ääkkönen" voikin näyttää sanalta "ääkkönen" tai "��kk�nen".
Virhetilanteissa tiedostonkoodauksen varmistaminen on ensisijainen toimenpide.
Tarkista, että tiedoston tallennuksessa käytetty merkistö on identtinen HTML-dokumentin meta
-elementtin merkistömäärityksen kanssa.
Joskus ongelma ei välttämättä ole tiedoston itsessään, vaan syy voi olla HTTP-palvelimen palauttama virheellinen merkistötieto.
Entä erikoismerkit?
Vaikka UTF-8 kattaa suuren osan yleisesti käytetyistä merkeistä, tietyt erikoismerkit HTML-tiedostoissa tulisi kirjoittaa nk. entiteetti-rakenteen avulla. Näin tulisi toimia, jotta HTML ei sekoittaisi niitä koodin osaksi. Esimerkiksi:
<
tulisi kirjoittaa HTML-tiedoston tekstisisällössä<
>
tulisi kirjoittaa HTML-tiedoston tekstisisällössä>
Tämä on tärkeää, koska <
ja >
ovat HTML-kielen varaamia merkkejä.
Niiden avulla merkitään elementtejä kuvaavat tagit, kuten <html>
.