Temat: HTML czy XHTML co to jest HTML i do czego będziesz go używał, co możesz, a czego nie możesz robić, tworząc strony WWW, czym są i do czego służą znaczniki HTML. 1. co to jest HTML HTML to skrót od angielskiego HyperText Markup Language. Powstał on w oparciu o język SGML (ang. Standard Generalized Markup Language), który jest poważnym systemem tworzenia dokumentów. Tworząc strony WWW, nie musisz wiedzieć zbyt wiele o SGML-u, ale znajomość najistotniejszej jego cechy, czyli faktu, iż jest to język opisu struktury strony a nie wyglądu konkretnych jej elementów, może okazać się pomocna. HTML opisuje strukturę strony HTML odziedziczył po swoim przodku, języku SGML, jego najistotniejszą cechę, jest językiem opisu strony a nie wyglądu poszczególnych jej elementów. Idea polega na tym, że większość dokumentów posiada pewne cechy wspólne, takie jak nagłówki, akapity czy listy. Stąd też przed rozpoczęciem pisania można określić, jakiego typu elementy będą używane i nadać im odpowiednie nazwy (patrz rys. 3.1). Rysunek 3.1 Elementy dokumentu Jeżeli kiedykolwiek korzystałeś z edytora tekstu, wykorzystującego arkusze stylów (np. Microsoft Word) lub katalogi akapitów (FrameMaker), robiłeś już coś podobnego. Każdy fragment dokumentu jest tam napisany w konkretnym, wcześniej zdefiniowanym stylu. W HTML-u zdefiniowany jest pewien określony zestaw stylów, używanych na stronach WWW: nagłówki, akapity, listy i tabele. Dodatkowo zostały zdefiniowane również pewne elementy formatowania znaków, jak, na przykład, pogrubienie. Każdy taki element posiada swoją nazwę i występuje w formie czegoś, co zostało nazwane znacznikiem. Tworząc stronę WWW, nadajesz różnym elementom strony etykiety mówiące: to jest nagłówek lub: to jest element listy. HTML nie opisuje układu strony!!!
HTML jest językiem znaczników HTML jest językiem znaczników. Pisanie w tego typu języku oznacza tyle, że praca rozpoczyna się od napisania tekstu, do którego następnie dodawane są specjalne znaczniki, umieszczane wokół słów, zdań i akapitów. Znaczniki określają różne elementy strony i dają różny efekt w różnych przeglądarkach. W języku HTML został zdefiniowany pewien zestaw znaczników, z których możesz korzystać. W żadnym wypadku nie możesz tworzyć własnych, nowych znaczników. Krótka historia znaczników HTML Podstawowy zestaw znaczników HTML, będący wspólną częścią wszystkich istniejących kombinacji, jest znany jako HTML 2.0. Jest to dawny standard języka HTML (specyfikacja jest utrzymywana i rozwijana przez W3 Consortium) i zestaw znaczników, obsługiwanych przez wszystkie bez wyjątku przeglądarki. Specyfikacja HTML 3.2 została opublikowana na początku 1996 roku. Aby ją stworzyć, do W3C dołączyło kilka firm programistycznych, w tym: IBM, Microsoft, Netscape Communications Corporation, Novell, SoftQuad, Spyglass oraz Sun Microsystems. Nowości wprowadzone w języku HTML 3.2 obejmowały przede wszystkim: tabele, aplety oraz otaczanie obrazów tekstem. Język ten był w pełni zgodny z wcześniejszym standardem HTML 2.0. Język HTML 4.0, który pojawił się w 1997 roku, zawierał wiele nowych cech, które w porównaniu z językami HTML 2.0 oraz 3.2 dawały większą kontrolę nad projektem strony. HTML 4.0, podobnie jak HTML 2.0 oraz 3.2, jest tworzony przez Consortium W3 (W3C). Zarówno Internet Explorer 4 jak i Netscape Navigator 4 obsługują znaczną część możliwości standardu HTML 4.0, jednak osoby używające wcześniejszych wersji przeglądarek nie będą mogły korzystać z niektórych możliwości HTML 4.0, takich jak kaskadowe arkusze stylów czy też dynamiczny HTML. Notatka Kaskadowe arkusz stylów oraz dynamiczny HTML to dodatkowe technologie współdziałające z HTML, których celem jest zapewnienie większej kontroli nad wyglądem stron WWW. Przyszłość z XHTML 1.0 Korzystanie z Internetu nie jest już ograniczone możliwościami sprzętowymi i oprogramowaniem komputera. Łatwy dostęp do Internetu za pomocą WebTV zachęca do spędzania wielu godzin przed ekranem telewizora. Programy zarządzające informacją osobistą (Personal Information Managers) i palmtopy umożliwiają użytkowanie Internetu w czasie podróży. Odpowiedni sprzęt komputerowy umożliwia także korzystanie z sieci osobom niepełnosprawnym. W nowym tysiącleciu Internet stał się efektywnym, powszechnie dostępnym sposobem komunikacji i edukacji. Rozwój Internetu domaga się języka znaczników bardziej elastycznego niż HTML. Zmiany podążają w kierunku XML (skrót od Extensible Markup Languge elastyczny język znaczników), składnika SGML, umożliwiającego wykorzystanie indywidualnie definiowanych znaczników. I w tym momencie na scenę wkracza XHTML 1.0. XHTML 1.0, napisany w XML, jest standardem stworzonym z myślą o przyszłości.
Technicznie języki XHTML 1.0 i HTML 4 są bardzo podobne do siebie. Znaczniki i atrybuty w nich użyte są praktycznie takie same, więc przystosowanie się do specyfikacji XHTML 1.0 wymaga spełnienia jedynie kilku prostych zasad. W niniejszej książce znajdziesz wiele rad, jak stosować różne znaczniki HTML, tak aby strony tworzone przez Ciebie były poprawnie odczytane we wszystkich przeglądarkach internetowych. Jak wygląda plik HTML Strony, stworzone w HTML-u to zwykłe pliki tekstowe (ASCII), co oznacza, że nie zawierają one żadnych informacji właściwych dla konkretnej platformy systemowej czy programowej. Mogą być odczytywane praktycznie przez każdy edytor tekstów (co w praktyce oznacza, że mogą je odczytywać wszystkie edytory tekstów, o czym jeszcze powiem w dalszej części rozdziału, w podrozdziale pod tytułem: Programy pomocne w tworzeniu plików HTML ). Plik HTML zawiera następujące elementy: * właściwy tekst strony, * znaczniki HTML, określające elementy strony, jej strukturę, sposoby formatowania i hiperpołączenia do innych stron lub informacji innego rodzaju. Większość znaczników ma następującą postać: <NazwaZnacznika>tekst</NazwaZnacznika> Nazwa znacznika (tu NazwaZnacznika) ujęta jest w nawiasy kątowe. Każdy znacznik składa się zasadniczo z dwóch części: znacznika otwierającego i zamykającego, pomiędzy którymi zawarty jest tekst, którego dotyczą. Znacznik otwierający włącza pewien sposób formatowania (nagłówek, pogrubienie itp.), a zamykający go wyłącza. Znacznik otwierający (na przykład, <p> dla początku akapitu) i znacznik zamykający (na przykład, </P> dla końca akapitu) tworzą tzw. element HTML. Znaczniki HTML to informacje zawarte w nawiasach kątowych (<>), które definiują elementy strony lub sposób ich formatowania Jednak w XHTML-u 1.0 wszystkie znaczniki muszą mieć koniec lub zakończenie. Kolejna różnica pomiędzy HTML-em 4.0 oraz XHTML-em 1.0 polega na zapisywaniu znaczników oraz ich atrybutów małymi literami. Znaczniki HTML są niezależne od wielkości liter, co oznacza, że możesz zapisywać je wielkimi, małymi bądź zarówno wielkimi jak i małymi literami. Tak więc <html> oznacza dokładnie to samo co <HTML> i <html>. W XHTML-u 1.0 sprawy mają się zupełnie inaczej, gdyż w tym przypadku wszystkie znaczniki oraz atrybuty muszą być zapisywane małymi literami. Format ASCII - ten format to zwykły tekst, nie zawierający żadnego formatowania czcionek i znaków specjalnych. W systemie Windows dobrymi, prostymi (i darmowymi, bo dołączanymi do systemu operacyjnego!) edytorami są takie programy, jak Notatnik, WordPad (Windows 95), Write (Windows 3.x) oraz DOS Edit. ASCII [aski] (ang. American Standard Code for Information Interchange) 7-bitowy kod przyporządkowujący liczby z zakresu 0-127: literom (alfabetu angielskiego), cyfrom, znakom
przestankowym i innym symbolom oraz poleceniom sterującym. Na przykład litera "a" jest kodowana liczbą 97, a znak spacji jest kodowany liczbą 32. Litery, cyfry oraz inne znaki drukowane tworzą zbiór znaków ASCII. Jest to 95 znaków o kodach 32-126. Pozostałe 33 kody (0-31 i 127) to tzw. kody sterujące służące do sterowania urządzeniem odbierającym komunikat, np. drukarką czy terminalem. Ponieważ kod ASCII jest 7-bitowy, a większość komputerów operuje na 8-bitowych bajtach, dodatkowy bit można wykorzystać na powiększenie zbioru kodowanych znaków do 256 symboli. Powstało wiele różnych rozszerzeń ASCII wykorzystujących ósmy bit (np. norma ISO 8859, rozszerzenia firm IBM lub Microsoft), nazywanych stronami kodowymi. Również kodowanie UTF-8 można uważać za rozszerzenie ASCII, tutaj jednak dodatkowe znaki są kodowane na 2 i więcej bajtach. Ćwiczenie 1. Uruchom edytor (notatnik) i wpisz poniższy kod. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/tr/xhtml1/dtd/transitional"> <HTML> <HEAD> <TITLE>Mój pierwszy dokument</title> </HEAD> <BODY> <H1>To jest dokument HTML</H1> </BODY> </HTML> Po utworzeniu pliku HTML zachowaj go na dysku po nazwą index (w katalogu moja pierwsza strona) Jeżeli używasz edytora typu Microsoft Word, pamiętaj, aby wybrać opcję Zapisz jako i zapisać plik w formacie tekstowym. Wybierając nazwę pliku, zastosuj się do poniższych reguł. * Plik powinien posiadać rozszerzenie.html (.htm w systemie DOS lub Windows 3.x), na przykład, mojplik.html, tekst.html lub index.htm. Większość oprogramowania wykorzystywanego do pracy w sieci WWW wymaga tego rozszerzenia, tak więc dobrze jest od razu wyrobić sobie nawyk używania go. * Nazwy powinny być krótkie i proste. Nie używaj spacji i znaków specjalnych, cyfry i litery w zupełności wystarczą. Wykonaj to samo ćwiczenie przepisując znaczniki małymi literami, zapisz pod nazwą index1. Uruchom stworzone strony i obejrzyj kod źródłowy.
Ćwiczenie 2. Uruchom edytor (notatnik) i wpisz poniższy kod pomiędzy znacznikiem <BODY> <H1>Jeśli miłość karmi się muzyką, nie przestawaj grać.</h1> <H1> Jeśli miłość karmi się muzyką, nie przestawaj grać. </H1> <H1>Jeśli miłość karmi się muzyką, nie przestawaj grać. </H1> <H1> Jeśli miłość karmi się muzyką, nie przestawaj grać. </H1> Po utworzeniu pliku HTML zachowaj go na dysku po nazwą index2 (w katalogu moja pierwsza strona) Krótka uwaga na temat formatowania W trakcie przetwarzania strony przez przeglądarkę wszelkie próby formatowania dokonane ręcznie, to znaczy dodatkowe spacje, znaki tabulacji, znaki końca akapitu itp., są ignorowane. Jedyną rzeczą, wpływającą na formatowanie strony są znaczniki HTML. Jeśli wystąpiły literówki w odczycie tekstu sprawdź kodowanie tekstu (format kodowania obsługiwany przez większość przeglądarek to UTF-8) UTF-8: Każdy tekst w ASCII jest tekstem w UTF-8. Jest domyślnym kodowaniem w XML (również w jego aplikacjach: XHTML, SVG, XSL, CML, MathML). Wypróbuj wszystkie dostępne formaty kodowania, zobacz z jakim powstają problemy. Pytania kontrolne 1. Co oznacza wyrażenie HTML? 2. Jaka jest podstawowa funkcja HTML? 3. Dlaczego HTML nie określa układu strony? 4. Która wersja HTML-a obsługuje znaczniki akceptowane przez wszystkie przeglądarki? 5. Jaka jest podstawowa struktura znacznika HTML?