1 Programowanie w Javie- wykład 11 Kolekcje (listy) Treści prezentowane w wykładzie zostały oparte o: Barteczko, JAVA Programowanie praktyczne od podstaw, PWN, 2014 Barteczko, JAVA Uniwersalne techniki programowania, PWN, 2017 http://docs.oracle.com/javase/8/docs/ http://docs.oracle.com/javase/9/docs/ C. S. Horstmann, G. Cornell, Java. Podstawy, Helion, Gliwice 2013
KOLEKCJE 2 Kolekcja jest obiektem, który grupuje elementy danych (inne obiekty) i pozwala traktować je jak jeden zestaw danych, umożliwiając jednocześnie wykonywanie operacji na zestawie danych np. dodawania i usuwania oraz przeglądania elementów zestawu. Uwaga: W niektórych językach programowania kolekcje są nazywane kontenerami. W Javie kontenery są specjalnymi kolekcjami, które grupują komponenty graficznego interfejsu użytkownika (GUI). Naturalną realizacją koncepcji kolekcji są tablice. W języku Java tablice nie są jednak wygodnym sposobem tworzenia kolekcji ponieważ: nie posiadają dedykowanych metod do obsługi kolekcji, rozmiar tablicy jest stały. Dlatego w Javie, w pakiecie java.util, zdefiniowano narzędzia, służące do tworzenia i posługiwania się różnymi rodzajami kolekcji.
3 Architektura kolekcji (Collections Framework) Abstrakcyjne właściwości struktur danych opisywane są przez interfejsy kolekcyjne, a konkretne realizacje - inaczej implementacje kolekcji - tych właściwości znajdujemy w konkretnych klasach. Zunifikowana architektura, służąca do reprezentacji kolekcji i operowania na nich, składa się z: interfejsów, implementacji, algorytmów. Architektura kolekcji w Javie to: Java Collections Framework (JCF). Mamy tam do dyspozycji wiele gotowych, efektywnych klas i metod, pozwalających łatwo rozwiązywać wiele problemów związanych z reprezentacją w programie bardziej zaawansowanych struktur danych i operowaniem na nich. Klasy JCF dostarczają środków do posługiwania się następującymi rodzajami kolekcji: listy i ich szczególne przypadki: stosy, kolejki, kolejki podwójne. zbiory i zbiory uporządkowane, mapy tablice asocjacyjne (słowniki).
JCF- hierarchia interfejsów 4
Podstawowe interfejsy JCF Collection - dowolna kolekcja nie będącą mapą List - zestaw elementów, z których każdy znajduje się na określonej pozycji; do listy można wielokrotnie dodać ten sam element i można sięgnąć po element na dowolnej pozycji. Queue - kolejka, czyli sekwencja elementów, do której dodawanie i sięganie po elementy odbywa się na pozycjach, określonych przez zadany porządek (najczęsciej FIFO - first in first out). Nie ma bezpośredniego dostępu do dowolnej pozycji. Deque - rozszerza Queue: kolejka podwójna, do której dodawanie i sięganie może odbywać się na obu końcach (np. dodaj na początku, dodaj na końcu, usuń z początku, usuń z końca). Set - zestaw niepowtarzających się elementów, pozycje elementów są nieokreślone. SortedSet - rozszerza Set: zbiór uporządkowany NavigableSet - rozszerza SortedSet: zbiór uporządkowany, dla którego możliwe są operacje uzyskiwania elementów "bliskich" danemu. Map mapa (tablica asocjacyjna, słownik) - zestaw par: klucz-wartość, przy czym odwzorowanie kluczy w wartości jest jednoznaczne SortedMap - mapa z uporządkowanymi kluczami (typu SortedSet) NavigableMap - mapa, w której klucze są typu NavigableSet 5
Wybrane podstawowe konkretne implementacje Implementowany interfejs Implementujące klasy Sposób realizacji właściwości określanych przez interfejs List ArrayList Dynamicznie rozszerzalna tablica (szybki bezpośredni dostęp po indeksach) List, Queue, Deque LinkedList Lista liniowa z podwójnymi dowiązaniami (szybkie wpisywanie i usuwanie elementów poza końcem listy; wolny dostęp bezpośredni; implementacja operacji na kolejkach) Queue, Deque ArrayDeque Kolejka podwójna (zrealizowana jako rozszerzalna tablica; szybki dostęp do obu końców, brak dostępu do dowolnej pozycji) Queue PriorityQueue Kolejka z priorytetami (kolejka, w której pierwszy i ostatni elment jest określany na podstawie ustalonego porządku (porównania elmentów wg kryteriów) ) Set HashSet Tablica haszująca (mieszania) (szybkie wpisywanie (add) i odnajdywanie elementów(contains); kolejność elementów nieokreślona) Set, SortedSet, NavigableSet TreeSet Drzewo czerwono-czarne, szybkie wstawianie, (uporządkowanie elementów; dostęp i wyszukiwanie wolniejsze niż w implementacji mieszającej) Set LinkedHashSet Tablica mieszania i lista liniowa (jak w implememntacji mieszającej, z zachowaniem porządku wpisywania elementów) 6
Ogólne operacje na kolekcjach- interfejs Collection Interfejs Collection definiuje wspólne właściwości i funkcjonalność wszystkich kolekcji (tzn. list, zbiorów i innych) poza mapami. Typ Collection jest zatem swoistym "najmniejszym wspólnym mianownikiem" wszystkich rodzajów kolekcji i używamy go (szczególnie przy przekazywaniu argumentów) wtedy, gdy potrzebna jest największa ogólność działań. Podstawowe operacje na kolekcjach: int size() - zwraca liczbę elementów zawartych w kolekcji boolean isempty() - sprawdza, czy kolekcja jest pusta boolean contains(object o) - sprawdza, czy kolekcja zawiera podany obiekt. boolean add(object o) - dodaje obiekt o do kolekcji. (Uwaga: operacja opcjonalna nie jest dozwolona dla kolekcji niemodyfikowalnych) boolean remove(object o) - usuwa obiekt o z kolekcji. (Uwaga: operacja opcjonalna nie jest dozwolona dla kolekcji niemodyfikowalnych) Kolekcja jest modyfikowalna, jeśli można dodawać do niej elementy, usuwać z niej elementy oraz zmieniać wartości elementów. Niemodyfikowalne kolekcje nie pozwalają na dodawanie, usuwanie i zmianę wartości elementów. 7
Ogólne operacje na kolekcjach 8 Operacje opcjonalne. Konkretne klasy kolekcyjne mogą dopuszczać lub nie wykonanie takich operacji. Np. klasa definiująca jakąś kolekcję niemodyfikowalną nie może pozwolić na wykonanie operacji dodawania i usuwania elementów. Ale ponieważ każda klasa kolekcyjna musi implementować interfejs Collection, to musi też zdefiniować metody add i remove. Przyjęto zasadę, że jeśli operacja opcjonalna dla danej implementacji nie jest dopuszczalna, to odpowiednia metoda zgłasza wyjątek UnsupportedOperationException: public boolean add(t o) { throw new UnsupportedOperationException(); } public boolean remove(t o) { throw new UnsupportedOperationException(); } Uwaga: ponieważ kolekcje są sparametryzowane, T oznacza parametr typu. Przy dodawaniu elementów do kolekcji mogą powstać i inne wyjątki, zależne od implementacji kolekcji. Implementacje, które nie dopuszczają dodawania elementów o pewnych właściwościach (np. elementów null) będą zgłaszać wyjątek IllegalArgumentException. Te zaś, które np. czasowo nie dopuszczają dodania elementu (np. w tym momecie jest przekroczony maksymalny limit wielkości kolekcji) zgłaszają wyjątek IllegalStateException.
Operacje grupowe na kolekcjach Operacje grupowe na kolekcjach polegają na wykonywaniu za jednym razem pewnych operacji na całych kolekcjach. Należą do nich metody: boolean addall(collection<? extends E> c) - dodanie do dowolnej kolekcji wszystkich elementów kolekcji przekazanej przez parametr c boolean removeall(collection<?> c) - usunięcie z kolekcji wszystkich elementów, które są zawarte w kolekcji przekazanej przez parametr c boolean retainall(collection<?> c)- pozostawienie w kolekcji tylko tych elementów, które są zawarte w kolekcji przekazanej przez parametr c void clear()- usunięcie wszystkich elementów kolekcji. Object [] toarray()- zwraca tablicę obiektów zawartych w kolekcji. Ponieważ niektóre z tych operacji mogą modyfikować kolekcje (a o tym czy naprawdę nastąpiła modyfikacja - świadczą wyniki zwracane przez metody - true albo false), to - oczywiście - są one operacjami opcjonalnymi. UWAGA! Operacje, które wymagają porównywania elementów np. contains(jakis_obiekt), containsall(collection}, removeall(..), retainall(...) używają do tego metody equals() zdefiniowanej w klasach obiektów. 9
Przekształcanie kolekcji w inne kolekcje 10 Niejako kontynuacją operacji grupowych jest możliwość przekształcenia kolekcji danego rodzaju w dowolną inną kolekcję dowolnego innego rodzaju. Np. listy w zbiór uporządkowany. We wszystkich konkretnych implementacjach kolekcji dostarczono konstruktorów, mających jako parametr dowolną inną kolekcję (czyli parametr typu Collection). Jeśli zatem mamy listę, a chcemy z niej zrobić zbiór uporządkowany (w konkretnej implementacji - np. drzewa zrównoważonego), to wystarczy użyć konstruktora odpowiedniej klasy (tu: TreeSet): List lista; //utworzenie listy w konkretnej implementacji //np.arraylist lub LinkedList Set tset = new TreeSet(lista); W ten sposób uzyskamy zbiór (a więc bez powtórzeń elementów), uporządkowany (w naturalnym porządku elementów), którego elementy będą pobrane z dostarczonej listy. Oczywiście, jeśli nie stosujemy typów surowych (jak wyżej), ale kolekcje sparametryzowane, kompilator zabroni nam dokonywania pewnych przekształceń (np. uzyskania listy napisów List<String> ze zbioru liczb Set<Integer>).
Iteratory Bardzo ważną metodą interfejsu Collection (tak naprawdę dziedziczoną z interfejsu Iterable) jest metoda iterator(), która zwraca iterator. Iterator jest obiektem klasy implementującej interfejs Iterator<T> i służy do przeglądania elementów kolekcji oraz ew. usuwania ich przy przeglądaniu Metody interfejsu Iterator<T>: T next() - zwraca kolejny element kolekcji lub sygnalizuje wyjątek NoSuchElementException, jeśli osiągnięto koniec kolekcji. T jest typem elementów kolekcji. void remove() - usuwa element kolekcji, zwrócony przez ostatnie odwołanie do next(). Operacja opcjonalna. boolean hasnext()- zwraca true, jeśli możliwe jest odwołanie do next() zwracające kolejny element kolekcji. Klasy iteratorów są definiowane w klasach kolekcyjnych jako klasy wewnętrzne, implementujące interfejs Iterator<T>. Implementacja metody iterator() z interfejsu Collection zwraca obiekt takiej klasy. Dzięki temu od każdej kolekcji możemy uzyskać iterator za pomocą odwołania: Iterator<T> iter = c.iterator(); gdzie: c - dowolna klasa implementująca interfejs Collection, T - typ elmentów kolekcji. 11
12 Iteratory Dla tych kolekcji, w których elementy nie zajmują ściśle określonych pozycji iteratory są jedynym sposobem na "przebieganie" po kolekcji. Dla kolekcji listowych iteratory są efektywniejszym narzędziem iterowania od pętli iteracyjnych pobierających elementy z pozycji wyznaczanych przez podane indeksy. O iteratorze należy myśleć jako o wskaźniku ustawianym nie na elemencie kolekcji, ale pomiędzy elementami. Na początku iterator ustawiony jest przed pierwszym elementem. Odwołanie next() jednocześnie przesuwa iterator za element i zwraca ten element. Metoda iteratora remove() najczęściej stosowana jest do usuwania z kolekcji elementów, które spełniają (nie spełniają) jakichś warunków. Szablon użycia remove() w trakcie iteracji: Iterator<T> iter = c.iterator(); // c - dowolna kolekcja //typu Collection, T - typ elementów kolekcji while (iter.hasnext()) { T element = iter.next(); if (warunek_usunięcia(element)) iter.remove(); } Metoda remove() może usunąć tylko element zwrócony przez next() i wobec tego może być zastosowana tylko raz dla każdego next(). W trakcie iteracji za pomocą iteratora nie wolno modyfikować kolekcji innymi sposobami niż użycie metody remove() na rzecz iteratora!
Listy (interfejs List) LISTA - zestaw elementów, z których każdy znajduje się na określonej pozycji w zestawie. Różne elementy listy mogą zawierać takie same dane. JDK posiada kilka implementacji interfejsu List, różniących się sposobem przechowywania elementów. W klasie ArrayList stosuje się tablicę, która jest dynamicznie zwiększana w momencie przekroczenia jej maksymalnego rozmiaru. Elementy listy są zapisywane jako elementy takiej tablicy. Ponieważ tablice w Javie mają określone (niezmienne po utworzeniu) rozmiary utworzenie listy tablicowej wymaga alokacji tablicy z jakimś zadanym rozmiarem. Jest on specyfikowany przez initialcapacity (domyślnie 10), który to parametr możemy podać w konstruktorze ArrayList. Przy dodawaniu elementów do listy sprawdzane jest czy pojemność tablicy jest wystarczająca, jeśli nie to rozmiar tablicy jest zwiększany. Służy temu metoda ensurecapacity(mincapacity), którą zresztą możemy wywołać sami, aby w trakcie działania programu zapewnić podaną jako mincapacity pojemność listy. 13
Listy 14 Klasa LinkedList jest klasyczną listą łączoną, w której każdy element posiada referencję do poprzedniego i następnego elementu listy. Zatem elementy listy, które z punktu widzenia programisty są elementami umieszczanych danych (np. nazwisk lub jakichś innych obiektów), technicznie są "linkami", zawierającymi nie tylko dane, ale również wskaźniki na następny i poprzedni element na liście. Początek listy dowiązaniowej, zwany głową lub wartownikiem zawiera wskazanie na pierwszy element listy (null, jeśli lista jest pusta). Klasa Vector jest przepisaną na nowo wersją znaną z JDK 1.0. Jest obecna w bibliotece Java Collections tylko ze względu na potrzebę wstecznej zgodności.
Listy porównanie klas Te dwie implementacje charakteryzują się różną wydajnością, ale można stosować je zamiennie: LinkedList powinniśmy wybierać wtedy, gdy na liście będą wykonywane częste operacje wstawiania i/lub usuwania elementów w środku listy (poza końcem listy). Istotnie na liście typu LinkedList takie operacje polegają na zmianie dwóch dowiązań (prowadzącego do poprzedniego i do następnego elementu) - są więc bardzo szybkie, zaś w implementacji tablicowej (ArrayList) wiążą się z przepisywaniem elementów tablicy, co (zwykle) zabiera więcej czasu. Operacje bezpośredniego dostępu do elementów listy są w implementacji tablicowej ArrayList natychmiastowe (polegają na indeksowaniu tablicy), natomiast w implementacji LinkedList są bardzo nieefektywne, gdyż technicznie wymagają przebiegania po elementach listy od samego jej początku lub od końca w kierunku początku (ten ostatni przypadek jest jedyną optymalizacją dostępu w klasie LinkedList, dokonywaną wtedy, gdy indeks znajduje się "w drugiej połowie" listy). Na listach LinkedList należy unikać operacji get(int index) i set(int index, Object value) Wyszukiwanie elementów na listach (czy to klasy ArrayList czy LinkedList) za pomocą ogólnych metod interfejsu Collection (contains(object)) oraz interfejsu List indexof(object)) nie jest efektywne. Powinniśmy albo zastosować inny rodzaj kolekcji (np. zbiory w implementacji tablic mieszania), albo posortować listę (metoda sort) i zastosować wyszukiwanie binarne (metoda binarysearch) (są to metody klasy Collections). 15
16 Operacje na listach wszystkie metody interfejsu Collection boolean add(int p, T elt) - dodaje element typu T na pozycji p. Zwraca true jeśli lista została zmodyfikowana. boolean addall(int p, Collection c)- dodaje wszystkie elementy kolekcji c do listy poczynając od pozycji p. Zwraca true jeśli lista została zmodyfikwoana. T get(int p)- zwraca element na pozycji p (T jest typem elementu) int indexof(t elt)- zwraca pozycję (indeks) pierwszego wystąpienia elementu elt int lastindexof(t elt)- zwraca indeks ostatniego wystąpienia elementu elt ListIterator<T> listiterator()- zwraca iterator listowy, ustawiony na początku listy (przed pierwszym elementem). ListIterator<T> listiterator(int p)- zwraca iterator listowy ustawiony przed elementem o indeksie p. boolean remove(int p)- usuwa element na pozycji p. Zwraca true jeśli lista została zmodyfikowana. T set(int p, T elt)- zastępuje element na pozycji p podanym elementem elt. Zwraca poprzednio znajdujący się na liście element. List<T> sublist(int f, int l) - zwraca podlistę zawierającą elementy listy od pozycji f włącznie do pozycji l (wyłącznie).
17 ListIterator Operacje na liście rozszerzają możliwości operowania na kolekcjach o operacje pozycyjne - takie, które uwzględniają pozycję elementów. Ze względu na znajomość pozycji elementów w kolekcji możliwe staje się iterowanie po kolekcji w obie strony: od początku i od końca. Można też ustawić iterator w taki sposób, by iteracje rozpoczynały się od podanej pozycji, a znając pozycję elementu zwracanego przez iterator można nie tylko go usunąć, ale zamienić lub dodać nowy element na pozycji wyznaczanej przez stan iteratora. Dlatego właśnie oprócz zwykłego (ogólnego dla wszystkich kolekcji) iteratora, listy udostępniają iteratory listowe, które są obiektami klas implementujących interfejs ListIterator. Ten ostatni jest rozszerzeniem interfejsu Iterator Metody iteratora listowego : boolean hasnext(), boolean hasprevious(), Object next(), Object previous(), int nextindex(), int previousindex(), void add(t o), void remove(), void set(t o)
ArrayList przykład-listy surowe Przykład: Rozważmy program, który tworzy listę firm, dodaje do niej dowolną liczbę elementów (nazw firm zapisanych w kolejnych wierszach pliku), po czym wyprowadza zawartość listy na konsolę. W programie możemy przedstawić ją jako tablicę, ale nie wiadomo jaki ma mieć rozmiar, dlatego skorzystamy z listy. import java.util.*; import java.io.*; class Intro1 { public static void main(string args[]) throws IOException { Scanner scan = new Scanner(new File("firms.txt")); // Utworzenie obiektu klasy ArrayList ArrayList list = new ArrayList(); while (scan.hasnextline()) { String firm = scan.nextline(); // dodanie kolejnego elementu do listy list.add(firm); } // wyprowadzenie zawartości listy for (int i = 0; i < list.size(); i++) System.out.println(list.get(i)); } } 18
Listy Iterator 19 Lepszym sposobem przeglądania elementów listy jest skorzystanie z iteratora. W naszym przykładzie listy firm użycie iteratora może wyglądać następująco: for (Iterator iter = list.iterator();iter.hasnext(); ) System.out.println(iter.next()); Najlepiej jednak jest używać rozszerzonego for (for-each): for (Typ id : kol) instr co oznacza, że w każdym kroku iteracji z kolekcji kol pobierany jest (za pomocą jej iteratora) następny element i podstawiany pod zmienną id, która może być następnie użyta w instrukcji instr. Typ natomiast zależy od tego czy używamy kolekcji sparametryzowanych typami czy też kolekcji surowych. Surowe kolekcje mogą zawierać referencje do dowolnych obiektów (ich elementy są formalnie typu Object). Metoda next() iteratorów takich kolekcji ma typ wyniku Object. W przedstawionym przykładzie listy mamy właśnie do czynienia z taką surową kolekcją. Zarówno iterator, jak i metoda get() zwracają wyniki typu Object.
Listy - bez parametryzacji 20 Powinniśmy więc napisać: for (Object elt : list) System.out.println(elt); Zauważmy, że przekazanie metodzie println argumentu typu Object powoduje wyprowadzenie napisu zwróconego przez metodę tostring() z klasy argumentu. Nie mieliśmy więc kłopotu z faktycznym typem (którym był String). Jednak gdyby w powyższym przykładzie chcieć wywołać na rzecz zmiennej elt np. metodę length() z klasy String, to kompilator zgłosiłby błąd (statyczna ścisła kontrola typów: istotnie w klasie Object - a takiego typu jest elt - nie ma metody length()!). Musielibyśmy więc dokonywać referencyjnej konwersji zawężającej : // Wypisuje długości napisów z kolekcji list for (Object elt : list) System.out.println( ((String) elt).length());
Listy sparametryzowane 21 Użycie kolekcji sparametryzowanych polega na podaniu typu jej elementów w nawiasach kątowych np. ArrayList<String> list = new ArrayList<>(); Do tak zdefiniowanej kolekcji, korzystając ze zmiennej list, nie będzie można dodać elementu innego typu niż String, a także wszelkie metody zwracające elementy tej kolekcji (m.in. get() oraz next() iteratora) będą miały typ wyniku String. W tym przypadku typ zmiennej w rozszerzonym for może być String i wobec tego możemy pisać tak: ArrayList<String> list = new ArrayList<>(); //... // Wypisuje długości napisów z kolekcji list for (String elt : list) System.out.println(elt.length());
Listy sparametryzowane 22 Uwaga. Z powodu słabości typów generycznych, dla sparametryzowanej kolekcji: List<String> list = new ArrayList<>(); dokonując przypisania List hackedlist = list; możemy do powyższej listy obiektów typu String dodawać obiekty również innych typów, np.: hackedlist.add(10); //Integer hackedlist.add(new Date()); //Date gdyż metoda add na hackedlist oczekuje parametru typu Object, a nie String (wynika to z wewnętrznej reprezentacji RAW typów generycznych). Wówczas użycie obiektu z takiej kolekcji zgodnie z jej typem, np. String s = list.get(0); skompiluje się, ale podczas uruchomienia wyrzuci wyjątek ClassCastException informując, że próbuje się rzutować Integer na String.
Listy sparametryzowane 23 Aby zabezpieczyć kolekcję przed dopisywaniem "nieuprawnionych" obiektów możemy wykorzystać specjalnie do tego celu stworzone klasy opakowujące, których instancje otrzymujemy poprzez uruchomienie wybranych metod klasy Collections. Np. dla listy: List<String> list = Collections.checkedList( new ArrayList<>(), String.class); Metoda checkedlist bierze dwa parametry opakowywaną listę oraz klasę elementów tej listy, a zwraca nowy obiekt listę opakowującą (view), która sprawdza każdy dopisywany do niej obiekt (czyli właściwie do wyjściowej listy) pod kątem jego typu. W klasie Collections są zdefiniowane również analogiczne metody dotyczące innych typów kolekcji.
ArrayList przykład poprawiony 24 import java.util.*; import java.io.*; class Intro1Param { public static void main(string args[]) throws IOException { Scanner scan = new Scanner(new File("firms.txt")); // Utworzenie obiektu klasy ArrayList ArrayList<String> list = new ArrayList<>(); while (scan.hasnextline()) { String firm = scan.nextline(); // dodanie kolejnego elementu do listy list.add(firm); } // wyprowadzenie zawartości listy for (String el : list) System.out.println(el); } }
Kolekcje przykład proste sortowanie Co zrobić, jeśli chcemy duplikaty zachować i posortować kolekcję? Zachowanie duplikatów zapewnia lista (np. ArrayList). Możemy wobec niej zastosowac gotowy algorytm sortowania zapisany w postaci statycznej metody klasy Collections (klasa ta zawiera metody realizujące rózne algorytmy działania na kolekcjach). import java.util.*; import java.io.*; class Intro4 { public static void main(string args[]) throws IOException { Scanner scan = new Scanner(new File("firms.txt")); ArrayList<String> list = new ArrayList<>(); while (scan.hasnextline()){ list.add(scan.nextline()); } Collections.sort(list); for (String firm : list) { System.out.println(firm); } } }//wyprowadzi firmy w rosnącym alfabetycznym porządku ich nazw 26