Jan Wawrzyńczyk Z E-BRUDNOPISÓW SŁOWNIKA BIBLIOGRAFICZNEGO JĘZYKA POLSKIEGO (Ku półmilionowemu szybkiemu rejestrowi haseł) Warszawa 2016
Copyright by Jan Wawrzyńczyk, Warszawa 2016 NARODOWY PROGRAM ROZWOJU HUMANISTYKI (Grant nr 0014/NPRH3/H11/82/2014) Wydawca: Mila Hoshi Warszawa 2016 Wyd. II, rozszerz. Obj. 0,4 a.w. Nakł. 10 egz. papierowych + egzemplarz elektroniczny (dostępny w Internecie) 2
Historia komputerowych notatek i materiałów, czyli e-brudnopisów, mojego 10-tomowego Słownika bibliograficznego języka polskiego (Warszawa 2000-2012) 1 jest już dość długa. Ich geneza sięga idei «Polskiego Informatorium Wyrazowego» 2, a ta z kolei wyrosła z wcześniejszego o pięć lat pomysłu opracowania tezaurusa leksyki XX w. 3 Publikacja SBJP nie zamknęła, nie mogła zamknąć, dziejów jego e-brudnopisów. Ten zasób informacji leksykograficznej był i jest systematycznie powiększany, rozbudowywany każdego dnia. Wyzyskany został jako podstawa w procesie tworzenia 6-tomowego Leksykonu przypomnień 4. Trafi do powstającego Narodowego Fotokorpusu Języka Polskiego (NFJP) 5 jako jego istotny element konstrukcyjny. Niedawno moje e-brudnopisy, zbiór danych i metadanych lingwistycznych bezkonkurencyjny 6, powiększyły się dzięki liście haseł bezcennego 30-tomowego Fotosuplementu do Słownika warszawskiego Piotra Wierzchonia 7. Włączanie danych do e-brudnopisów oznacza, że stają się one dla mnie kontrolowalne bibliograficznie, czyli udokumentowane źródłowo, a zatem weryfikowalne (można eliminować błędy powstałe podczas wprowadzania tych danych do komputera). 1 Dalej: SBJP. 2 Por.: J. Wawrzyńczyk, Projekt «Polskiego Informatorium Wyrazowego», Łódź 1992. 3 J. Wawrzyńczyk, W sprawie materiałów do tezaurusa polszczyzny dwudziestowiecznej, Łódź 1987. W broszurze tej zawarta jest obszerniejsza wzmianka o tym, że moje ówczesne zainteresowanie polskim słownictwem, zwłaszcza najnowszym, było związane z pracami nad dużym, koncepcyjnie niestandardowym, słownikiem polsko-rosyjskim, które to prace realizowałem w bydgoskim środowisku naukowym od początku lat osiemdziesiątych ubiegłego wieku, znajdując tam wielkie zrozumienie i poparcie dla tego projektu; z wdzięcznością wspominam pomoc kilku pracownic dawnego Zakładu Filologii Rosyjskiej WSP, w tym szczególnie wielki zapał i erudycję neonimoznawczą Jolanty Mędelskiej (obecnie profesor zwyczajny Uniwersytetu Kazimierza Wielkiego w Bydgoszczy). To wtedy jeszcze na papierowych fiszkach zaczęło się moje kolekcjonerstwo dokumentacyjne. 4 J. Wawrzyńczyk, 250 tysięcy ciekawych słów. Leksykon przypomnień, Warszawa 2013-2015. W 2016 r. powinno się ukazać jego wydanie drugie, poprawione i znacznie rozszerzone w części cytatograficznej. 5 Zob. stronę www.nfjp.pl, tymczasem styczeń 2016 jeszcze próbną (makieta 1.0). Jest to projekt wspólny: Piotra Wierzchonia i autora niniejszej broszury. 6 Nie jest to kwestia braku modestiae auctoris. Jest to kwestia faktów. Brudnopisowość tego zbioru oznacza jego niedopracowanie formalne w rozmaitych szczegółach, redakcyjną niejednolitość zapisów, częściowe nieuporządkowanie alfabetyczne artykułów hasłowych, powtórki danych. Sądzę, że te negatywne cechy zbioru (tymczasowe, usuwalne, stopniowo usuwane przecież) nie przekreślają jego praktycznej przydatności do tego stopnia, by nie myśleć o sensowności publikacji e-brudnopisów SBJP w ich najaktualniejszej postaci. 7 P. Wierzchoń, Depozytorium leksykalne języka polskiego. T. 11-40. Fotosuplement do Słownika warszawskiego, Warszawa 2014. 3
E-brudnopisy dają solidną orientację co do wielkości i jakości słownictwa nowopolskiego (1773-2016). Solidną, niemniej wciąż jeszcze wstępną, ponieważ ze względu na ogrom materiału nie jest możliwe szybkie, wyczerpujące opracowanie bibliograficzne wszystkich znajdowanych, wciąż odkrywanych jednostek. Moja orientacja w źródłach obejmuje obecnie około miliona haseł. Z tego miliona dokonywany jest aktualnie wybór, który trafi do dwu publikacji: J. Wawrzyńczyk, P. Wierzchoń, 300 tysięcy polskich słów. Indeks a fronte; P. Wierzchoń, J. Wawrzyńczyk, 300 tysięcy polskich słów. Indeks a tergo. Można założyć, że tomy te, opracowane przez koreanistę (P. Wierzchoń) i rusycystę (J. Wawrzyńczyk), pojawią się na rynku księgarskim w I kwartale 2016 r. Znany niektórym ledwie polonist(k)om Słownik warszawski (1900-1927), największe co do liczby haseł dzieło polskiej leksykografii tradycyjnej, zawiera według oceny niezapomnianego Witolda Doroszewskiego około 280 tysięcy jednostek, ale jest oczywiste, że jego twórcy nie kontrolowali swego wielkiego (a historycznie rzecz ujmując: nieocenionego) zbioru jednostek bibliograficznie, nie śledzili zainteresowania innych badaczy, leksykografów tymi jednostkami; takiego celu sobie nie stawiali, takiego celu sobie, nawet tylko jako możliwości, nie wyobrażali. Idea gromadzenia literatury przedmiotu do poszczególnych haseł słownikowych (tak jak się w toku badań naukowych od dawna gromadzi literaturę przedmiotu do najrozmaitszych tematów: awangarda krakowska, barok słowiański, klasycyzm, leksykografia japońska, postkomunizm itp.) zasługuje na upowszechnienie. Są dwa powody, by nie być ignorantem bibliograficzno-bibliometrycznym. Po pierwsze, dorobek wydawniczy lingwistyki światowej i polskiej, w tym leksykografii polskiej, jego wielkość, coraz trudniejsza do ogarnięcia, w niektórych fragmentach już zupełnie nieogarnialna (jak np. zagadnienie aspektu słowiańskiego 9 ). Po drugie w konsekwencji pierwszego normy etyczne, które mimo notorycznie zdarzających się złych przypadków nie powinny być naruszane, powinny w nauce być wytrwale kultywowane. Ryzykujących wtórność swoich publikacji, ocierających się o plagiat nie ubywa. 8 Jak wiadomo, lista źródeł 11-tomowego Słownika języka polskiego pod red. W. Doroszewskiego, Warszawa 1958-1969 (dalej: SD) liczy ok. 3200 pozycji. Aktualny wykaz źródeł zarejestrowanych przeze mnie w e-brudnopisach SBJP zawiera 8500 pozycji (bez gazet i czasopism; ich liczba jest równie pokaźna, zwłaszcza dzięki odrębnym pracom ekscerpcyjnym Piotra Wierzchonia, wskazanym wyżej w przyp. 7). 9 Podaję akurat ten przykład, gdyż niedawno przygotowywałem reedycję-reprint superfundamentalnego dzieła aspektologicznego pióra Andrzeja Bogusławskiego: Aspekt i negacja (z 2004 r.). 4
Dziś bez bibliografii przyhasłowych trudno sobie wyobrazić tworzenie nowych wielkich słowników ogólnych, definicyjnych języka polskiego, choć wyobrazić sobie niestety trzeba 10. Na temat naszego wyboru informacji o 300 tysiącach jednostek sprofilowanego najskromniej, tj. bez bibliografii niezbędne są następujące wyjaśnienia. Każde większe opracowanie leksykograficzne (powiedzmy tak: od Lindego do Dubisza ) znamionują rozmaite niekonsekwencje w jego konstrukcji. Czasy od 1773 r. do dziś cechuje, jak wiadomo, znaczna zmienność zasad polskiej pisowni. Indeks kompletny (czyli wyczerpujący w z góry założonych ramach) musiałby tę niestałość pisowni pokazywać, nasz wybiórczy takiego celu mieć nie może; zasadniczo jesteśmy nastawieni na pisownię (pisownie) przyjęte w SD, czyli praktykowaną w okresie 1958-1969 i latach temu czasowi bliskich. Ortografia Doroszewskiego nie jest jednolita, słownik jest do pewnego stopnia grafodiachroniczny, odwierciedla też starsze, sprzed regulacji 1956 roku, pisownie. Dwoistość notacji pisownianych cechować będzie również nasze indeksy, co raczej zwiększy ich użyteczność i atrakcyjność czytelniczą. Ograniczenie całkowite grafemowej struktury wyrażeń hasłowych do ram konwencji przyjętej w SD wypracowanej przez jego twórców nie w wyniku jakiejś radykalnej refleksji teoretycznej, niemniej będącej (dobrym) owocem wielowiekowej polskiej tradycji leksykograficznej bardzo by jednak zubożyło naszą dwuindeksową prezentację realnej różnorodności jednostek leksykalnych polszczyzny, utrwalonej, zaświadczonej w tekstach drukowanych, które poddawaliśmy i nadal poddajemy ekscerpcji. Dlatego też np. w ciągu między pozycjami man a manager SD dopisujemy taki oto blok haseł: 2man MAN -man mana management 10 Kilka miesięcy temu złożyłem propozycję dyrekcji jednego z tzw. czołowych instytutów języka polskiego w kraju, by podpięła moje dane bibliograficzne do swojego wielkiego projektu badawczego z zakresu leksykografii. Odpowiedzi nie otrzymałem, tzn. reakcją było głuche milczenie (standard współczesnej kultury). Myślę teraz o uruchomieniu niezależnej strony www.wsbjp.pl; Wielki słownik bibliograficzny języka polskiego mógłby być pewnym wkładem do prac nad indeksem chronologicznym wyrazów polskich, o który upominał się kiedyś Tadeusz Piotrowski ( Poradnik Językowy 2006, z. 9, s. 72-77) czy później Leszek Bednarczuk (w 2010 r.) 5
który zawiera pewne strukturalne osobliwości pisowniowe, nieznane temuż SD. Por. prócz nich jeszcze dalsze przykłady naszych addendów hasłownikologicznych, po części tylko obecne (jako typy) w innych, poza SD, słownikach języka polskiego: absolutum dominium afekcjonować (się) bi(e)dka C 4 H 6 O 5 G20 g... ga-ga-gazeta ga- ga- gazeta ¾-godzinny 11 ileś-tam-lecie kato(n) -krzakowy labuś labuś la la la! mbank m-ch Me-110 pseudo sztuka II RP III RP IV RP rs4950 R.S.V.P. 2-rzędny Stany Zjednoczone W2EU zitti! zitti! Z drugiej strony, nie włączamy do indeksów haseł, wyrażeń hasłowych wyjątkowych, jakie można znaleźć w niektórych słownikach branych przez nas do konfrontacji (z reguły są to efekty braku konsekwencji u autorów tych słowników, a nie skutki ich przemyślanych decyzji kategoryzacyjnych): 11 Porządkowanie alfabetyczne haseł Indeksu to tylko pozornie prosta kwestia. Komplikują ten proces liczne znaki nieliterowe, interpunkcyjne i nieinterpunkcyjne, wchodzące w skład napisów-haseł. W procesie sortowania automatycznego wyrażeń hasłowych muszą one uczestniczyć, ale na zasadach, które trzeba było w tym celu specjalnie opracować (reguł tych nie omawiamy tutaj, uprzedzamy jedynie, że niektóre lokalizacje mogą być zaskakujące, i wymagają pewnego oswojenia się z naszą praktyką sortowania). 6
horwacka ziemia 12 neokomska formacja podstacja elektryczna przetwarzając je do postaci: horwacki neokomski podstacja Odnotowujemy niektóre (tylko) wahania pisowni, brak jej stabilizacji poświadczony w tekstach źródłowych z tego samego roku czy kilkulecia; pokazujemy także niektóre (tylko) kakografie, te rozmyślne, wprowadzane przez autorów w celach poetyzacyjnych czy dokumentacyjnych 13, a także gry 14 i zabawy z ortografią; por.: bochater mass-media mass media pseudostereofoniczny pseudo-stereofoniczny sztafarz variactwo itp. Kakografii ewidentnych, nieintencjonalnych, powstałych na skutek braku znajomości tej czy innej konkretnej zasady aktualnie obowiązujących przepisów ortograficznych nie dokumentujemy na poziomie hasłownika (ich ew. przedostanie się do indeksów było niezamierzone), dokonując stosownych poprawek; por. np. hasło schröderyzacja (w pewnej gazecie codziennej figuruje forma pseudoproprialna Schröderyzacja). Jesteśmy świadomi najróżnorodniejszych luk w naszej selekcji haseł (poniekąd usprawiedliwionych, mając w przyszłości do głębszego rozpoznania zasób haseł, którego kwantum jest na pewno ponadmilionowe). 12 Tu i w innych analogicznych wypadkach nie odtwarzamy wiernie postaci graficznej wyrażeń hasłowych, modernizując ją. 13 Ekscerpowane teksty źródłowe notują też np. polemiki wokół pisowni poszczególnych wyrazów. 14 Bruno Jasieński się kłania! 7
Oto np. pominięcia: pozycja Arystofan jest, brak ważniejszej jednak postaci Arystofanes, dajemy chronotop, brakuje hasła chronotopia, mamy na zewnątrz, ale już nie na wewnątrz, jest wyrażenie (jako 15 ) hasłowe niemiecko- -czeski, brak hasła niemiecko-polski (!), jest niemiejski, brak niewiejski, jest trójczłonowy, brak trójczłonowość itd., itp. Niekonsekwencji tych jest oczywiście znacznie mniej w e-brudnopisach SBJP, ponieważ ich zawartość powiększa się jak już zaznaczałem co dzień, choćby o jedno słówko, o jedno znalezisko. Usterek tego i innych rodzajów postaramy się ustrzec w którymś z kolejnych wydań indeksów. Obecnie przygotowywane, z 300 tysiącami 16 jednostek, planujemy w niedalekiej przyszłości zdeklasować, publikując rejestry półmilionowe. Chodzi nam wszakże w odróżnieniu od paru innych badaczy poruszających się 17 w zasobach leksykalnych polszczyzny na poziomie 300-400 tysięcy jednostek o jednostki rozpoznane i udokumentowane bibliograficznie, źródłowo, cytatograficznie. Takie właśnie rozpoznanie, a nie domniemania, ekstensje, hipotezowanie analogicznostrukturalne 18 na temat możliwości (za)istnienia takiego czy innego wyrażenia w polszczyźnie w tym czy innym okresie jej rozwoju, uznajemy za najważniejsze. Jesteśmy tu sterylnie mańczakowscy, kultywujemy i propagujemy, by tak rzec, leksykalno-bibliograficzny enumeracjonizm. Dodam jeszcze: swoimi indeksami mamy nadzieję sprawić określony ferment w świadomości tych wszystkich, którzy interesują się bliżej, głębiej 19, naukowo polskim słownictwem. 15 Nt. problematyczności sprawy por.: J. Wawrzyńczyk, Techniczno-leksykograficzna notatka o kompozycjach typu owocowo-warzywny, [w:] Linguistica Copernicana (Toruń) 2013, 1, s. 283-289. 16 W związku z tą liczbą por.: J. Wawrzyńczyk, 300 tysięcy czy milion(y)? O stanie zasobów słownictwa polskiego w dniu 31 grudnia 2000 r., Warszawa 2015. Proste zestawienie liczb: 300 tys. vs. 280 tys. haseł Słownika warszawskiego, nie powinno sprawić rozczarowania (dlaczego tylko 300 przy rekordzie ustanowionym przez twórców Warszawskiego?); w naszych indeksach użytkownicy zetkną się przecież z dziesiątkami tysięcy haseł, których nie ma w Warszawskim, ani też w pozostałych słownikach nazywanych narodowymi. 17 Przynajmniej deklaratywnie. 18 Czyli sądy typu: skoro jest gdzieś tekstowo potwierdzone, np. w jakimś słowniku ortograficznym, (tylko) hasło zeszłoniedzielny, to czemu by nie miało zaistnieć gdzieś indziej hasło zeszłosobotni, zeszłopiątkowy itd.? 19 Za pomocą rdzenia tego przysłówka przypominamy mającą już 2 000 lat dyrektywę metodologiczną wypłyń na głębię! (wielka wciąż bowiem jest liczba tekstów polszczyzny czekających na skrupulatną ekscerpcję). Współczesna polska leksykografia nie może pozostawać obojętna wobec zjawiska, które niedawno opisał Jan Waszewski: wyłaniania się ery»big Data«w sferze informacji; por.: A. Zybertowicz et al., Samobójstwo Oświecenia? Jak neuronauka i nowe technologie pustoszą ludzki świat, Kraków 2015, s. 242-246. 8