Czytaj książkę z rozdziału: Dane, informacje, metadane i danych magazyny

Podróż przez bazodanowe terytoria rozpocznijmy od ustalenia, czym są dane oraz magazynujące je bazy. Etymologia słowa dane (data) odsyła do łacińskiego datum, które oznacza coś, do czego można się odnieść, na czym można się opierać podczas prowadzenia obliczeń. Dane to, w tym tradycyjnym sensie, pożywka dla działań matematycznych, surowe zasoby abstrakcyjnego świata, które matematyka wykorzystuje jako materię w swojej kalkulacyjnej/wyobrażeniowej egzystencji. Z poprzedniego rozdziału, który poświęciłem kodowi cyfrowemu, wynika, że matematyka bez danych jest tak samo niepełna/niemożliwa jak i cyfrowość, w której dla cyfrowych maszyn dane są zarazem funkcjonalnymi (materialnymi, przez fakt regulowania fal elektrycznych płynących wewnątrz kalkulującej maszyny) jak i symbolicznymi zasobami (fale są zarazem poinformowane, czyli zakodowane, jak i informują/kodują – zgodnie z zasadami fizyki i termodynamiki, które mówią o bilansie energetycznym na wejściu do systemu i na wyjściu z niego), w które zamienia się elektryczność płynąca wewnątrz hardware cyfrowych technologii i które podporządkowują elektryczność kodom semantycznym, tj kulturowym. Danymi na poziomie elektryczności są pojedyncze elementy o wartościach 0 i 1, czyli on/off, tak/nie, jest/nie ma oraz ich ciągi, które przybierają różne interfejsy i kody wyższego poziomu – pikseli, bitów, bajtów, pingów, plików, katalogów, itd.

Ustrukturyzowana w postaci baz danych cyfrowość ma w konsekwencji trudny do jednoznacznego zdefiniowania status, bo dane i ich bazy to jednocześnie medialne obiekty i procesy. Ta specyfika jest w ogóle cechą charakterystyczną epoki postmedialnej – nie ma w niej jedynie materialnych obiektów, które nie są jednocześnie procesualnie „ożywionymi obiektami”; tak jak nie ma w niej procesów, które istnieją jedynie wirtualnie, bez zakorzenienia w materii maszyn i zjawisk fizycznych. Taki hybrydowy stan baz danych bierze się z przywołanej już powyżej natury samej matematyki i stworzonych na jej podstawie wszelkich działań kalkulatywnych, które nie istnieją, dopóki nie materializują się w odniesieniu do surowca, czyli danych. Podobnie jest z całym technologicznym krajobrazem cyfrowości, którym rządzi następująca zasada: hardware jest w nim nierozerwalnie związany z software, jedno bez drugiego nie istnieje.

Zrozumieć sens cyfrowych danych można tylko wówczas, kiedy weźmie się pod uwagę różnicę pomiędzy nimi a informacjami, tj. zasobami o charakterze semiotycznym, które wykorzystujemy w postrzeganiu, rozumieniu i konstruowaniu rzeczywistości. Różnica między matematycznie spreparowanym surowcem elektrycznym a informacjami jest mniej więcej taka, jak pomiędzy głoskami i literami (alfabetem) a słowami i zdaniami (językiem). Język uznać można za jeden z najdoskonalszych mechanizmów kulturowych radzenia sobie z bazą danych, czyli głoskami i literami właśnie. Na podstawie kilkudziesięciu elementów w tej bazie danych człowiek jest w stanie stworzyć tysiące możliwych ich kombinacji i sprawnie wykorzystać je w komunikacji. W oparciu o dane dopiero tworzymy informacje, choć trzeba jednocześnie pamiętać, że dane występują w wielu wymiarach funkcjonalnych, które nadają im różne właściwości informacyjne (to m.in. zagadnienie metadanych, do którego niebawem powrócę). Informacje to dane przetworzone w taki sposób, że nabierają poznawczego znaczenia. Dane informują, kiedy zostają wykorzystane semiotycznie [177].

Jednak analogia pomiędzy językiem i alfabetem a uniwersum danych nie przystaje do stanu faktycznego, kiedy się jej głębiej przyjrzeć. W przypadku języka jako kultury, najpierw posługiwaliśmy się kodem, a dopiero później pojawiła się potrzeba opracowania jego pojedynczych wartości – wyodrębnienia i nazwania językowych „danych”. W cyfrowym świecie jest odwrotnie: najpierw powstają dane, a dopiero potem stają się one przedmiotem cyrkulacji kulturowej, są pożywką dla różnych kulturowych gatunków i rodzajów. W wersji historycznej informacje z czasem doczekały się swoich pre-struktur, czyli danych alfabetycznych – zostały przez kulturę zdekodowane i skodyfikowane. W wersji cyfrowej dane powstają głównie wcześniej/równolegle wobec mechanizmów (algorytmy, interfejsy, software) służących ich rozumieniu, a zatem porządek cyfrowy jest porządkiem kulturowego kodowania danych [178].

Istnienie danych to efekt nowoczesnego kultu wiedzy ścisłej, wspierającej się na regułach matematycznej składni. Kod cyfrowy powstał jako język scjentystyczny, w którym znaki miały być domyślnie pozbawione semantyki i wartości (jaki sens w odwrotnym przypadku miałaby matematyka?) – dopiero próby jego kulturowego okiełznania, wymuszone chęcią upowszechnienia nowego porządku technologicznego, spowodowały uznanie semantyki za równoprawnego partnera w cyfrowym świecie. Dziś wciąż najbardziej fundamentalny poziom technologicznego uniwersum cyfrowego opiera się wpływom kulturowym. W cyfrowym jądrze silnie pobrzmiewają echa kartezjańskie; jest modernistyczne przez odwołanie do dziedzictwa nauk ścisłych i wiedzy; upatruje w matematycznym porządku jedynego i doskonałego kodu świata.

Co oznacza ta odwrotna kolejność cyfrowego porządku, w którym to danym trzeba przypisywać wartości kulturowe? Jej skutki są podwójne. Po pierwsze, dane i bazy danych domagają się gigantycznej pracy poznawczej i metodologicznej: refleksji kulturowej, artystycznej, perceptualnej, wynajdywania zdolnych do ich okiełznania interfejsów i form, nowych gramatyk, itd. (wrócę do tego wątku niebawem). Drugim skutkiem jest tu niekontrolowany kulturowo przyrost danych. Ich ilość rośnie w stopniu dalece wyprzedzającym co do tempa i przewyższającym co do skali wszelkie tradycyjne kulturowe możliwości ich poznawania i wykorzystywania – wszelkie kultury, estetyki i logiki wiedzy, edukacji i komunikacji. Jeszcze do niedawna wydawało się, że to tempo ewolucji technologii komputerowych jest najbardziej zaskakującą kulturową prędkością współczesności. Wzór na obliczanie tej prędkości podał jeden z inżynierów pracujących dla producenta układów scalonych – Moore. Według niego prędkość obliczeniowa i zdolności do przechowywania danych podwajają się co kilkanaście miesięcy. Dzisiaj wiemy, że to hardware’owe tempo ewolucyjne, które uznać można za życiowy parametr rozwoju cyfrowego świata, jego puls, choć tak niezwykle prędkie, nie jest w stanie równać się z równolegle pracującą szybkością przyrostu danych. Ich liczba rośnie w tak niewiarygodnym tempie, że nawet jakiekolwiek próby szacowania jej tempa okazują się, jak do tej pory, jedynie bardzo przybliżone.

Jak wspomniałem, w zależności od poziomu technologicznego i użytkowego, na jakim podmioty posługują się danymi lub na jakim przewidziano dla nich określone zadanie funkcjonalne, dane różnią się od siebie. Inaczej mówiąc różne dane mają różny potencjał informacyjny. W naturalny sposób w zależności od punktu (poziomu) dostępu do określonego miejsca w cyfrowym ekosystemie te same dane mogą pełnić różne funkcje. Te zróżnicowane relacje infrastrukturalne można by opisać stosując się do popularnej w nowoczesnej matematyce reguły fraktali – niezależnie od miejsca/stanu, w którym się wobec danych znajdujemy możliwe jest wchodzenie głębiej wewnątrz nich i wychodzenie poza nie. Ten fraktalny układ danych to model mający jednak zastosowanie jedynie wobec energii semantycznej, która jest do nich przypisana. Fraktalność danych nie odnosi się do ich elektrycznej, materialnej natury. W tym przypadku podróżowanie w głąb danych kończy się na poziomie właściwości elektryczności jako zjawiska świata materii (jest tak przynajmniej w zakresie naszej obecnej wiedzy na temat fal elektrycznych i sposobów ich ujarzmiania). Te dane, które znajdują się w określonym wywołaniu bliżej, są lepiej dostępne, spełniają nadrzędną rolę funkcjonalną, przykrywają/udostępniają inne, ukryte, nazwać można najogólniej rzecz ujmując metadanymi. W innej konfiguracji, zgodnie z zasadą naturalnej jedności wszystkich ciągów cyfrowego kodu składających się zawsze na pewnym poziomie jedynie z dwóch wartości – zero i jeden, a w zasadzie z jednej lub jej braku, te same dane mogą mieć znaczenie podrzędne lub nie mieć go w ogóle. Dla przykładu: dane zawarte w elektronicznym ebooku – dla czytelnika ważny jest zakodowany elektronicznie tekst, kiedy ma ochotę na jego lekturę, dla interfejsu użytkownika i wyszukiwarki większe znaczenie będą mieć ogólne informacje o formacie pliku, jego układzie strukturalnym, zakodowanym layoucie, tagach opisujących tekst, itd.

Wobec takiego charakteru danych stosujemy coraz częściej metodę zoom znaną z wcześniejszych, optycznych mediów służących do rejestracji obrazu – aparatu i kamery. Dane, które wizualizują dla nas graficzne interfejsy, poddają się zbliżaniu i oddalaniu, a przebywanie w cyfrowym ekosystemie staje się dzięki temu nieustannym wyzwaniem lokacyjnym – ze względu na możliwości poruszanie się w tej przestrzeni w „dół, górę, boki” nasz kontakt z nimi jest doświadczeniem podróży i mapowania (do tego wątku wrócę bardziej szczegółowo w kolejnej części tego rozdziału). Danowa lokalizacja ma charakter podwójny – polega zarówno na lokalizowaniu pozycji użytkownika wobec rizomatycznej przestrzeni danych, jak i nieustannej hierarchizacji i porządkowaniu przez niego napotykanych danych.

Zapożyczone z języka fotografii, kina i telewizji gesty i metafory związane z poruszaniem się po medialnej przestrzeni (przywołany zoom właściwy dla kamer filmowych i telewizyjnych czy przewijanie strony naśladujące czytanie zwojów) to tylko namiastka możliwości operacyjnych, które wywołać można w środowisku bazy danych. Współcześnie to inne praktyki infrastrukturalne związane z nawigowaniem pośród danych stanowią o zasadniczej różnicy pomiędzy analogowym i cyfrowym ekosystemem informacyjnym. Mam tu na myśli indeksowanie danych – czyli nadawanie im znaczeń i symbolik kulturowych za pomocą tagów, katalogowania, znakowania, geolokalizacji, kontekstualizacji. Indeksowanie realizowane za pomocą tych i innych działań otwiera dane na znaczenia wykraczające poza ustanowione przez twórców konkretnych baz podziały i mapy technologiczne. Wprowadza alternatywne porządki zawartości cyfrowych magazynów i sieciuje ich zawartość z innymi tego typu bazami. Dla indeksowania nie ma wielu pierwowzorów i ekwiwalentów w gramatykach mediów analogowych i w ich kulturze. Przekształcanie danych w znaki i teksty to kulturowy rewanż za semantyczną jałowość technologicznej formy cyfrowego kodu – przypisywanie znaczeń wartościom 0 i 1 oraz ich cyfrowo-kulturowa ekonomia to świadectwo przejmowania kontroli nad matematyczną naturą technologii i kodu przez kulturę, dowód na semantyczną chłonność, płynność i otwartość cyfrowego świata. Hermeneutyczne informowanie danych wobec surowych: abstrakcyjnych, matematycznych kalkulacji elektryczności to pogranicze, na którym trwa spór o panowanie w cyfrowym świecie.

Baza danych to technologiczna forma magazynowania, porządkowania i udostępniania cyfrowo zakodowanych informacji (to semiotyczna cecha danych) / instrukcji dotyczących komputerowych operacji na elektryczności zarazem (to materialna, fizyczna cecha danych). Zadaniem bazy danych jest przechowywanie spreparowanych sekwencji kodu cyfrowego w taki sposób, aby możliwy był dostęp do nich na wiele różnych sposobów: za pomocą różnych algorytmicznych zapytań i różnych podłączanych do nich interfejsów. W ten sposób bazy są magazynami nominalnie otwartymi wobec różnych mechanik i logik wchodzenia w dane i gotowymi na oddziaływanie różnych modeli ich przetwarzania, projektowanych i wykonywanych za pomocą różnych narzędzi i estetyk wywoławczych. Wewnętrzny układ większości z baz jest płynny, co oznacza, że ich ustalona pierwotnie struktura może podlegać nieograniczonym rekonfiguracjom i przybierać nieograniczone kształty na bazie dostępnych zasobów – zależy to ostatecznie od konfiguracji hardware, co w tym przypadku oznacza przede wszystkim techniczny rodzaj pamięci, na której zostały zmagazynowane. Pamięć read-only umożliwia jedynie przyglądanie się wcześniej utrwalonej kompozycji danych; natomiast pamięć read-and-write pozwala na odczytywanie i manipulowanie danymi w ramach jednej bazy, ale zależy także od strukturalnego układu samej bazy: mogą one być hierarchiczne, sieciowe, relacyjne i zorientowane na obiektowość [179].

Na przestrzeni ostatnich kilkudziesięciu lat technologicznego i przemysłowego rozwoju baz danych pojawiły się różne koncepcje dotyczące ich wewnętrznej struktury. Rozumiane i projektowane były m.in.: jako układy hierarchiczne, sieciowe, relacyjne, obiektowe, warstwowe i mieszane [180]. Ewolucję tych form można opisać w duchu założeń cyfrowego przewrotu kopernikańskiego, o który w latach 70. apelował Bachman. Te zmiany układają się w następującą prawidłowość: od predefiniowania i technologicznego utrwalania zależności pomiędzy danymi w ramach modeli hierarchicznych, sieciowych czy relacyjnych (CD-ROM, klasyczna strona www w html) bazy danych przeszły ewolucję w kierunku otwartości na wiele możliwych rozwiązań strukturalnych i dostępności dla większej ilości zarządzających nimi administratorów/użytkowników (tagowanie, indeksowanie, html5, playlisty, logika wiki). Jakże bliska jest linia tej formalnej ewolucji baz danych wydarzeniom, które kultura dwudziestego stulecia „zaprogramowała” wobec innych swoich form: dzieła sztuki (literackiego, malarskiego dzieła otwartego jak je nazywa Umberto Eco, a za nim cała humanistyka [181]) czy liberalnej emancypacji społecznej podmiotu oraz takim procesom jak demokratyzacja czy postkolonializm. Systematyczna ewolucja rozwiązań software’owych i hardware’owych w tym kierunku to fakt, którego kulturowe i społeczne znaczenie jest nie do przecenienia. Potwierdza, dużo szerszy w skali, proces społecznej liberalizacji i dehierarchizacji technologii komunikacyjnych oraz społecznych cyrkulacji informacji. Świadczy o uspołecznianiu technologii, podważeniu transmitowanych przez nie kodów władzy, ideologii, technokracji, otwieraniu ich na wariacyjność użytkowania/wykorzystywania. Do tych wątków powrócę w kolejnych częściach rozdziału, kiedy będę analizować społeczne praktyki indeksowania danych.