Dane, informacje, metadane i danych magazyny
Czytaj książkę z rozdziału: Cyfrowy ekosystem danych
Podróż przez bazodanowe terytoria rozpocznijmy od ustalenia, czym są dane oraz magazynujące je bazy. Etymologia słowa dane (data) odsyła do łacińskiego datum, które oznacza coś, do czego można się odnieść, na czym można się opierać podczas prowadzenia obliczeń. Dane to, w tym tradycyjnym sensie, pożywka dla działań matematycznych, surowe zasoby abstrakcyjnego świata, które matematyka wykorzystuje jako materię w swojej kalkulacyjnej/wyobrażeniowej egzystencji. Z poprzedniego rozdziału, który poświęciłem kodowi cyfrowemu, wynika, że matematyka bez danych jest tak samo niepełna/niemożliwa jak i cyfrowość, w której dla cyfrowych maszyn dane są zarazem funkcjonalnymi (materialnymi, przez fakt regulowania fal elektrycznych płynących wewnątrz kalkulującej maszyny) jak i symbolicznymi zasobami (fale są zarazem poinformowane, czyli zakodowane, jak i informują/kodują – zgodnie z zasadami fizyki i termodynamiki, które mówią o bilansie energetycznym na wejściu do systemu i na wyjściu z niego), w które zamienia się elektryczność płynąca wewnątrz hardware cyfrowych technologii i które podporządkowują elektryczność kodom semantycznym, tj kulturowym. Danymi na poziomie elektryczności są pojedyncze elementy o wartościach 0 i 1, czyli on/off, tak/nie, jest/nie ma oraz ich ciągi, które przybierają różne interfejsy i kody wyższego poziomu – pikseli, bitów, bajtów, pingów, plików, katalogów, itd.
Ustrukturyzowana w postaci baz danych cyfrowość ma w konsekwencji trudny do jednoznacznego zdefiniowania status, bo dane i ich bazy to jednocześnie medialne obiekty i procesy. Ta specyfika jest w ogóle cechą charakterystyczną epoki postmedialnej – nie ma w niej jedynie materialnych obiektów, które nie są jednocześnie procesualnie „ożywionymi obiektami”; tak jak nie ma w niej procesów, które istnieją jedynie wirtualnie, bez zakorzenienia w materii maszyn i zjawisk fizycznych. Taki hybrydowy stan baz danych bierze się z przywołanej już powyżej natury samej matematyki i stworzonych na jej podstawie wszelkich działań kalkulatywnych, które nie istnieją, dopóki nie materializują się w odniesieniu do surowca, czyli danych. Podobnie jest z całym technologicznym krajobrazem cyfrowości, którym rządzi następująca zasada: hardware jest w nim nierozerwalnie związany z software, jedno bez drugiego nie istnieje.
Dane a informacje
Zrozumieć sens cyfrowych danych można tylko wówczas, kiedy weźmie się pod uwagę różnicę pomiędzy nimi a informacjami, tj. zasobami o charakterze semiotycznym, które wykorzystujemy w postrzeganiu, rozumieniu i konstruowaniu rzeczywistości. Różnica między matematycznie spreparowanym surowcem elektrycznym a informacjami jest mniej więcej taka, jak pomiędzy głoskami i literami (alfabetem) a słowami i zdaniami (językiem). Język uznać można za jeden z najdoskonalszych mechanizmów kulturowych radzenia sobie z bazą danych, czyli głoskami i literami właśnie. Na podstawie kilkudziesięciu elementów w tej bazie danych człowiek jest w stanie stworzyć tysiące możliwych ich kombinacji i sprawnie wykorzystać je w komunikacji. W oparciu o dane dopiero tworzymy informacje, choć trzeba jednocześnie pamiętać, że dane występują w wielu wymiarach funkcjonalnych, które nadają im różne właściwości informacyjne (to m.in. zagadnienie metadanych, do którego niebawem powrócę). Informacje to dane przetworzone w taki sposób, że nabierają poznawczego znaczenia. Dane informują, kiedy zostają wykorzystane semiotycznie [177].
Jednak analogia pomiędzy językiem i alfabetem a uniwersum danych nie przystaje do stanu faktycznego, kiedy się jej głębiej przyjrzeć. W przypadku języka jako kultury, najpierw posługiwaliśmy się kodem, a dopiero później pojawiła się potrzeba opracowania jego pojedynczych wartości – wyodrębnienia i nazwania językowych „danych”. W cyfrowym świecie jest odwrotnie: najpierw powstają dane, a dopiero potem stają się one przedmiotem cyrkulacji kulturowej, są pożywką dla różnych kulturowych gatunków i rodzajów. W wersji historycznej informacje z czasem doczekały się swoich pre-struktur, czyli danych alfabetycznych – zostały przez kulturę zdekodowane i skodyfikowane. W wersji cyfrowej dane powstają głównie wcześniej/równolegle wobec mechanizmów (algorytmy, interfejsy, software) służących ich rozumieniu, a zatem porządek cyfrowy jest porządkiem kulturowego kodowania danych [178].
Istnienie danych to efekt nowoczesnego kultu wiedzy ścisłej, wspierającej się na regułach matematycznej składni. Kod cyfrowy powstał jako język scjentystyczny, w którym znaki miały być domyślnie pozbawione semantyki i wartości (jaki sens w odwrotnym przypadku miałaby matematyka?) – dopiero próby jego kulturowego okiełznania, wymuszone chęcią upowszechnienia nowego porządku technologicznego, spowodowały uznanie semantyki za równoprawnego partnera w cyfrowym świecie. Dziś wciąż najbardziej fundamentalny poziom technologicznego uniwersum cyfrowego opiera się wpływom kulturowym. W cyfrowym jądrze silnie pobrzmiewają echa kartezjańskie; jest modernistyczne przez odwołanie do dziedzictwa nauk ścisłych i wiedzy; upatruje w matematycznym porządku jedynego i doskonałego kodu świata.
Co oznacza ta odwrotna kolejność cyfrowego porządku, w którym to danym trzeba przypisywać wartości kulturowe? Jej skutki są podwójne. Po pierwsze, dane i bazy danych domagają się gigantycznej pracy poznawczej i metodologicznej: refleksji kulturowej, artystycznej, perceptualnej, wynajdywania zdolnych do ich okiełznania interfejsów i form, nowych gramatyk, itd. (wrócę do tego wątku niebawem). Drugim skutkiem jest tu niekontrolowany kulturowo przyrost danych. Ich ilość rośnie w stopniu dalece wyprzedzającym co do tempa i przewyższającym co do skali wszelkie tradycyjne kulturowe możliwości ich poznawania i wykorzystywania – wszelkie kultury, estetyki i logiki wiedzy, edukacji i komunikacji. Jeszcze do niedawna wydawało się, że to tempo ewolucji technologii komputerowych jest najbardziej zaskakującą kulturową prędkością współczesności. Wzór na obliczanie tej prędkości podał jeden z inżynierów pracujących dla producenta układów scalonych – Moore. Według niego prędkość obliczeniowa i zdolności do przechowywania danych podwajają się co kilkanaście miesięcy. Dzisiaj wiemy, że to hardware’owe tempo ewolucyjne, które uznać można za życiowy parametr rozwoju cyfrowego świata, jego puls, choć tak niezwykle prędkie, nie jest w stanie równać się z równolegle pracującą szybkością przyrostu danych. Ich liczba rośnie w tak niewiarygodnym tempie, że nawet jakiekolwiek próby szacowania jej tempa okazują się, jak do tej pory, jedynie bardzo przybliżone.
Metadane
Jak wspomniałem, w zależności od poziomu technologicznego i użytkowego, na jakim podmioty posługują się danymi lub na jakim przewidziano dla nich określone zadanie funkcjonalne, dane różnią się od siebie. Inaczej mówiąc różne dane mają różny potencjał informacyjny. W naturalny sposób w zależności od punktu (poziomu) dostępu do określonego miejsca w cyfrowym ekosystemie te same dane mogą pełnić różne funkcje. Te zróżnicowane relacje infrastrukturalne można by opisać stosując się do popularnej w nowoczesnej matematyce reguły fraktali – niezależnie od miejsca/stanu, w którym się wobec danych znajdujemy możliwe jest wchodzenie głębiej wewnątrz nich i wychodzenie poza nie. Ten fraktalny układ danych to model mający jednak zastosowanie jedynie wobec energii semantycznej, która jest do nich przypisana. Fraktalność danych nie odnosi się do ich elektrycznej, materialnej natury. W tym przypadku podróżowanie w głąb danych kończy się na poziomie właściwości elektryczności jako zjawiska świata materii (jest tak przynajmniej w zakresie naszej obecnej wiedzy na temat fal elektrycznych i sposobów ich ujarzmiania). Te dane, które znajdują się w określonym wywołaniu bliżej, są lepiej dostępne, spełniają nadrzędną rolę funkcjonalną, przykrywają/udostępniają inne, ukryte, nazwać można najogólniej rzecz ujmując metadanymi. W innej konfiguracji, zgodnie z zasadą naturalnej jedności wszystkich ciągów cyfrowego kodu składających się zawsze na pewnym poziomie jedynie z dwóch wartości – zero i jeden, a w zasadzie z jednej lub jej braku, te same dane mogą mieć znaczenie podrzędne lub nie mieć go w ogóle. Dla przykładu: dane zawarte w elektronicznym ebooku – dla czytelnika ważny jest zakodowany elektronicznie tekst, kiedy ma ochotę na jego lekturę, dla interfejsu użytkownika i wyszukiwarki większe znaczenie będą mieć ogólne informacje o formacie pliku, jego układzie strukturalnym, zakodowanym layoucie, tagach opisujących tekst, itd.
Wobec takiego charakteru danych stosujemy coraz częściej metodę zoom znaną z wcześniejszych, optycznych mediów służących do rejestracji obrazu – aparatu i kamery. Dane, które wizualizują dla nas graficzne interfejsy, poddają się zbliżaniu i oddalaniu, a przebywanie w cyfrowym ekosystemie staje się dzięki temu nieustannym wyzwaniem lokacyjnym – ze względu na możliwości poruszanie się w tej przestrzeni w „dół, górę, boki” nasz kontakt z nimi jest doświadczeniem podróży i mapowania (do tego wątku wrócę bardziej szczegółowo w kolejnej części tego rozdziału). Danowa lokalizacja ma charakter podwójny – polega zarówno na lokalizowaniu pozycji użytkownika wobec rizomatycznej przestrzeni danych, jak i nieustannej hierarchizacji i porządkowaniu przez niego napotykanych danych.
Zapożyczone z języka fotografii, kina i telewizji gesty i metafory związane z poruszaniem się po medialnej przestrzeni (przywołany zoom właściwy dla kamer filmowych i telewizyjnych czy przewijanie strony naśladujące czytanie zwojów) to tylko namiastka możliwości operacyjnych, które wywołać można w środowisku bazy danych. Współcześnie to inne praktyki infrastrukturalne związane z nawigowaniem pośród danych stanowią o zasadniczej różnicy pomiędzy analogowym i cyfrowym ekosystemem informacyjnym. Mam tu na myśli indeksowanie danych – czyli nadawanie im znaczeń i symbolik kulturowych za pomocą tagów, katalogowania, znakowania, geolokalizacji, kontekstualizacji. Indeksowanie realizowane za pomocą tych i innych działań otwiera dane na znaczenia wykraczające poza ustanowione przez twórców konkretnych baz podziały i mapy technologiczne. Wprowadza alternatywne porządki zawartości cyfrowych magazynów i sieciuje ich zawartość z innymi tego typu bazami. Dla indeksowania nie ma wielu pierwowzorów i ekwiwalentów w gramatykach mediów analogowych i w ich kulturze. Przekształcanie danych w znaki i teksty to kulturowy rewanż za semantyczną jałowość technologicznej formy cyfrowego kodu – przypisywanie znaczeń wartościom 0 i 1 oraz ich cyfrowo-kulturowa ekonomia to świadectwo przejmowania kontroli nad matematyczną naturą technologii i kodu przez kulturę, dowód na semantyczną chłonność, płynność i otwartość cyfrowego świata. Hermeneutyczne informowanie danych wobec surowych: abstrakcyjnych, matematycznych kalkulacji elektryczności to pogranicze, na którym trwa spór o panowanie w cyfrowym świecie.
Bazy danych i ich ewolucje
Baza danych to technologiczna forma magazynowania, porządkowania i udostępniania cyfrowo zakodowanych informacji (to semiotyczna cecha danych) / instrukcji dotyczących komputerowych operacji na elektryczności zarazem (to materialna, fizyczna cecha danych). Zadaniem bazy danych jest przechowywanie spreparowanych sekwencji kodu cyfrowego w taki sposób, aby możliwy był dostęp do nich na wiele różnych sposobów: za pomocą różnych algorytmicznych zapytań i różnych podłączanych do nich interfejsów. W ten sposób bazy są magazynami nominalnie otwartymi wobec różnych mechanik i logik wchodzenia w dane i gotowymi na oddziaływanie różnych modeli ich przetwarzania, projektowanych i wykonywanych za pomocą różnych narzędzi i estetyk wywoławczych. Wewnętrzny układ większości z baz jest płynny, co oznacza, że ich ustalona pierwotnie struktura może podlegać nieograniczonym rekonfiguracjom i przybierać nieograniczone kształty na bazie dostępnych zasobów – zależy to ostatecznie od konfiguracji hardware, co w tym przypadku oznacza przede wszystkim techniczny rodzaj pamięci, na której zostały zmagazynowane. Pamięć read-only umożliwia jedynie przyglądanie się wcześniej utrwalonej kompozycji danych; natomiast pamięć read-and-write pozwala na odczytywanie i manipulowanie danymi w ramach jednej bazy, ale zależy także od strukturalnego układu samej bazy: mogą one być hierarchiczne, sieciowe, relacyjne i zorientowane na obiektowość [179].
Na przestrzeni ostatnich kilkudziesięciu lat technologicznego i przemysłowego rozwoju baz danych pojawiły się różne koncepcje dotyczące ich wewnętrznej struktury. Rozumiane i projektowane były m.in.: jako układy hierarchiczne, sieciowe, relacyjne, obiektowe, warstwowe i mieszane [180]. Ewolucję tych form można opisać w duchu założeń cyfrowego przewrotu kopernikańskiego, o który w latach 70. apelował Bachman. Te zmiany układają się w następującą prawidłowość: od predefiniowania i technologicznego utrwalania zależności pomiędzy danymi w ramach modeli hierarchicznych, sieciowych czy relacyjnych (CD-ROM, klasyczna strona www w html) bazy danych przeszły ewolucję w kierunku otwartości na wiele możliwych rozwiązań strukturalnych i dostępności dla większej ilości zarządzających nimi administratorów/użytkowników (tagowanie, indeksowanie, html5, playlisty, logika wiki). Jakże bliska jest linia tej formalnej ewolucji baz danych wydarzeniom, które kultura dwudziestego stulecia „zaprogramowała” wobec innych swoich form: dzieła sztuki (literackiego, malarskiego dzieła otwartego jak je nazywa Umberto Eco, a za nim cała humanistyka [181]) czy liberalnej emancypacji społecznej podmiotu oraz takim procesom jak demokratyzacja czy postkolonializm. Systematyczna ewolucja rozwiązań software’owych i hardware’owych w tym kierunku to fakt, którego kulturowe i społeczne znaczenie jest nie do przecenienia. Potwierdza, dużo szerszy w skali, proces społecznej liberalizacji i dehierarchizacji technologii komunikacyjnych oraz społecznych cyrkulacji informacji. Świadczy o uspołecznianiu technologii, podważeniu transmitowanych przez nie kodów władzy, ideologii, technokracji, otwieraniu ich na wariacyjność użytkowania/wykorzystywania. Do tych wątków powrócę w kolejnych częściach rozdziału, kiedy będę analizować społeczne praktyki indeksowania danych.
Big Data a wiedza i nauka
Wspomniałem o trudnościach związanych z oszacowaniem wielkości danowych zasobów istniejących w cyfrowym świecie. Ilość danych i ich przyrost to zjawisko bez kulturowego czy społecznego precedensu. W cyberkulturowej nowomowie pojawiło się nawet dedykowane temu problemowi określenie – big data, które i ja przyjmuję jako właściwy tag do dalszej analizy problemu danych. Czy i jak można zjawisko big data oszacować? Jak zmierzyć i zważyć kryjący się za nim danowy ocean i jak zastosowane do takiego pomiaru jednostki mają się do znanych kulturze kwantyfikatorów świata? Tę kulturową arytmetykę danych zacznijmy od poziomu jednostki zanurzonej w cyfrowy świat. Lingwiści szacują, że w ciągu swojego życia przeciętny człowiek wchodzi w kontakt, czyli wypowiada i słyszy, ilość słów, która przy obecnych metodach kodowania cyfrowego i przechowywania tekstu w elektronicznej pamięci przekłada się na około 1TB danych tekstowych. Ta wielkość daje nam wyobrażenie o skali zjawiska, z którym borykamy się na co dzień zarządzając transferami, odczytaniami i przetwarzaniem danych, które dalece tę liczbę przewyższają – przy zastrzeżeniu, że nieuprawnione byłoby stawianie na równi cyfrowej wersji tekstu z zakodowanym w ten sposób komunikatem audio czy wideo. Popatrzmy także na inne niesamowite wielkości związane z obecnością danych: w roku 2010 ludzkość przechowywała ilość danych wystarczającą do wypełnienia 60000 Bibliotek Kongresu. Na świecie mamy już 4 miliardy użytkowników telefonów komórkowych, pośród których 1200000000 to użytkownicy smartfonów, którzy nieustannie pobierają i wysyłają dane, wykorzystują już istniejące i tworzą własne. YouTube chwali się, że na jego serwerach co minutę przybywają 24 godziny materiału wideo. Liczba smartfonów rośnie o 20% rocznie, a liczba różnego typu sensorów i czujników, które automatycznie generują dane i ich sieciowy ruch wzrasta każdego roku o jedną trzecią, zaś liczba krótkich wiadomości umieszczanych na Twitterze ma przekroczyć 500 mln dziennie do końca 2012 roku [182]. Analitycy IBM twierdzą, że 90% istniejących danych powstało w okresie ostatnich dwóch lat [183].
Pojedyncze bazy są fragmentami oceanu cyfrowego świata, w którym łączą się ze sobą za pośrednictwem podejmowanym przez ich dysponentów działań i rozwiązań strukturalnych i wymieniają między sobą zasobami. Szacuje się, że obecnie (pierwsza połowa 2012 roku) objętość danych w skali globalnej oscyluje wokół liczby 3 tysięcy zettabajtów [184]. Dalszemu wzrostowi tej liczby sprzyjają taniejące i coraz bardziej dostępne i pojemne nośniki danych, rozwijające się sieci, a także podejmowane przez różnego rodzaju podmioty decyzje o upublicznianiu i udostępnianiu zbieranych przez lata danych.
Po fali mniej lub bardziej dramatycznie brzmiących ostrzeżeń przed zalewem, potopem, smogiem danych (informacji), pojawiających się zarówno w dyskursie naukowym jak i codziennej debacie społecznej, pojawiało się wiele racjonalnych i profesjonalnych narzędzi i strategii zarządzania danymi, które pozwalają w mniej lub bardziej udany sposób żeglować po wodach i głębinach informacyjnego oceanu. Do nadmiaru danych jak i do ich samych zaczynamy podchodzić coraz bardziej świadomie, postrzegając ich zasoby jako elektroniczne surowce naturalne, w które bogate są cyberkulturowe lokalizacje. Uczymy się także systematycznie ich ekologii i ekonomii. Instytucje ekonomiczne, wojsko, biznes, rozrywka już tę dziejową zmianę zaczęły sprawnie do swoich potrzeb wykorzystywać. Biznes świetnie radzi sobie z generowaniem wiedzy handlowej na bazie ruchu sieciowego i zarządzania danymi przez użytkowników – wystarczy tu wspomnieć o sugestiach zakupowych amazon.com, podpowiedziach wyszukiwarek czy serwisów społecznościowych. Wiedza i nauka właśnie wchodzą w ten obszar, powoli zdając sobie sprawę jak wielki oferuje on potencjał poznawczy, ale jednocześnie stąd biorą się najważniejsze środowiskowe opory, jak bardzo będą się musiały zmienić sposoby budowania wiedzy, dostępu do niej i jej trwałość/adekwatność kiedy badania naukowe zaczną wyglądać dokładnie tak, jak wyglądają dzisiaj działania analityczne podejmowane na ogromną skalę przez przedsiębiorstwa, państwa, wojsko [185]. Przy okazji powstaje pytanie o wspomniane kulturowe mechanizmy radzenia sobie z nadmiarem danych i zarządzania big data. Rozmiar danowej lawy zwiastuje kryzys indywidualistycznego doświadczenia medialnego świata charakterystycznego dla dziecięcgo okresu cyberkultury i jej emancypacyjnej mitologii. Obok prywatnego charakteru nowomedialnego zaangażowania potrzebne będą także zbiorowe mechanizmy – jednostki najprawdopodobniej nie będą w stanie radzić sobie w tak obszernym świecie zasobów do przetworzenia i wykorzystania.
Big data to z jednej strony wyzwanie dla kultury, która dopiero tworzy scenariusze poruszania się w środowisku danych i nas samych stawia wobec ich przytłaczających ilości. Z drugiej strony to przestrzeń wyścigu technologicznego i cywilizacyjnego, w którym stawką są nowe formy, metodologie i pragmatyki wiedzy, w coraz szybszym tempie oddalające się od swoich analogowych pierwowzorów. Wraz z regułami baz danych i w oparciu o danowe zasoby powstaje nowy infosystem. Zrozumienie jego struktury, tworzenie narzędzi do jego obsługi i zdolność eksploatacji jego odnawialnych, nigdy nietracących energii, zasobów to wyzwania, których zasięg przekracza komunikacyjne i medialne możliwości większości istniejących rozwiązań prawnych i praktycznych. Przytłaczająca ilość danych zarówno w skali doświadczenia indywidualnego jak i w skali zjawiska kulturowego to specyficzne, dromologiczne (Virilio) potwierdzenie procesualnej natury baz danych – o tej ilości trudno myśleć w kategoriach obiektu, bardziej pasują do nieustannej erupcji i potoku danych kategorie procesu, płynności. Big data upłynnia kulturę.
Bazodanowa wiedza
Przejdę teraz do analizy wspomnianej potencjalnej konkurencji, jaką dla świata nauki stanowią „świeckie” sposoby i narzędzia pozyskiwania i analizy danych. W roku 2008, Chris Anderson w jednym ze swoich felietonów na łamach „Wired”, krytycznie pisał o dotychczasowych sposobach uprawiania nauki i konstruowania wiedzy, twierdząc, że nadchodzi koniec ich modelu w obliczu big data. Prowokacyjnie obwieszczał koniec teorii, który będzie miał miejsce w zderzeniu z Petabyte Age (to dla niego synonim big data) i bazodanową logiką cyberkultury [186]. Publicysta dowodził wyższości matematycznych i statystycznych działań – trudno nie dostrzec w takiej optyce mającego korzenie w projekcie modernistycznym konfliktu pomiędzy „prawdziwymi” sciences a „nonszalanckimi” humanities – realizowanych w oparciu o olbrzymie, wielowątkowe bazy danych nad tradycyjnym instrumentarium i metodyką pracy naukowej. Przekonywał, że wyrafinowana technicznie analiza danych jest metodą oferującą niegraniczone możliwości poznawcze; bazom danych możemy zadawać nieograniczoną ilość pytań ,a same pytania mogą być niezwykle złożone, wielowymiarowe (wielowariantowe). Jednocześnie dostęp do danych i ich olbrzymia ilość to dzisiaj elementy natywne w środowisku cyfrowym, dostępne w większości dla każdego zainteresowanego i otwarte na wszelkie potencjalne zapytania. Właściwie zapytane bazy danych nie potrafią kłamać ani manipulować informacjami, oferują odpowiedzi w trybie natychmiastowym, pozwalają na nieustanne zmienianie hipotez badawczych, na procesualne zachowanie badającego algorytmu, update nowymi danymi i algorytmami pytającymi, ich przenikanie i remiksowanie, itd. Innymi słowy: wewnątrz baz danych znika potrzeba spekulacji i tworzenia modelowych wizji, wystarczy, mając dostęp do konkretnych danych, pozwolić kalkulującym maszynom działać w oparciu o zdefiniowane przez badacza zapytania/algorytmy.
Jaka, w świetle tych oskarżeń wobec tradycyjnej nauki i obietnic związanych z potencjałem nauki wykorzystującej dane, może być bazodanowa wiedza i jakie naukowe reguły można w oparciu o nią budować i wykorzystywać? Do obu sfer przenikają z coraz większą efektywnością wspomniane wcześniej strategie pracy z danymi, które wykorzystywane są w biznesie i innych sektorach rynku. Nauka wchodzi w nową fazę operacyjną, który Amerykanie okrzyknęli już mianem data science [187]. W obliczu dostępnych danych działania naukowe wpisują się w praktyki takie, jak data mining (przeszukiwanie danych i ich analiza) czy wizualizowanie danych (graficzne interpretacje wielkich baz danych – data visualisations).
Zanim przejdę do omówienia tych nowych metod działania, które łączą pracę naukową z innymi sposobami generowania wiedzy dostępnymi w kulturze i pokażę ich relacje, sięgnę do pracy Bena Fry poświęconej nowym kompetencjom, potrzebnym w epoce informacji badaczom chcącym korzystać w swojej pracy z cyfrowych zasobów. Fry dowodzi jak bardzo wieloma „skilami” musi dysponować w cyfrowym świecie jego analityk, jak wiele pragmatyk, semantyk, logik musi brać pod uwagę poszukując odpowiedzi na zadawane informacyjnemu uniwersum pytania. Według Amerykanina, choć to w coraz większym stopniu także i powszechne odczucie związane ze zmieniającym się światem nauki, współczesny badacz musi mieć kompetencje w zakresie informatyki, aby sprawnie pozyskiwać i technicznie organizować dane; matematyki i statystyki, aby był w stanie tworzyć zaawansowane modele abstrakcyjne, które będą zdolne do przekładania skomplikowanych semantycznie zapytań na skomplikowane zapytania bazodanowe; projektowania graficznego i design, aby móc otrzymane wyniki badań przedstawić w prostej, zrozumiałej dla laików formie; wreszcie winien mieć także kompetencje w zakresie projektowania informacji i rozwiązań interfejsowych, aby sprawnie eksportować wyniki badań do przestrzeni naukowej i publicznej [188]. Fry w gruncie rzeczy zgłasza postulat, który i ja w tym tekście zdążyłem już sformułować – w nowych, cyfrowych okolicznościach potrzebne są kompetencje i postawa właściwe dla homo faber.
W podobnym kierunku zmierza generalnie humanistyka. W jej środowiskach coraz chętniej przebijają się głosy mówiące o konieczności cyfrowej reformy tego konglomeratu dyscyplin i metodologii, o nowej logice badawczej digital humanities [189] jako sposobie wejścia w dane i korzystania z nich na rzecz badań nad kulturą, życiem społecznym, itd. Niezależnie od tego, w jaki sposób i o ile nauka (science i humanities) zrozumie i wykorzysta cyfrową rewolucję i jej wpływ na sposoby i strukturę generowanej wiedzy, pewne jest już dzisiaj, że jej monopol na poznanie i społeczna status z nim związany zostaną podważony, a być może także przełamane [190]. Wciąż wpisana w genetykę nauki i wiedzy w ogóle jest przecież obawa o przedostawania się ich zasobów poza naturalny, pierwotny nośnik – ludzką pamięć. Już w starożytności swoje obawy wobec takiego kierunku jej rozwoju wyraził Platon w krytyce medium pisma [191]. Środowisko bazodanowe rozbija integralność wiedzy faktograficznej i interpretatywnej w ramach naturalnie holistycznej i hermeneutycznej pamięci.
Gromadzenie najbardziej imponujących co do liczby i wartościowych poznawczo danych odbywa się dziś przede wszystkim poza sektorem oficjalnych instytucji naukowych. Rolę skutecznego konkurenta przejęły w tym zakresie, jak to już wcześniej nadmieniłem, przedsięwzięcia biznesowe, które z tworzenia i wykorzystywania danych oraz obrotu nimi uczyniły główny kierunek swojego działania. Oszałamiająca wartość debiutującego niedawno na giełdzie facebook.com czy wcześniejsze rekordy wycen bite przez google.com to niepodważalne dowody świadczące o wadze zmian, które zachodzą na medialnym rynku i w sektorze pozyskiwania i cyrkulacji danych, ich zamianie/wymianie na informacje. Spośród tysięcy innych realizowanych w przestrzeni cyfrowej ewidentny sukces rynkowy osiągnęły te inicjatywy, które stały się metaforycznymi i technologicznymi zarazem drogowskazami dla społeczeństw informacyjnych, wytyczającymi szlaki wiodące przez bezkresne wody cyfrowego oceanu wraz z ofertą umiejętności ich pokonywania. Google to największa z latarni górująca nad cyfrowymi wodami i orientująca wszystkich żeglujących i surfujących po nich – olbrzymia składnica danych o danych, najważniejszy dziś z metatekstów opisujących zasoby cyberkultury. Facebook to zaś magazyn wszelkiej społecznej wiedzy żeglarzom potrzebnej. Obie firmy zajmują się gromadzeniem, przetwarzaniem i obrotem cyfrowo zakodowanymi informacjami – są softwarem harcującym w gigantycznej, o światowym zasięgu, bazie danych, którą nieustannie porządkują, przetwarzają i na nowo udostępniają. Efektem działania obu serwisów jest nowe oblicze kulturowej ekonomii i ekologii cyfrowych danych; nowa wizja świata informacyjnego i nowe narzędzia, za pomocą których można w tym świecie egzystować. W ten sposób oba te flagowce i tysiące pomniejszych jednostek tworzą wiedzę, której pokłady rosną równie szybko, jak sam zasięg tej flotylli.
Google’owa wiedza bierze się nie tylko z tego, o czym stworzony przez korporację software automatycznie dowiaduje się z zasobów Internetu, indeksując je według zadanych kryteriów. Olbrzymie jej pokłady odkrywa Google wtedy, gdy swoje narzędzia analityczne przykłada do danych gromadzących się za sprawą śladów pozostawianych podczas korzystania z tego serwisu przez jego użytkowników [192]. Mają oni swoje zwyczaje, zadają bardzo konkretne pytania, w określony sposób poszukują określonych zasobów, różnie się nimi dzielą i na różne sposoby ich używają. Monitorowanie użytkowników, analizowanie reguł i semantyki ich zachowań to właśnie bazodanowe narzędzia i metody, za pomocą których powstaje pozaakademicka socjologia, psychologia, wiedza o kulturze i o świecie w ogóle. Wynika z tego, że sens medialnej rewolucji 2.0 nie polega jedynie na przejęciu medialnej władzy przez cyfrowy vox populi. Zjawisko ma także drugą stronę: jest nią społeczny i kulturowy kapitał zakodowany do postaci cyfrowych śladów i tropów, które pozostawiamy po sobie za każdym razem, kiedy znajdujemy się w przestrzeni danych. Jednym z najważniejszych wyzwań nauki i edukacji w tym kontekście będzie możliwość konkurowania z rynkowymi, a więc partykularnymi, interesami korporacji gromadzących dane, które mają na tym polu osiągnięcia dalece wyprzedzające współczesne instytucje i metody naukowe, i obnażania wszelkich innych mechanizmów kontroli i nadzoru, uruchamianych zgodnie z zasadą wielokierunkowej, rizomatycznej struktury komunikacji i przepływów danych w cyberprzestrzeni. Nowe oblicze starej newtonowskiej zasady mogłoby dzisiaj wyglądać w następujący sposób: każdemu pozyskanemu z cyberprzestrzeni zasobowi informacyjnemu towarzyszy zasób udostępniony. Wrócę do tej tematyki szerzej raz jeszcze omawiając problem nadzoru w cyfrowej przestrzeni danych.
Operatorzy i eksplorerzy gigantycznych baz danych w centrum swojej działalności sytuują generowanie i/lub pozyskiwanie metadanych. W nauce może odbywać się proces paralelny, choć obliczony na osiągnięcie innego efektu. Wiedza wynikająca z danych może mieć charakter metawiedzy. Czym są w tym kontekście naukowe metadane? Najprostsza na to pytanie odpowiedź wskazuje na dotychczasowy dorobek nauki: traktaty, artykuły, książki, dyskursy – wszelkie zapisane tekstem lub utrwalone za pomocą innych medialnych nośników (obrazy, nuty) tezy i zbiory informacji. Algorytmiczne ich indeksowanie i przeszukiwanie może wskazać na tendencje w rozwoju dyskursów naukowych, np. w humanistyce za sprawą metody wizualizowania danych można doszukiwać się występowania i fluktuacji określonych pojęć na przestrzeni dziejów. Dla nauk ścisłych analiza metadanych ma równie istotne znaczenie. Generowane w bazodanowy sposób powstawać mogą prefabrykaty służące dalszym analizom i algorytmicznej obróbce. Na tym etapie „wyścigu zbrojeń” pomiędzy sferą nauki a jej komercyjnymi konkurentami balans sił prezentuje się następująco: nauka korzysta głównie ze spreparowanych przez korporacje i rynek w ogóle półproduktów. Sama nie jest chyba w stanie posługiwać tak wyrafinowanymi narzędziami i na taką skalę, jak robią to przedsiębiorstwa wyspecjalizowane w nawigowaniu po bazodanowych morzach i regulujące je. Nauka w obliczu danowej zmiany straciła pozycję lidera w zakresie informacyjnych innowacyjności i kreatywności, brakuje jej także technologicznego zaplecza i zasięgu, którym dysponują społecznościowi gracze z Krzemowej Doliny i na dodatek daje się zauważyć w niej wewnętrzny dysonans co do konieczności i zasadności adaptacji do nowych okoliczności [193].
Jednym z graczy ekspansywnie eksplorującym pole, na którym nauka nie ma wystarczającej liczby narzędzi i zaplecza do ich wykorzystania, jest Facebook.com. Korporacja zainwestowała ostatnio spore środki w utworzenie działu badawczego, którego zadaniem jest najpierw socjologiczna ocena gromadzonych za pośrednictwem serwisu danych, a następnie opracowanie scenariuszy i narzędzi, dzięki którym zdobędzie ona zdolność do wykorzystania i kapitalizowania danych w formie tak przygotowanej wiedzy sprzedawanej innym. Blisko miliard użytkowników portalu pozostawia na nim dane dotyczące swoich codziennych działań, obyczajów, relacji ze światem i innymi. Odpowiednie analizy tych danych mogą zmienić nie tylko wiedzę o społeczeństwie, ale także skutecznie podważyć prymat nauki jako uprzywilejowanego dostawcy wiedzy i jej wiarygodnego generatora. Przykładowym, banalnym w swej merytorycznej zawartości, ale odsłaniającym potencjał tego typu działań, narzędziem, które skonstruowali socjologowie firmy, jest pomiar „narodowego współczynnika szczęśliwości”. Można go zmierzyć licząc stosunek występowania słów uznawanych za wyrażające zadowolenie wobec tych, które powszechnie uznaje się za przejaw smutku. Narzędzie miałoby pracować w oparciu o analizę wpisów użytkowników portalu w danym okresie, obserwować wzrosty częstotliwości występowania oznak zadowolenia i oznak smutku, wytyczając w ten sposób rzeczony diagram „narodowej szczęśliwości”. Tego typu kryteriów wobec tak gigantycznej i wiarygodnej bazy danych, jaką są zasoby portalu, można zastosować wiele więcej [194]. Jaki badacz, jaka inna instytucja badawcza ma szansę na pracę z taką ilością danych do analizy i w tak nieograniczony sposób? O ile, jako społeczeństwa, państwa, kultury, grupy i jednostki, gotowi jesteśmy na coraz bardziej realną i już osiągalną inżynierię społeczną w oparciu o takie bazy danych jak Facebook.com? Na te pytania nie sposób jeszcze dzisiaj odpowiedzieć. Są to jednak pytania, które wytyczą wiele kulturowych sensów bazodanowego świata i jego wpływu na kulturę – bez wątpienia ich istnienie stawia naukę przed okolicznościami, których nie sposób zbagatelizować, ani tym bardziej pominąć.
Dane i Arka Noego
Wiadomo natomiast już teraz, że bazodanowy zwrot informacyjny z okien korporacyjnych budynków i niektórych medialnych operatorów wygląda aż nazbyt ponętnie i obiecująco. Wiele istniejących systemów instytucjonalnych znajdzie się w wyniku tego zwrotu w sytuacji podobnego zagrożenia, jakie dla tradycyjnego warsztatu i systemu nauki stanowi konkurencja ze strony operatorów big data. Danowy ekosystem zmieni dogłębnie wszelkie inne dziedziny związane z obrotem informacjami, takie jak np.: archiwistyka, bibliotekarstwo, muzealnictwo, media, i wiele innych.
Do mitycznej metafory kultury Arki Noego sięga Peter Weibel, medioznawca kierujący jednym z najważniejszych na świecie miejsc sztuki mediów – ZKM w Karlsruhe, pisząc o bazodanowych losach tradycyjnych instytucji imformacyjnych [195]. Mit arki przyłożony do rzeczywistości dzieł sztuki i ich kulturowej cyrkulacji wynika z zasady selekcji, oddzielania rzeczy wartościowych od zwykłych; tak jak Noe dbał o to, aby w ograniczonej kubaturze zbudowanej przez niego łodzi zmieściły się najbardziej wartościowe i reprezentatywne elementy świata przyrody, by ocalić je przed zagładą, tak i tradycyjny obieg kultury opiera się na zasadzie selekcji i koneserskiej pieczołowitości katalogowania. Trudno o miejsce w arce kultury – rozciągnę Weiblowską metaforę na szerszy niż tylko współczesna sztuka obszar – bo ich ilość jest ograniczona, a podejmowane przez następców Noego decyzje pozostawiają poza jej pokładem wiele mniej lub bardziej wspaniałych gatunków i form, tekstów i obrazów. Arka jest synonimem kultury masowej, w której przez wąskie gardło elitarnych instancji znawców i specjalistów przedostają się jedynie te „dane”, które uznają oni za wartościowe i pożyteczne z określonego ideologicznie punktu widzenia. Te ich decyzje mają podłoże ekonomiczne, polityczne, światopoglądowe.
Przeciwieństwem kultury selekcji jest dla Weibla kultura Web 2.0. Pomijam w tym miejscu spory na temat zasadności i ograniczenia tego sformułowania, podzielam – podobnie jak sam Weibel – ponad nie jego olbrzymią siłę semantyczną, której sens wynika z prostej zakodowanej (zaprojektowanej designersko na poziomie samego znaku) w nim konstatacji o radykalnej zmianie w obszarze kultury medialnej. W logice 2.0 Weibel upatruje fundamentów nowego krajobrazu kultury. Rolę analogowej arki zajmują w nim dyskowe przestrzenie magazynowe, które oferują swoim użytkownikom nieograniczoną chłonność i dostępność. Pomieszczą każdą ilość cyfrowo zakodowanych opowieści o świecie, jego digitalnych reprezentacji i alterwersji (technologiczne marzenia o infinity storage). W obliczu gigantycznych baz danych otwierających swoje podwoje na wielu poziomach naszej immersji w cyberprzestrzeń, a w szczególności metabazy danych (jednocześnie bazy metadanych), jaką jest Internet (na ten temat więcej niebawem), metafora arki wyczerpuje swój dotychczasowy sens. Kultura nie jest już (wpływ tego mechanizmu jest radykalnie osłabiony i ograniczony do wybranych obszarów rynkowych, politycznych, gospodarczych, takich jak instytucje kultury, jej ministerstwa, fundacje organizujące prace artystów i wydarzenia kulturalne) zasobem poddawanym selekcji (cenzurze) elit koneserów i urzędników, limitowana przez znawców i systemy cyrkulacji. Wraz z pojawieniem się cyfrowej nakładki na rzeczywistość stała się miejscem schronienia dla wszystkich chętnych. Sceną, na której amatorzy pokazują mniej lub bardziej udane, unikalne i powielane po wielokroć dzieła (teksty). W tym nowym krajobrazie masy produkują na masową skalę sztukę (kulturę) dla samych siebie, nie dbając o jakiekolwiek uwierzytelnienia czy świadectwa jakości ze strony starego systemu elit i ich oragnzacji. Ekosystem baz danych oznacza kulturową platformę sztuki dla mas tworzonej i konsumowanej przez nie same.
Co jednak w takim razie z tradycyjnymi instytucjami, takimi jak muzeum, szkoła, uniwersytet, biblioteka, galeria, archiwum w obliczu tych przeciwieństw? Wszystkie one działają w duchu elitarnych selekcji informacji i masowej, bezzwrotnej ich transmisji. Weibel słusznie obawia się o ich motywacje i zdolność do adaptacji. Dla wielu instytucji zmiana 2.0 oznacza w perspektywie radykalny kryzys tożsamości. Wiele z nich z pewnością okaże się mało podatnych na zmiany, nie mając na nie, na dodatek, ani ochoty, ani niespecjalnie czując potrzebę adaptacji do nich. Jeśli taką zdystansowaną postawę uznamy za reprezentatywną dla oficjalnej polityki państw i poszczególnych sektorów działań kulturalnych i społecznych, to wokół sporu o oficjalną selekcję i dystrybucję informacji oraz nowe społeczne formy i cyrkulacje informacji może narastać nie tylko finansowy czy polityczny konflikt, ale także pokoleniowe, cywilizacyjne pole sporne i objawiać się mogą potencjalne przestrzenie nowego rodzaju wykluczenia kulturowego i społecznego. Do tego wątku powrócę jeszcze przy okazji rozważań na temat alternatywnych obiegów danych.