Duże dane to zbiór danych tak duży i złożony, że staje się niewygodny do pracy dla standardowych narzędzi zarządzający bazami danych.

Analiza i badania wykazały, że duże dane stają się coraz ważniejsze zarówno dla IT jak i biznesu. W 2011 roku podczas badań dużych firm (500 do 999 pracowników) i korporacji (1,000 i więcej pracowników) pytano decydentów IT, zaznajomionych z obecnym środowiskiem bazodanowym w ich organizacjach o znaczenie analityczne dużych danych — 6% odpowiedziało, że to dla nich najważniejsza sprawa w dziedzinie IT, a 45% sklasyfikowało problem w top 5 najważniejszych spraw. W 2012, gdy zadano to samo pytanie (aczkolwiek nieco innej grupie demograficznej, która zawierała więcej firm średniej wielkości, gdzie pracowało około 100 pracowników), liczba firm, która uważa duże dane za główny temat IT była trzy razy większa tj. 18%, natomiast w top 5 spraw IT, duże dane znajdowały się w 45% badanych firm.

W 2012 postanowiono trochę podrasować badanie dużych danych, poprzez pytania o konieczność zwiększenia przetwarzania dużych danych i jak się to ma do wszystkich innych biznesowych priorytetów. Spowodowało to znaczną zmianę wyników, 28% decydentów odpowiedziało iż to duże dane mają największy priorytet w porównaniu do innych biznesowych spraw, natomiast 38% umieściło je w ich top 5.

Badania z 2011 wykazały, że ponad 50% respondentów przetworzyło średnio 500 GB danych, jako część wykonywania typowej analizy danych.  W 2012, największy średni zestaw przetworzonych danych wykonany przez jedną organizację wyniósł 10 TB.

Przetwarzanie i analiza danych są częściej wykonywane w czasie rzeczywistym. W 2011 roku, zapytano o częstotliwość aktualizacji dużych danych, okazało się, że 15% badanych aktualizuje je w czasie rzeczywistym, a 38% w ciągu jednego dnia. W 2012 zapytano o częstotliwość aktualizacji największych zestawów dużych danych, 22% badanych odpowiedziało, że robią to w czasie rzeczywistym, a 45% w ciągu jednego dnia.

Bardzo mała tolerancja dla przestoju w pracy. W 2012 roku, 53% badanych mogło dopuścić do przerwy nie dłuższej niż 3 godziny, po tym okresie ich organizacja odnotowałaby duże starty finansowe lub miałby miejsce inny niekorzystny czynnik mający wpływ na cały biznes.  Z tej grupy 6% nie może pozwolić sobie na jakikolwiek przestój. Natomiast 14% respondentów uważa, że wytrzyma przestój dłuższy niż 24 godziny.

Podsumowanie

Ilość dużych danych jest spora i ciągle rośnie, w szczególności, gdy policzymy kopie tych dużych danych, wymagane do dodatkowej analizy i zabezpieczenia danych. Działy IT będą poszukiwać rozwiązań skalowalnych, które spełnią ich oczekiwanie, bez konieczność zatrudniania armii administratorów. W tym samym czasie analiza dużych danych i aktualizacja danych w czasie prawie rzeczywistym otrzymują coraz większy priorytet w biznesie i IT, co powoduje, że coraz większą uwagę poświęca się infrastrukturze serwerowej, na której dane są przechowywane.

Badania udowodniły, że duża liczba firm mająca, wiedzę z zakresu przetwarzania danych, zdecyduje się zapłacić więcej za serwer wyposażony w funkcjonalność wysokiej dostępności. Mimo iż inne badanie pokazują, że odnotowuje się coraz większe cięcia w tym środowisko, to większość firm zdecyduje się zapłacić więcej za funkcję HA, niż warstwowe przechowywanie, obsługę dysków SSD, czy technologie redukujące ilość przechowywanych danych, jak deduplikacja, czy thin provisioning.