Koncepcja Lakehouse ma na celu połączenie jeziora danych i hurtowni danych


Data Lakehouse — to nie jest letnia ucieczka dla przepracowanych administratorów baz danych (DBA) lub analityków danych, to koncepcja, która próbuje wypełnić lukę między hurtownia danych i jezioro danych.

Innymi słowy, Data Lakehouse ma na celu połączenie elastyczności i stosunkowo niskiego kosztu Data Lake z łatwością dostępu i obsługą funkcji analitycznych dla przedsiębiorstw, które można znaleźć w hurtowniach danych. .

W tym artykule przyjrzymy się cechy Data Lakehouse i daj kilka wskazówek dostawcom, którzy je udostępniają.

Ograniczenia jezior i obawy magazynowe

Przypomnijmy kluczowe funkcje Data Lake i hurtowni danych, aby jasno określić, w co wpasowuje się idea Data Lakehouse.

Jeziora danych są uważane za najbardziej wysuniętą w górę lokalizację dla zarządzanie danymi przedsiębiorstwa. To tam przepływają wszystkie dane organizacji i mogą one żyć w mniej lub bardziej surowym formacie, począwszy od nieustrukturyzowany do ustrukturyzowanych plików graficznych i PDF do baz danych, poprzez XML, JSON, i tak dalej. Może istnieć funkcjonalność typu wyszukiwania, być może za pośrednictwem metadanych, a niektóre analizy ad hoc mogą być przeprowadzane przez naukowców zajmujących się danymi.

Możliwości przetwarzania prawdopodobnie nie będą krytyczne ani zoptymalizowane pod kątem określonych przepływów pracy, to samo dotyczy pamięci masowej.

Reklama

Z drugiej strony hurtownie danych znajdują się na przeciwległym biegunie. Tutaj zestawy danych – prawdopodobnie po eksploracyjnych fazach pracy w jeziorze danych – są udostępniane do bardziej regularnych i rutynowych analiz.

Hurtownia danych umieszcza dane w bardziej upakowanym i przetworzonym formacie. Zostaną zbadane, ocenione, skłócone i przedstawione w celu szybkiego i regularnego dostępu, i prawie zawsze jest dane strukturalne.

Tymczasem obliczenia i przechowywanie w architekturze hurtowni danych zostaną zoptymalizowane pod kątem wymaganych rodzajów dostępu i przetwarzania.

Przez jezioro do domku nad jeziorem

Data Lakehouse próbuje wypełnić przepaść między jeziorem danych a hurtownią danych. Pomiędzy dużą, amorficzną masą jeziora z niezliczonymi formatami i brakiem użyteczności w codziennym użytkowaniu, a ciasną, wysoce ustrukturyzowaną i stosunkowo kosztowną hurtownią danych.

Zasadniczo idea Data Lakehouse zakłada wprowadzenie wsparcia dla KWAS (niepodzielność, spójność, izolacja i trwałość) – procesy transakcyjne z możliwością jednoczesnego odczytu i zapisu danych przez wiele stron. Powinien również istnieć sposób na egzekwowanie schematów i zapewnienie zarządzania za pomocą sposobów wnioskowania o integralności danych.

Ale pomysł na Data Lakehouse jest również częściowo odpowiedzią na wzrost liczby nieustrukturyzowanych (lub częściowo ustrukturyzowanych) danych, które mogą mieć różne formaty, w tym te, które potencjalnie mogą być analizowane przez sztuczną inteligencję (AI) i uczenie maszynowe (ML). ) narzędzia, takie jak tekst, obrazy, wideo i audio.

Oznacza to również obsługę różnych typów obciążeń. Tam, gdzie hurtownia danych niezmiennie oznacza korzystanie z baz danych, jezioro danych może być miejscem nauki o danych, sztucznej inteligencji, SQL i innych form analizy.

Kluczową zaletą jest to, że dostęp do szerokiej gamy danych można uzyskać szybciej i łatwiej za pomocą szerszej gamy narzędzi – takich jak Pyton, R i uczenie maszynowe – i zintegrowane z aplikacjami korporacyjnymi.

Gdzie zwiedzać Data Lakehouse

Pionierem w idei tego Data Lakehouse jest firma Databricks, która pozyskała 1 mld USD finansowania wcześniej w tym roku. Databricks jest współtwórcą otwartego źródła danych w chmurze Delta Lake. Analitycy dostrzegli tak dużą rundę finansowania, jak zaufanie inwestorów do podejścia, które ma na celu ułatwienie przedsiębiorstwom dostępu do dużych i zróżnicowanych zbiorów danych.

Tymczasem Databricks jest dostępny w Amazon Web Services (AWS), podczas gdy gigant chmury również pozycjonuje swój produkt hurtowni danych Redshift jako architekturę Lakehouse, z możliwością wykonywania zapytań w ustrukturyzowanych (relacyjnych bazach danych) i nieustrukturyzowanych (S3, Redshift) źródłach danych. Istotą jest tutaj to, że aplikacje mogą wysyłać zapytania do dowolnego źródła danych bez przygotowania wymaganego do magazynowania danych.

Microsoft Azure ma Azure Databricks, która korzysta z aparatu Delta Lake i Sparka z obsługą interfejsu programowania aplikacji (API) dla SQL, Python, R i Scala, a także zoptymalizowanych bibliotek obliczeniowych i uczenia maszynowego platformy Azure.

Databricks i Google ogłosiły również dostępność w Google Cloud Platform na początku tego roku oraz integrację z Google BigQuery i Google Cloud AI Platform.

Innym dostawcą w grze nad jeziorem jest Snowflake, który twierdzi być twórcą tego terminu i zachwala swoją zdolność do zapewniania platformy danych i analityki w ramach hurtowni danych i mniej ustrukturyzowanych scenariuszy. .



Source link

Advertisment

Więcej

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Advertisment

Podobne

Advertisment

Najnowsze

Ultimate Ears przedstawia nowy głośnik Everboom, Boom 4 z USB-C i nie tylko

Ile głośników marki Boom to za dużo? Czy coś takiego w ogóle może istnieć? Wygląda na to, że Ultimate Ears ma...

Police Scotland did not consult ICO about high-risk cloud system

Police Scotland chose not to consult the data regulator before deploying its cloud-based digital evidence-sharing system, despite identifying a number of “high risks”...

Patent Review: Head-Related Transfer Function Equalization and Transducer Aiming of Stereo Dimensional Array (SDA) Loudspeakers

This patent, awarded to Polk Audio, describes a very specific loudspeaker design that claims to be able to achieve better stereo sound reproduction...
Advertisment