Usługa Azure HDInsight otrzymuje własną dystrybucję Hadoop w miarę dojrzewania danych big data


Karta Wersje ekranu administratora Ambari dla klastra HDInsight opartego na własnej dystrybucji platformy Hadoop firmy Microsoft.

Kilka lat temu big data znajdowała się u szczytu cyklu szumów i Hadoop była jego technologią potomną. Obecnie analityka open source jest solidną częścią stosu oprogramowania dla przedsiębiorstw, termin „duże zbiory danych” wydaje się przestarzały i przyjęło się powszechnie, że Hadoop jest… cóż… martwy. Ale to tylko tyle hiperboli; chociaż Hadoop nie jest już rozgrzany do białości, nadal jest znaczącym czynnikiem. Dzieje się tak, ponieważ definiuje ekosystem powiązanych projektów obsługujących bazę danych, jezioro danych, dane strumieniowe i funkcje inżynierii danych. I dlatego usługi w chmurze oparte na Hadoop, takie jak Amazon EMR i Google Cloud Dataproc, są nadal krytyczne i przydatne.

Usługa Microsoft Cloud Hadoop, Usługa Azure HDInsight, jest szczególnie dobrym przykładem użyteczności Hadoopa, ponieważ usługa utrzymuje się, nawet gdy Microsoft wprowadził inne konkurujące z nią oferty. Na przykład firma Microsoft nawiązała współpracę z Databricks, firma założona przez Apache Sparktwórców do oferowania i bezpośredniego wsparcia wersji usługi tej firmy o tej samej nazwie. Ponadto firma Microsoft przekształciła swoją usługę Azure SQL Data Warehouse w Azure Synapse Analytics, który oferuje teraz pule Spark na żądanie do obsługi pełnej funkcjonalności Data Lake, jako publiczną funkcję w wersji zapoznawczej. Ale HDInsight, usługa Hadoop, która została po raz pierwszy uruchomiona przez firmę Microsoft w 2013 r., Wciąż się dusi.

Musisz przeczytać:

Zatańcz ze słoniem, który cię spotkał?

Usługa HDInsight została opracowana we współpracy z Hortonworks, firmą, która następnie połączyła się z Cloudera. Po tej fuzji nowa Cloudera zracjonalizowała i zreorganizowała dystrybucje Hadoop obu firm – Platforma danych Hortonworks (HDP) i Cloudera Distribution, w tym Apache Hadoop (CDH) do środowiska uruchomieniowego nowego Platforma danych Cloudera (CDP). I chociaż to wszystko dobrze i dobrze dla Cloudera, wycofanie HDP było wyzwaniem dla firmy Microsoft, ponieważ HDInsight był oparty na HDP od samego początku.

Reklama

Przeczytaj także:

Wielu zastanawiało się, czy Microsoft w jakiś sposób zaadoptuje środowisko wykonawcze CDP, czy może pójdzie własną drogą i zbuduje własną dystrybucję Hadoop, tak jak AWS i Google zrobiły od samego początku. To ostatnie właśnie się spełniło, ponieważ Microsoft stworzył własną dystrybucję Hadoop, opartą na komponentach Open Source Apache. Ogólną dostępność nowej dystrybucji ogłoszono 21 lipca w godz Inspirować, Wirtualne wydarzenie firmy Microsoft poświęcone ekosystemowi partnerów.

Jak się okazuje, aby zachować kompatybilność i zminimalizować zakłócenia, Microsoft wziął HDP 3.1.6, na którym oparto HDInsight 4.0, i sklonował go. Dzisiaj, jeśli udostępnisz klaster HDInsight 4.0 w różnych regionach platformy Azure (potwierdziliśmy to dla Kanady Wschodniej, Środkowych i wschodnich stanów USA), Twój klaster będzie korzystał z tej nowej dystrybucji. Prawdopodobnie jednak tego nie zauważysz. Numer wersji HDI nie zmienił się i nie ma również bazowych wersji projektu open source. Jedynym sposobem, aby naprawdę wiedzieć, że nastąpiła zmiana, jest zastąpienie „HDP-3.1.6.2” przez „HDInsight-4.1.0.26” na karcie „Wersje” w Ambariekran administratora, jak pokazano na rysunku u góry tego postu. Pod wszystkimi innymi względami doświadczenie będzie identyczne.

Wartość prop

Można zapytać, dlaczego Microsoft zadał sobie trud? Pamiętaj, że nawet jeśli zachodzą na siebie, HDInsight może robić rzeczy, których inne usługi danych platformy Azure nie mogą. Na przykład, Azure Databricks klastry nie łączą i nie dopasowują komponentów – zawierają kombinację zastrzeżonej wersji Sparka, Jezioro Delta, Delta Engine i MLflow. Pule Synapse Spark są również wyłączne dla Spark, chociaż są oparte na bitach Spark typu open source. Są również bezserwerowe, a rozliczenia są oparte na rzeczywistych wykonanych zapytaniach. Dla niektórych klientów ten model jest lepszy; dla innych nie tak bardzo.

Przeczytaj także: Databricks przenosi MLflow do Linux Foundation, wprowadza Delta Engine

Jeśli więc chcesz mieć dyskretny klaster Big Data na platformie Azure, rozliczany za godzinę, za pomocą platformy Spark typu open source, a także Ul, HBase, Świnia i Hadoop (i opcjonalnie Kafka, Burza, Microsoft Machine Learning Server i Open Source Spark), będziesz chciał używać usługi HDInsight. A teraz, kiedy Microsoft zainwestował w tworzenie, testowanie i wdrażanie własnej dystrybucji Hadoop, ta usługa ma znacznie solidniejszą przyszłość i może nadal obsługiwać obciążenia, do których jest wyjątkowo dostosowana.

Idź na całość lub przejdź do klonowania

Teraz, gdy Microsoft kontroluje podstawową dystrybucję HDInsight, czy wprowadzi innowacje i rozwinie ją poza klon HDP, którym jest teraz? Jest na to precedens, biorąc pod uwagę, że Microsoft wprowadził już innowacje poza dystrybucją opartą na HDP. Współpracując z Hortonworks, Microsoft stworzył unikalne integracje z Usługa Azure Blob Storage i Usługa Azure Data Lake Storage, jak również Azure SQL Database. Niedawno dodanie Machine Learning Server i .NET dla Apache Spark wprowadził dodatkowe wartości.

Przeczytaj także: Platforma .NET dla Apache Spark łączy w tej samej tabeli programistów korporacyjnych i specjalistów z zakresu Big Data

Być może Microsoft mógłby następnie zintegrować Spark 3.0, Presto i Przepływ powietrza w mieszankę składników typu open source w usłudze HDInsight. Po stronie technologii Microsoft obsługa jednego lub dwóch własnych notebooków firmy i być może ściślejsza integracja z Cosmos DB i Azure Machine Learning może przyjść. Te integracje zwiększyłyby wartość usługi HDInsight i usług platformy Azure, z którymi została ściślej zintegrowana.

Takie posunięcia uczyniłyby zobowiązanie firmy Microsoft do HDInsight jasnym. Ostatecznie to zobowiązanie musi być pełne; zbyt długo był bez przekonania. Jednak na razie wyeliminowano niepewność, zachowano zgodność, a usługa HDInsight nie jest już zależna od organizacji innej firmy. To wygrana dla klientów Microsoftu; to mogłoby ich tylko ośmielić, by chcieć więcej.

Brust jest MVP platformy danych Microsoft, a Cloudera jest klientem firmy doradczej Brust, Blue Badge Insights.



Source link

Advertisment

Więcej

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Advertisment

Podobne

Advertisment

Najnowsze

Apple otwiera Swift Student Challenge na WWDC 2023

Apple ma ogłoszono WWDC 2023 dzisiaj i tym samym otworzyło doroczne wyzwanie Swift Student Challenge. Nagrodami będą ekskluzywna odzież wierzchnia na WWDC23,...

Forspoken przechodzi na pełną wersję Sailor Moon w nowym fabularnym DLC

Jestem jedną z nielicznych osób komu właściwie się podobało Zapomniane. Pomimo swoich wad (i tak, pomijając moją świetną recenzję, jest to gra...

The Legend of Zelda: Breath of the Wild wciąż zyskuje na popularności na TikToku

Nintendo wydane The Legend of Zelda: Breath of the Wild ponad sześć lat temu i jakimś cudem wciąż dowiaduję się o...
Advertisment

Chcesz być na bieżąco z najnowszymi wiadomościami?

Bardzo chcielibyśmy usłyszeć od Ciebie! Podaj swoje dane, a pozostaniemy w kontakcie. To takie proste!