Karta Wersje ekranu administratora Ambari dla klastra HDInsight opartego na własnej dystrybucji platformy Hadoop firmy Microsoft.
Kilka lat temu big data znajdowała się u szczytu cyklu szumów i Hadoop była jego technologią potomną. Obecnie analityka open source jest solidną częścią stosu oprogramowania dla przedsiębiorstw, termin „duże zbiory danych” wydaje się przestarzały i przyjęło się powszechnie, że Hadoop jest… cóż… martwy. Ale to tylko tyle hiperboli; chociaż Hadoop nie jest już rozgrzany do białości, nadal jest znaczącym czynnikiem. Dzieje się tak, ponieważ definiuje ekosystem powiązanych projektów obsługujących bazę danych, jezioro danych, dane strumieniowe i funkcje inżynierii danych. I dlatego usługi w chmurze oparte na Hadoop, takie jak Amazon EMR i Google Cloud Dataproc, są nadal krytyczne i przydatne.
Usługa Microsoft Cloud Hadoop, Usługa Azure HDInsight, jest szczególnie dobrym przykładem użyteczności Hadoopa, ponieważ usługa utrzymuje się, nawet gdy Microsoft wprowadził inne konkurujące z nią oferty. Na przykład firma Microsoft nawiązała współpracę z Databricks, firma założona przez Apache Sparktwórców do oferowania i bezpośredniego wsparcia wersji usługi tej firmy o tej samej nazwie. Ponadto firma Microsoft przekształciła swoją usługę Azure SQL Data Warehouse w Azure Synapse Analytics, który oferuje teraz pule Spark na żądanie do obsługi pełnej funkcjonalności Data Lake, jako publiczną funkcję w wersji zapoznawczej. Ale HDInsight, usługa Hadoop, która została po raz pierwszy uruchomiona przez firmę Microsoft w 2013 r., Wciąż się dusi.
Musisz przeczytać:
Zatańcz ze słoniem, który cię spotkał?
Usługa HDInsight została opracowana we współpracy z Hortonworks, firmą, która następnie połączyła się z Cloudera. Po tej fuzji nowa Cloudera zracjonalizowała i zreorganizowała dystrybucje Hadoop obu firm – Platforma danych Hortonworks (HDP) i Cloudera Distribution, w tym Apache Hadoop (CDH) do środowiska uruchomieniowego nowego Platforma danych Cloudera (CDP). I chociaż to wszystko dobrze i dobrze dla Cloudera, wycofanie HDP było wyzwaniem dla firmy Microsoft, ponieważ HDInsight był oparty na HDP od samego początku.
Przeczytaj także:
Wielu zastanawiało się, czy Microsoft w jakiś sposób zaadoptuje środowisko wykonawcze CDP, czy może pójdzie własną drogą i zbuduje własną dystrybucję Hadoop, tak jak AWS i Google zrobiły od samego początku. To ostatnie właśnie się spełniło, ponieważ Microsoft stworzył własną dystrybucję Hadoop, opartą na komponentach Open Source Apache. Ogólną dostępność nowej dystrybucji ogłoszono 21 lipca w godz Inspirować, Wirtualne wydarzenie firmy Microsoft poświęcone ekosystemowi partnerów.
Jak się okazuje, aby zachować kompatybilność i zminimalizować zakłócenia, Microsoft wziął HDP 3.1.6, na którym oparto HDInsight 4.0, i sklonował go. Dzisiaj, jeśli udostępnisz klaster HDInsight 4.0 w różnych regionach platformy Azure (potwierdziliśmy to dla Kanady Wschodniej, Środkowych i wschodnich stanów USA), Twój klaster będzie korzystał z tej nowej dystrybucji. Prawdopodobnie jednak tego nie zauważysz. Numer wersji HDI nie zmienił się i nie ma również bazowych wersji projektu open source. Jedynym sposobem, aby naprawdę wiedzieć, że nastąpiła zmiana, jest zastąpienie „HDP-3.1.6.2” przez „HDInsight-4.1.0.26” na karcie „Wersje” w Ambariekran administratora, jak pokazano na rysunku u góry tego postu. Pod wszystkimi innymi względami doświadczenie będzie identyczne.
Wartość prop
Można zapytać, dlaczego Microsoft zadał sobie trud? Pamiętaj, że nawet jeśli zachodzą na siebie, HDInsight może robić rzeczy, których inne usługi danych platformy Azure nie mogą. Na przykład, Azure Databricks klastry nie łączą i nie dopasowują komponentów – zawierają kombinację zastrzeżonej wersji Sparka, Jezioro Delta, Delta Engine i MLflow. Pule Synapse Spark są również wyłączne dla Spark, chociaż są oparte na bitach Spark typu open source. Są również bezserwerowe, a rozliczenia są oparte na rzeczywistych wykonanych zapytaniach. Dla niektórych klientów ten model jest lepszy; dla innych nie tak bardzo.
Przeczytaj także: Databricks przenosi MLflow do Linux Foundation, wprowadza Delta Engine
Jeśli więc chcesz mieć dyskretny klaster Big Data na platformie Azure, rozliczany za godzinę, za pomocą platformy Spark typu open source, a także Ul, HBase, Świnia i Hadoop (i opcjonalnie Kafka, Burza, Microsoft Machine Learning Server i Open Source Spark), będziesz chciał używać usługi HDInsight. A teraz, kiedy Microsoft zainwestował w tworzenie, testowanie i wdrażanie własnej dystrybucji Hadoop, ta usługa ma znacznie solidniejszą przyszłość i może nadal obsługiwać obciążenia, do których jest wyjątkowo dostosowana.
Idź na całość lub przejdź do klonowania
Teraz, gdy Microsoft kontroluje podstawową dystrybucję HDInsight, czy wprowadzi innowacje i rozwinie ją poza klon HDP, którym jest teraz? Jest na to precedens, biorąc pod uwagę, że Microsoft wprowadził już innowacje poza dystrybucją opartą na HDP. Współpracując z Hortonworks, Microsoft stworzył unikalne integracje z Usługa Azure Blob Storage i Usługa Azure Data Lake Storage, jak również Azure SQL Database. Niedawno dodanie Machine Learning Server i .NET dla Apache Spark wprowadził dodatkowe wartości.
Przeczytaj także: Platforma .NET dla Apache Spark łączy w tej samej tabeli programistów korporacyjnych i specjalistów z zakresu Big Data
Być może Microsoft mógłby następnie zintegrować Spark 3.0, Presto i Przepływ powietrza w mieszankę składników typu open source w usłudze HDInsight. Po stronie technologii Microsoft obsługa jednego lub dwóch własnych notebooków firmy i być może ściślejsza integracja z Cosmos DB i Azure Machine Learning może przyjść. Te integracje zwiększyłyby wartość usługi HDInsight i usług platformy Azure, z którymi została ściślej zintegrowana.
Takie posunięcia uczyniłyby zobowiązanie firmy Microsoft do HDInsight jasnym. Ostatecznie to zobowiązanie musi być pełne; zbyt długo był bez przekonania. Jednak na razie wyeliminowano niepewność, zachowano zgodność, a usługa HDInsight nie jest już zależna od organizacji innej firmy. To wygrana dla klientów Microsoftu; to mogłoby ich tylko ośmielić, by chcieć więcej.
Brust jest MVP platformy danych Microsoft, a Cloudera jest klientem firmy doradczej Brust, Blue Badge Insights.