Znalezienie i pozyskanie właściwych danych do zbudowania zbioru danych przedsiębiorstwa jest prawdopodobnie najważniejszym zadaniem stojącym przed organizacjami, które chcą budować własne modele sztucznej inteligencji (AI).
Nawet przy praktycznym doświadczeniu, sprawy mogą łatwo pójść nie tak, według Waseema Ali, CEO firmy konsultingowej Rockborne. „Zawsze zaczyna się od danych” — mówi Ali. „Jeśli twoje dane nie są dobre, model „nie będzie dobrze.”
Zamiast tego, jak sugeruje, często wyzwaniem dla przedsiębiorstw nie powinno być chęć podboju świata swoim pierwszym projektem, lecz przeprowadzenie pilotażu, który umożliwi im rozwinięcie pewnych działań.
Zbadaj konkretne potrzeby i wymagania biznesowe dotyczące danych lub projektu cyfrowego i zastanów się, jaki problem należy rozwiązać i jakie „przeczucie” należy zbadać, ale na początku unikaj dogłębnego analizowania „globalnych skutków”.
Pracuj od podstaw, aby pozyskiwać dane dla konkretnego celu przypadek użycia w pytaniu, jak wyjaśnia Johannes Maunz, szef AI w firmie Hexagon, specjalizującej się w przemysłowym Internecie rzeczy.
„Nie ma jednego modelu ML ani głębokiego uczenia, który rozwiązałby wszystkie przypadki użycia, mówi Maunz. „Porównaj swój status quo z tym, co musisz ulepszyć. Jakie dostępne dane należy przechwycić? Zrób to w sposób mały lub skończony, tylko dla tego przypadku użycia”.
Podejście Hexagon zwykle koncentruje się na własnych czujnikach, z danymi dla przypadków użycia w budownictwie na ścianach, oknach, drzwiach itd. Aż do tego, co jest renderowane w przeglądarce, Hexagon wie o danych i ich standardach, formacie, spójności itd.
Najpierw rozważ zgodne dane i zestawy danych, które firma już posiada lub może wykorzystać. Zazwyczaj wiąże się to ze ścisłą współpracą z prawny i zespoły ds. prywatności, nawet w przemysłowym, wewnętrznym środowisku. Upewnij się, że dane przeznaczone do użytku nie zawierają żadnych prywatnych informacji osobistych, zaleca Maunz. A stamtąd przedsiębiorstwa mogą zbudować model, którego chcą używać, i go wytrenować – zakładając, że koszty i wykonalność są na miejscu.
Stąd przejrzystość decyzja mogą wyłonić się punkty niezbędne do tego, aby wszystko działało, oraz wartości sygnałowe służące do szacowania czynników, takich jak użyteczność i wykonalność, skutki biznesowe lub potencjalna wydajność w porównaniu z danymi konkurencji.
W przypadku danych, którymi przedsiębiorstwo obecnie nie dysponuje, konieczne mogą być negocjacje niektórych partnerów lub klientów w celu ich uzyskania.
„Ludzie są dość otwarci, szczerze mówiąc – ale zawsze jest jakaś umowa” – mówi Maunz. „Dopiero wtedy zaczynamy robić to, co zwykle nazywamy kampaniami danych. Czasami ma sens zacząć od większej ilości danych niż potrzeba, aby przedsiębiorstwo mogło zmniejszyć próbkę”.
Jakość i prostota danych mogą mieć kluczowe znaczenie
Emile Naus, partner w firmie konsultingowej BearingPoint zajmującej się łańcuchami dostaw, podkreśla nacisk na jakość danych dla AI/ML. Utrzymuj prostotę, gdzie to możliwe. Złożoność utrudnia podejmowanie właściwych decyzji i szkodzi wynikom – a do tego dochodzi stronniczość i własność intelektualna, które należy wziąć pod uwagę. „Dane wewnętrzne nie są idealne, ale przynajmniej będziesz mieć pogląd na to, jak dobre są” – dodaje Naus.
W porównaniu z łatwym w użyciu dopasowaniem linii 2D, a nawet dopasowaniem linii 3D, skomplikowane, wielowymiarowe dopasowanie linii wspomagane przez AI/ML może przynieść znacznie lepsze rezultaty — optymalizację produkcji, „przepisy” na rozwiązania, minimalizację odpadów i wiele więcej — jeśli przedsiębiorstwa „uwolnią się” od właściwych danych — ostrzega.
„Jak w przypadku wszystkich modeli, ponieważ model AI jest używany do budowania modelu, a model zawsze jest błędny, zarządzanie danymi jest kluczowe” — mówi. „Części, których nie masz, mogą być w rzeczywistości ważniejsze. Musisz ustalić, jak kompletne i dokładne są dane”.
Andy Crisp, starszy wiceprezes ds. danych i analiz w Dun & Bradstreet (D&B), zaleca wykorzystanie spostrzeżeń klientów i kluczowych elementów danych do ustalania standardów jakości danych i tolerancji, a także dokonywania pomiarów i monitorowania.
„Dane, które [clients[ want or acquire from us [for example] potencjalnie zasila również ich modele”, mówi Crisp. „Obliczamy około 46 miliardów obliczeń jakości danych, bierzemy nasze dane, a następnie być może robimy to ponownie w oparciu o te standardy, a następnie publikujemy jakość danych obserwacje [each month].”
Przykładowo, konkretny atrybut oceniany przez pryzmat konkretnego standardu musi działać na tyle dobrze, aby mógł zostać przekazany następnemu zespołowi, który bierze pod uwagę te standardy i tolerancje, wyniki pomiarów i obserwacji, a następnie współpracuje z zespołem ds. zarządzania danymi w celu przechwytywania, porządkowania i utrzymywania danych.
„Nie ma nic lepszego niż poświęcanie czasu na rzeczy i rozwijanie swojego zrozumienia” – zgadza się Crisp. „Zacznij od cięcia jednego kawałka drewna i sprawdź długość, zanim pójdziesz i pokroisz 50 desek w złym kierunku”.
Przedsiębiorstwa muszą „wiedzieć, jak wygląda dobro”, aby poprawić wydajność danych i spostrzeżenia, które następnie można zebrać. Utrzymuj ścisłe oświadczenia o problemach, zawężając identyfikację danych dla wymaganych zestawów danych. Skrupulatna adnotacja i metadane mogą umożliwić selekcję zestawów danych kontrolnych i prawdziwie naukowe podejście, które identyfikuje i pomaga zminimalizować stronniczość.
Uważaj na duże, śmiałe stwierdzenia łączące wiele czynników i upewnij się, że „testujesz do zniszczenia”. To jeden z obszarów IT, w którym przedsiębiorstwa nie chcą „działać szybko i psuć rzeczy”. Wszystkie używane dane muszą spełniać standardy, które same muszą być stale badane i naprawiane.
„Mierzyć i monitorować, naprawiać i ulepszać” – mówi Crisp, zauważając, że zespół ds. inżynierii jakości D&B składa się z około 70 członków zespołu na całym świecie. „Kompetentna inżynieria pomoże w próbach zmniejszenia halucynacji itp.”
Greg Hanson, wiceprezes generalny Informatica na Europę Północną, Bliski Wschód i Afrykę, zgadza się, że wyznaczanie celów ma kluczowe znaczenie i może pomóc przedsiębiorstwom określić, jak najlepiej wykorzystać czas pod kątem katalogowania informacji, integrowania informacji i tego, jakie dane są potrzebne do pociąg Sztuczna inteligencja wspierająca wyniki.
Nawet własne dane przedsiębiorstwa są zazwyczaj rozproszone i ukryte w różnych lokalizacjach, chmurach lub lokalizacjach lokalnych.
„Kataloguj wszystkie swoje zasoby danych i zrozum, gdzie te dane się znajdują” — mówi Hanson. „Rozważ również AI, aby szybciej zarządzać danymi”.
Zapewnij zarządzanie przed wchłonięciem
Zastosuj wszystkie reguły jakości danych przed ich pobraniem przez silnik AI, zakładając odpowiednie zarządzanie i zgodność. Jeśli przedsiębiorstwo nie mierzy, nie kwantyfikuje i nie naprawia, będzie po prostu podejmować błędne decyzje w przyspieszonym tempie, mówi Hanson, dodając: „Pamiętaj: śmieci na wejściu, śmieci na wyjściu”.
Tendü Yogurtçu, CTO w Precisely, dostawcy pakietów danych, mówi, że w zależności od wielkości firmy i rodzaju branży organizacja może rozważyć komitet sterujący lub międzyfunkcyjną radę, aby pomóc zdefiniować najlepsze praktyki i procesy we wszystkich stosownych inicjatywach AI. Może to również pomóc w przyspieszeniu poprzez identyfikację typowych przypadków użycia lub wzorców w zespołach, które same w sobie mogą się zmieniać, ponieważ organizacje uczą się od pilotaży i produkcji.
Ramy zarządzania danymi mogą wymagać rozszerzenia o modele AI. Mimo to potencjalnych przypadków użycia AI jest mnóstwo.
„Weź ubezpieczenie. Aby modelować ryzyko „Aby zapewnić dokładność cen, ubezpieczyciele potrzebują szczegółowych informacji o ryzyku pożarów lasów i powodzi, topografii działki, dokładnej lokalizacji budynku na działce, bliskości hydrantów przeciwpożarowych i odległości do potencjalnie ryzykownych punktów zainteresowania, takich jak stacje benzynowe” – wyjaśnia Yogurtçu.
Jednak budowanie modeli sztucznej inteligencji (AI) – zwłaszcza generatywnej (GenAI) – może okazać się kosztowne, ostrzega Richard Fayers, starszy dyrektor ds. danych i analiz w firmie konsultingowej Slalom.
„Być może w niektórych obszarach firmy mogą współpracować – na przykład w sektorze prawnym lub medycznym” – mówi Fayers. „Zaczynamy dostrzegać wartość, gdy się rozszerza [GenAI] ze swoimi danymi – istnieją różne sposoby, w jakie możesz to zrobić.”
Na przykład w architekturze użytkownicy mogą uzupełniać wykorzystanie dużych modeli językowych (LLM) o własne zestawy danych i dokumentację, które mają być przeszukiwane. Podobna strategia może działać w przypadku tworzenia platformy wyszukiwania biletów, która inteligentnie bierze pod uwagę zestaw kryteriów opartych na języku naturalnym, który nie jest powiązany jeden do jednego z metadanymi i tagami.
„Na przykład, jeśli możesz skorzystać z platformy sprzedaży biletów, która umożliwia znalezienie «przedstawienia w weekend, które jest odpowiednie dla dzieci», to jest to rodzaj wyszukiwania, który obecnie może okazać się dość trudny” – mówi Fayers.
Budowanie zbiorów danych i szybka inżynieria dla takich celów jak CzatGPTw przypadku bardziej „konwersacyjnego” podejścia, nadal wymaga skupienia się na jakości danych i zarządzaniu nimi, a jego zdaniem, szybka inżynieria stanie się niezbędną umiejętnością, na którą będzie duże zapotrzebowanie.