Firma Apple opublikowała trzy interesujące badania, które dają pewien wgląd w to, jak rozwój oparty na sztucznej inteligencji może poprawić przepływ pracy, jakość i produktywność. Oto szczegóły.
Przewidywanie defektów oprogramowania przy użyciu modelu transformatora autoenkodera
W tym badaniu badacze Apple przedstawiają nowy model sztucznej inteligencji, który przezwycięża ograniczenia współczesnych LLM (takie jak „halucynacje, generowanie w niewłaściwym kontekście i utrata kluczowych relacji biznesowych podczas wyszukiwania”) podczas analizowania wielkoskalowych baz kodów w celu wykrywania i przewidywania błędów.
Model o nazwie ADE-QVAET ma na celu poprawę dokładności przewidywania błędów poprzez połączenie czterech technik sztucznej inteligencji: adaptacyjnej ewolucji różnicowej (ADE), kwantowego autoenkodera wariacyjnego (QVAE), warstwy transformatora oraz adaptacyjnej redukcji i wzmacniania szumów (ANRA).
W skrócie, podczas gdy ADE dostosowuje sposób uczenia się modelu, QVAE pomaga mu zrozumieć głębsze wzorce w danych. Tymczasem warstwa Transformer zapewnia, że model śledzi wzajemne powiązania tych wzorców, a ANRA czyści i równoważy dane, aby zachować spójne wyniki.
Co ciekawe, nie jest to LLM, który bezpośrednio analizuje kod. Zamiast tego sprawdza metryki i dane dotyczące kodu, takie jak złożoność, rozmiar i struktura, i szuka wzorców, które mogą wskazywać, gdzie prawdopodobne jest wystąpienie błędów.
Zdaniem badaczy takie były wyniki, gdy zmierzyli wydajność modelu na zbiorze danych Kaggle stworzonym specjalnie do przewidywania błędów oprogramowania:
„Podczas treningu z procentem wytrenowania wynoszącym 90% ADE-QVAET osiąga wysoką dokładność, precyzję, zapamiętywanie i wynik F1 wynoszący odpowiednio 98,08%, 92,45%, 94,67% i 98,12% w porównaniu z modelem Differential Evolution (DE) ML.”
Oznacza to, że model był ogólnie wysoce niezawodny i bardzo skuteczny w prawidłowym identyfikowaniu prawdziwych błędów, unikając jednocześnie fałszywych alarmów.
Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym
Agentyczny RAG do testowania oprogramowania z hybrydowym wykresem wektorowym i orkiestracją wieloagentową
Badanie to zostało przeprowadzone przez czterech badaczy Apple, z których trzech pracowało nad modelem ADE-QVAET. Tutaj zajmują się drugim czasochłonnym zadaniem stojącym przed inżynierami jakości, a mianowicie tworzeniem i utrzymywaniem szczegółowych planów testów i przypadków dla dużych projektów oprogramowania.
W tym badaniu opracowują system, który wykorzystuje LLM i autonomicznych agentów AI do automatycznego generowania artefaktów testowania i zarządzania nimi, począwszy od planów testów po raporty z walidacji, przy jednoczesnym zachowaniu pełnej identyfikowalności wymagań, logiki biznesowej i wyników.

Innymi słowy, zbudowali system sztucznej inteligencji, który może samodzielnie planować, pisać i organizować testy oprogramowania, co może pomóc usprawnić przepływ pracy inżynierów jakości, którzy „spędzają 30–40% swojego czasu na tworzeniu podstawowych artefaktów testowania, takich jak plany testów, przypadki i skrypty automatyzacji”.
Podobnie jak w przypadku modelu ADE-QVAET, tutaj wyniki były całkiem obiecujące:
“System osiąga niezwykłą poprawę dokładności z 65% do 94,8%, zapewniając jednocześnie wszechstronną identyfikowalność dokumentów w całym cyklu życia inżynierii jakości. Eksperymentalna walidacja projektów dotyczących inżynierii systemów korporacyjnych i migracji SAP wykazuje o 85% skrócenie czasu testowania, poprawę wydajności zestawu testów o 85% i przewidywane oszczędności kosztów o 35%, co skutkuje 2-miesięcznym przyspieszeniem uruchomienia.”
Z drugiej strony badacze zauważyli również, że framework ma ograniczenia, w tym fakt, że ich prace skupiały się wyłącznie na „systemach pracowniczych, finansach i środowiskach SAP”, co ogranicza jego możliwości uogólniania.
Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym
Szkolenie agentów inżynierii oprogramowania i weryfikatorów za pomocą SWE-Gym
Jest to być może najciekawsze i najbardziej ambitne z trzech badań.
Podczas gdy dwa poprzednie badania skupiały się na przewidywaniu, gdzie mogą pojawić się błędy oraz w jaki sposób są testowane i sprawdzane, ideą SWE-Gym jest przeszkolenie agentów AI, którzy mogą faktycznie naprawić błędy ucząc się czytać, edytować i weryfikować prawdziwy kod.
SWE-Gym został zbudowany przy użyciu 2438 rzeczywistych zadań Pythona z 11 repozytoriów typu open source, każde z wykonywalnym środowiskiem i zestawem testów, dzięki czemu agenci mogą ćwiczyć pisanie i debugowanie kodu w realistycznych warunkach.
Naukowcy opracowali także SWE-Gym Lite, który zawierał 230 prostszych i bardziej samodzielnych zadań zaprojektowanych tak, aby szkolenie i ocena były szybsze i mniej kosztowne obliczeniowo.
Jak wynika z badania, agenci przeszkoleni w SWE-Gym poprawnie rozwiązali 72,5% zadań, osiągając lepsze wyniki niż poprzednie benchmarki o ponad 20 punktów procentowych.
Tymczasem SWE-Gym Lite skrócił czas treningu o prawie połowę w porównaniu z pełnym zestawem, zapewniając jednocześnie podobne wyniki. Z drugiej strony wariant Lite obejmuje znacznie mniej i znacznie prostsze zadania kodowania, co czyni go mniej skutecznym w testowaniu modeli pod kątem większych, bardziej złożonych problemów.
Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym
Oferty akcesoriów na Amazon
FTC: Korzystamy z automatycznych linków partnerskich generujących dochód. Więcej.