Nowe badania Apple dotyczą tworzenia oprogramowania opartego na sztucznej inteligencji


Firma Apple opublikowała trzy interesujące badania, które dają pewien wgląd w to, jak rozwój oparty na sztucznej inteligencji może poprawić przepływ pracy, jakość i produktywność. Oto szczegóły.

Przewidywanie defektów oprogramowania przy użyciu modelu transformatora autoenkodera

W tym badaniu badacze Apple przedstawiają nowy model sztucznej inteligencji, który przezwycięża ograniczenia współczesnych LLM (takie jak „halucynacje, generowanie w niewłaściwym kontekście i utrata kluczowych relacji biznesowych podczas wyszukiwania”) podczas analizowania wielkoskalowych baz kodów w celu wykrywania i przewidywania błędów.

Model o nazwie ADE-QVAET ma na celu poprawę dokładności przewidywania błędów poprzez połączenie czterech technik sztucznej inteligencji: adaptacyjnej ewolucji różnicowej (ADE), kwantowego autoenkodera wariacyjnego (QVAE), warstwy transformatora oraz adaptacyjnej redukcji i wzmacniania szumów (ANRA).

W skrócie, podczas gdy ADE dostosowuje sposób uczenia się modelu, QVAE pomaga mu zrozumieć głębsze wzorce w danych. Tymczasem warstwa Transformer zapewnia, że ​​model śledzi wzajemne powiązania tych wzorców, a ANRA czyści i równoważy dane, aby zachować spójne wyniki.

Co ciekawe, nie jest to LLM, który bezpośrednio analizuje kod. Zamiast tego sprawdza metryki i dane dotyczące kodu, takie jak złożoność, rozmiar i struktura, i szuka wzorców, które mogą wskazywać, gdzie prawdopodobne jest wystąpienie błędów.

Reklama

Zdaniem badaczy takie były wyniki, gdy zmierzyli wydajność modelu na zbiorze danych Kaggle stworzonym specjalnie do przewidywania błędów oprogramowania:

„Podczas treningu z procentem wytrenowania wynoszącym 90% ADE-QVAET osiąga wysoką dokładność, precyzję, zapamiętywanie i wynik F1 wynoszący odpowiednio 98,08%, 92,45%, 94,67% i 98,12% w porównaniu z modelem Differential Evolution (DE) ML.”

Oznacza to, że model był ogólnie wysoce niezawodny i bardzo skuteczny w prawidłowym identyfikowaniu prawdziwych błędów, unikając jednocześnie fałszywych alarmów.

Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym

Agentyczny RAG do testowania oprogramowania z hybrydowym wykresem wektorowym i orkiestracją wieloagentową

Badanie to zostało przeprowadzone przez czterech badaczy Apple, z których trzech pracowało nad modelem ADE-QVAET. Tutaj zajmują się drugim czasochłonnym zadaniem stojącym przed inżynierami jakości, a mianowicie tworzeniem i utrzymywaniem szczegółowych planów testów i przypadków dla dużych projektów oprogramowania.

W tym badaniu opracowują system, który wykorzystuje LLM i autonomicznych agentów AI do automatycznego generowania artefaktów testowania i zarządzania nimi, począwszy od planów testów po raporty z walidacji, przy jednoczesnym zachowaniu pełnej identyfikowalności wymagań, logiki biznesowej i wyników.

Innymi słowy, zbudowali system sztucznej inteligencji, który może samodzielnie planować, pisać i organizować testy oprogramowania, co może pomóc usprawnić przepływ pracy inżynierów jakości, którzy „spędzają 30–40% swojego czasu na tworzeniu podstawowych artefaktów testowania, takich jak plany testów, przypadki i skrypty automatyzacji”.

Podobnie jak w przypadku modelu ADE-QVAET, tutaj wyniki były całkiem obiecujące:

“System osiąga niezwykłą poprawę dokładności z 65% do 94,8%, zapewniając jednocześnie wszechstronną identyfikowalność dokumentów w całym cyklu życia inżynierii jakości. Eksperymentalna walidacja projektów dotyczących inżynierii systemów korporacyjnych i migracji SAP wykazuje o 85% skrócenie czasu testowania, poprawę wydajności zestawu testów o 85% i przewidywane oszczędności kosztów o 35%, co skutkuje 2-miesięcznym przyspieszeniem uruchomienia.”

Z drugiej strony badacze zauważyli również, że framework ma ograniczenia, w tym fakt, że ich prace skupiały się wyłącznie na „systemach pracowniczych, finansach i środowiskach SAP”, co ogranicza jego możliwości uogólniania.

Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym

Szkolenie agentów inżynierii oprogramowania i weryfikatorów za pomocą SWE-Gym

Jest to być może najciekawsze i najbardziej ambitne z trzech badań.

Podczas gdy dwa poprzednie badania skupiały się na przewidywaniu, gdzie mogą pojawić się błędy oraz w jaki sposób są testowane i sprawdzane, ideą SWE-Gym jest przeszkolenie agentów AI, którzy mogą faktycznie naprawić błędy ucząc się czytać, edytować i weryfikować prawdziwy kod.

SWE-Gym został zbudowany przy użyciu 2438 rzeczywistych zadań Pythona z 11 repozytoriów typu open source, każde z wykonywalnym środowiskiem i zestawem testów, dzięki czemu agenci mogą ćwiczyć pisanie i debugowanie kodu w realistycznych warunkach.

Naukowcy opracowali także SWE-Gym Lite, który zawierał 230 prostszych i bardziej samodzielnych zadań zaprojektowanych tak, aby szkolenie i ocena były szybsze i mniej kosztowne obliczeniowo.

Jak wynika z badania, agenci przeszkoleni w SWE-Gym poprawnie rozwiązali 72,5% zadań, osiągając lepsze wyniki niż poprzednie benchmarki o ponad 20 punktów procentowych.

Tymczasem SWE-Gym Lite skrócił czas treningu o prawie połowę w porównaniu z pełnym zestawem, zapewniając jednocześnie podobne wyniki. Z drugiej strony wariant Lite obejmuje znacznie mniej i znacznie prostsze zadania kodowania, co czyni go mniej skutecznym w testowaniu modeli pod kątem większych, bardziej złożonych problemów.

Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym

Oferty akcesoriów na Amazon

FTC: Korzystamy z automatycznych linków partnerskich generujących dochód. Więcej.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Moda ZA jest doskonała, ale zbyt ujednolicona

Związek Pokémonów z modą ewoluował na przestrzeni lat. Wczesne gry ograniczały cię do określonego wyglądu, niezależnie od tego, czy ci się to podobało,...

W ten weekend masz ostatnią szansę na zdobycie miesięcznego Disney Plus już od 9,99 USD

Z Apple TV Plus Do Pawostatnio pojawiło się wiele usług przesyłania strumieniowego podnieśli swoje ceny — a Disney Plus nie jest wyjątkiem. Od...
Advertisment