Nowe badania Apple dotyczą tworzenia oprogramowania opartego na sztucznej inteligencji

Firma Apple opublikowała trzy interesujące badania, które dają pewien wgląd w to, jak rozwój oparty na sztucznej inteligencji może poprawić przepływ pracy, jakość i produktywność. Oto szczegóły.

Przewidywanie defektów oprogramowania przy użyciu modelu transformatora autoenkodera

W tym badaniu badacze Apple przedstawiają nowy model sztucznej inteligencji, który przezwycięża ograniczenia współczesnych LLM (takie jak „halucynacje, generowanie w niewłaściwym kontekście i utrata kluczowych relacji biznesowych podczas wyszukiwania”) podczas analizowania wielkoskalowych baz kodów w celu wykrywania i przewidywania błędów.

Model o nazwie ADE-QVAET ma na celu poprawę dokładności przewidywania błędów poprzez połączenie czterech technik sztucznej inteligencji: adaptacyjnej ewolucji różnicowej (ADE), kwantowego autoenkodera wariacyjnego (QVAE), warstwy transformatora oraz adaptacyjnej redukcji i wzmacniania szumów (ANRA).

W skrócie, podczas gdy ADE dostosowuje sposób uczenia się modelu, QVAE pomaga mu zrozumieć głębsze wzorce w danych. Tymczasem warstwa Transformer zapewnia, że model śledzi wzajemne powiązania tych wzorców, a ANRA czyści i równoważy dane, aby zachować spójne wyniki.

Co ciekawe, nie jest to LLM, który bezpośrednio analizuje kod. Zamiast tego sprawdza metryki i dane dotyczące kodu, takie jak złożoność, rozmiar i struktura, i szuka wzorców, które mogą wskazywać, gdzie prawdopodobne jest wystąpienie błędów.

Reklama

Zdaniem badaczy takie były wyniki, gdy zmierzyli wydajność modelu na zbiorze danych Kaggle stworzonym specjalnie do przewidywania błędów oprogramowania:

„Podczas treningu z procentem wytrenowania wynoszącym 90% ADE-QVAET osiąga wysoką dokładność, precyzję, zapamiętywanie i wynik F1 wynoszący odpowiednio 98,08%, 92,45%, 94,67% i 98,12% w porównaniu z modelem Differential Evolution (DE) ML.”

Oznacza to, że model był ogólnie wysoce niezawodny i bardzo skuteczny w prawidłowym identyfikowaniu prawdziwych błędów, unikając jednocześnie fałszywych alarmów.

Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym

Agentyczny RAG do testowania oprogramowania z hybrydowym wykresem wektorowym i orkiestracją wieloagentową

Badanie to zostało przeprowadzone przez czterech badaczy Apple, z których trzech pracowało nad modelem ADE-QVAET. Tutaj zajmują się drugim czasochłonnym zadaniem stojącym przed inżynierami jakości, a mianowicie tworzeniem i utrzymywaniem szczegółowych planów testów i przypadków dla dużych projektów oprogramowania.

W tym badaniu opracowują system, który wykorzystuje LLM i autonomicznych agentów AI do automatycznego generowania artefaktów testowania i zarządzania nimi, począwszy od planów testów po raporty z walidacji, przy jednoczesnym zachowaniu pełnej identyfikowalności wymagań, logiki biznesowej i wyników.

Innymi słowy, zbudowali system sztucznej inteligencji, który może samodzielnie planować, pisać i organizować testy oprogramowania, co może pomóc usprawnić przepływ pracy inżynierów jakości, którzy „spędzają 30–40% swojego czasu na tworzeniu podstawowych artefaktów testowania, takich jak plany testów, przypadki i skrypty automatyzacji”.

Podobnie jak w przypadku modelu ADE-QVAET, tutaj wyniki były całkiem obiecujące:

“System osiąga niezwykłą poprawę dokładności z 65% do 94,8%, zapewniając jednocześnie wszechstronną identyfikowalność dokumentów w całym cyklu życia inżynierii jakości. Eksperymentalna walidacja projektów dotyczących inżynierii systemów korporacyjnych i migracji SAP wykazuje o 85% skrócenie czasu testowania, poprawę wydajności zestawu testów o 85% i przewidywane oszczędności kosztów o 35%, co skutkuje 2-miesięcznym przyspieszeniem uruchomienia.”

Z drugiej strony badacze zauważyli również, że framework ma ograniczenia, w tym fakt, że ich prace skupiały się wyłącznie na „systemach pracowniczych, finansach i środowiskach SAP”, co ogranicza jego możliwości uogólniania.

Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym

Szkolenie agentów inżynierii oprogramowania i weryfikatorów za pomocą SWE-Gym

Jest to być może najciekawsze i najbardziej ambitne z trzech badań.

Podczas gdy dwa poprzednie badania skupiały się na przewidywaniu, gdzie mogą pojawić się błędy oraz w jaki sposób są testowane i sprawdzane, ideą SWE-Gym jest przeszkolenie agentów AI, którzy mogą faktycznie naprawić błędy ucząc się czytać, edytować i weryfikować prawdziwy kod.

SWE-Gym został zbudowany przy użyciu 2438 rzeczywistych zadań Pythona z 11 repozytoriów typu open source, każde z wykonywalnym środowiskiem i zestawem testów, dzięki czemu agenci mogą ćwiczyć pisanie i debugowanie kodu w realistycznych warunkach.

Naukowcy opracowali także SWE-Gym Lite, który zawierał 230 prostszych i bardziej samodzielnych zadań zaprojektowanych tak, aby szkolenie i ocena były szybsze i mniej kosztowne obliczeniowo.

Jak wynika z badania, agenci przeszkoleni w SWE-Gym poprawnie rozwiązali 72,5% zadań, osiągając lepsze wyniki niż poprzednie benchmarki o ponad 20 punktów procentowych.

Tymczasem SWE-Gym Lite skrócił czas treningu o prawie połowę w porównaniu z pełnym zestawem, zapewniając jednocześnie podobne wyniki. Z drugiej strony wariant Lite obejmuje znacznie mniej i znacznie prostsze zadania kodowania, co czyni go mniej skutecznym w testowaniu modeli pod kątem większych, bardziej złożonych problemów.

Pełne badanie można przeczytać na blogu Apple dotyczącym badań nad uczeniem maszynowym

Oferty akcesoriów na Amazon

FTC: Korzystamy z automatycznych linków partnerskich generujących dochód. Więcej.

Source link

Poprzedni artykuł

Oto wszystko, co nowe w Apple Notes w iOS 26

Następny artykuł

Współpraca z burgerami McDonald’s Street Fighter jest idealna

Nowe badania Apple dotyczą tworzenia oprogramowania opartego na sztucznej inteligencji

Przewidywanie defektów oprogramowania przy użyciu modelu transformatora autoenkodera

Agentyczny RAG do testowania oprogramowania z hybrydowym wykresem wektorowym i orkiestracją wieloagentową

Szkolenie agentów inżynierii oprogramowania i weryfikatorów za pomocą SWE-Gym

Oferty akcesoriów na Amazon

Więcej

Podobne

Najnowsze

Moda ZA jest doskonała, ale zbyt ujednolicona

Klęska kasowa Aresa ujawnia większy problem, który sam stworzył Disney

W ten weekend masz ostatnią szansę na zdobycie miesięcznego Disney Plus już od 9,99 USD

Nowe badania Apple dotyczą tworzenia oprogramowania opartego na sztucznej inteligencji

Przewidywanie defektów oprogramowania przy użyciu modelu transformatora autoenkodera

Agentyczny RAG do testowania oprogramowania z hybrydowym wykresem wektorowym i orkiestracją wieloagentową

Szkolenie agentów inżynierii oprogramowania i weryfikatorów za pomocą SWE-Gym

Oferty akcesoriów na Amazon

Więcej

Moda ZA jest doskonała, ale zbyt ujednolicona

Klęska kasowa Aresa ujawnia większy problem, który sam stworzył Disney

W ten weekend masz ostatnią szansę na zdobycie miesięcznego Disney Plus już od 9,99 USD

Podobne

Pracownicy Apple mają „obawy” dotyczące wydajności Siri we wczesnych wersjach iOS 26.4: raport

Najnowsze

Moda ZA jest doskonała, ale zbyt ujednolicona

Klęska kasowa Aresa ujawnia większy problem, który sam stworzył Disney

W ten weekend masz ostatnią szansę na zdobycie miesięcznego Disney Plus już od 9,99 USD