Не може аналізувати — елементарна математична проблема "перемогла" штучний інтелект.

Останнє дослідження показало, що великі мовні моделі штучного інтелекту демонструють набагато нижчий рівень "міркування", ніж передбачалося. Фахівці з компанії Apple вирішили перевірити здібності моделей, запропонувавши їм розв'язати просту математичну задачу, з якою вони не змогли впоратися. Цю інформацію повідомляє Futurism.
В рамках свого дослідження науковці детально проаналізували бенчмарк GSM8K — популярний набір даних, що слугує для оцінки здатностей штучного інтелекту до міркування. Цей набір включає тисячі математичних задач, призначених для учнів початкової школи.
Вчені з'ясували, що навіть незначні модифікації в поставлених завданнях — наприклад, зміна цифри або імені героя, або додавання незначної деталі — призводять до значного збільшення кількості помилок, які допускає штучний інтелект. Іншими словами, будь-яка корекція запитання, що не зачіпає основної суті, може спотворити роботу моделі.
Вчені вважають, що це підтверджує, що штучний інтелект не мислить так, як люди, і не володіє здатністю до логічного аналізу. Замість цього, він лише імітує ті ж дії та послідовності, які спостерігав у своїх навчальних даних.
Команда з Apple продемонструвала це на прикладі математичної задачі:
"Олівер збирає 44 ківі в п'ятницю. Потім він збирає 58 ківі у суботу. У неділю він збирає вдвічі більше ківі, ніж у п'ятницю, але п'ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?".
Розмір ківі абсолютно не важливий для розв'язання задачі, проте більшість моделей використовували подібні незначні деталі в процесі розв'язання і незмінно припускалися помилок. Наприклад, модель "o1-mini" (раніше Strawberry) від OpenAI вирішила відняти ківі поменше із загальної суми.
Згідно з даними дослідників, загальна точність моделей штучного інтелекту варіювалася від 17,5% до вражаючих 65,7%, залежно від конкретної моделі. У спрощеному експерименті виявилося, що просто виключення таких елементів, як імена власні або числові дані, призвело до суттєвого падіння здатності моделей давати вірні відповіді на запитання: точність зменшилася з 0,3% до практично 10% серед 20 найкращих моделей у галузі міркувань.