Функція автоматичних відповідей у Google, що використовує штучний інтелект, демонструє значний рівень точності, проте все ще має помітну частку помилок. Згідно з дослідженням, близько 10% відповідей є ненадійними, що в контексті масштабів пошукової системи означає величезну кількість оманливої інформації.
Як працюють AI Overviews
AI Overviews — це інноваційна функція Google, яка генерує стислі відповіді на запити користувачів за допомогою моделей штучного інтелекту Gemini. Цю технологію вперше представили у 2024 році, і вона швидко набула популярності в різних регіонах, включаючи Україну. Система аналізує дані з численних джерел і формує короткі резюме, що дозволяє користувачам отримувати відповіді без необхідності переходити за посиланнями.
Результати дослідження
Спільне дослідження, проведене The New York Times і стартапом Oumi, виявило, що приблизно 90% відповідей AI Overviews є вірними. Проте близько 10% відповідей містять помилки або можуть ввести в оману. Перевірка проводилася за допомогою тесту SimpleQA, що складається з 4 тисяч запитань, розроблених OpenAI. Результати показали, що точність зросла після оновлення моделей: раніше вона становила близько 85%, а згодом перевищила 90%. Проте навіть такий рівень точності викликає занепокоєння, враховуючи масштаби використання Google. Це може призводити до мільйонів некоректних відповідей щогодини.
Приклади помилок
У звіті наведено конкретні приклади неточностей. Наприклад, на запит про дату, коли будинок Боба Марлі став музеєм, система посилалася на джерела, які не містили точних даних або мали помилки. В іншому випадку штучний інтелект стверджував, що певна музична установа не існує, хоча сам же посилався на її офіційний сайт. Ці суперечності свідчать про проблеми з надійністю відповідей.
Позиція Google
У Google розкритикували методологію дослідження, зазначивши, що використаний тест може містити неточності і не відображає реальні запити користувачів. За словами компанії, для внутрішньої оцінки застосовується власний підхід з ретельно перевіреними даними, що дозволяє точніше оцінювати якість системи.
Чому оцінювати ШІ складно
Оцінка генеративних моделей залишається складним завданням. Різні методики можуть давати різні результати, а самі моделі іноді генерують різні відповіді на однакові запитання. Крім того, AI Overviews не базується на одній моделі — система обирає найбільш відповідну для кожного запиту. Потужніші моделі є повільнішими та дорожчими, тому використовуються не завжди.
Головний ризик — довіра користувачів
Незважаючи на значний прогрес, основна проблема полягає у сприйнятті відповідей користувачами. Багато хто довіряє штучному інтелекту без додаткової перевірки, навіть якщо відповіді можуть бути неточними. Використання інтернет-джерел підвищує точність, але також створює ризик поширення ненадійної інформації. Хоча Google попереджає про можливі помилки у відповідях, на практиці не всі користувачі перевіряють отриману інформацію.
