423ce28f

Точність ШІ-відповідей Google: дослідження виявляє помилки

Функція автоматичних відповідей у Google, що використовує штучний інтелект, демонструє значний рівень точності, проте залишається помітна частка помилок. Згідно з дослідженням, приблизно 10% відповідей є недостовірними, що в контексті масштабів пошукової системи означає величезну кількість оманливої інформації.

Як працюють AI Overviews? AI Overviews — це функція Google, яка генерує стислі відповіді на запити користувачів, використовуючи моделі штучного інтелекту Gemini. Цю технологію було вперше представлено у 2024 році, і з того часу вона стала популярною в різних регіонах, включаючи Україну. Система аналізує дані з різних джерел і формує короткі резюме, що дозволяє користувачам швидко отримувати відповіді без необхідності переходити за посиланнями.

Результати дослідження, проведеного The New York Times у співпраці зі стартапом Oumi, показали, що близько 90% відповідей AI Overviews є правильними. Однак приблизно одна з десяти відповідей містить помилки або може ввести в оману. Перевірка проводилася за допомогою тесту SimpleQA — набору з 4 тисяч запитів, розробленого OpenAI. Результати вказали на покращення точності після оновлення моделей: раніше вона становила близько 85%, а згодом перевищила 90%. Проте навіть такий рівень точності викликає занепокоєння, враховуючи масштаби використання Google. Це може призвести до мільйонів некоректних відповідей щогодини.

У звіті наводяться конкретні приклади помилок. Наприклад, на запит про дату, коли будинок Боба Марлі став музеєм, система посилалася на джерела без точних даних або з помилками. В іншому випадку ШІ стверджував, що певна музична установа не існує, хоча сам посилався на її офіційний сайт. Такі суперечності вказують на проблеми з надійністю відповідей.

Google розкритикував методологію дослідження, зазначивши, що використаний тест може містити неточності і не відображає реальні запити користувачів. За словами компанії, для внутрішньої оцінки застосовується власний підхід із ретельно перевіреними даними, що дозволяє точніше оцінювати якість системи.

Оцінка генеративних моделей залишається складним завданням. Різні методики можуть давати різні результати, а самі моделі іноді генерують різні відповіді на однакові запитання. Крім того, AI Overviews не базується на одній моделі — система обирає найбільш доречну для кожного запиту. Потужніші моделі є повільнішими та дорожчими, тому їх використовують не завжди.

Попри значний прогрес, ключова проблема полягає у сприйнятті відповідей користувачами. Багато хто довіряє ШІ без додаткової перевірки, навіть якщо відповіді можуть бути неточними. Використання інтернет-джерел підвищує точність, але також створює ризик поширення недостовірної інформації. Хоча Google попереджає про можливі помилки у відповідях, на практиці не всі користувачі перевіряють отриману інформацію.

Коментування закрито.