Є й українські. Стало відомо, на яких сайтах навчається штучний інтелект Google

Є й українські. Стало відомо, на яких сайтах навчається штучний інтелект Google

Журналістам вдалося виявити 15 млн сайтів, які використовуються нейромережами (Фото:georgejmclittle/Depositphotos)

The Washington Post спільно з дослідниками з Інституту штучного інтелекту Аллената класифікували вебсайти набору даних Google C4, куди входить 15 млн. унікальних доменів.

Розслідувачі The Washington Post проаналізували набір даних Google C4, виявивши 15 мільйонів веб-сайтів, які використовувалися для навчання деяких мовних моделей, включаючи T5 Google та LLaMA Facebook. Видання уточнює, що дізнатися, які набори даних використовує OpenAI, не вдалося, оскільки вона не розкриває цю інформацію.

Під час дослідження журналісти працювали з фахівцями з Інституту штучного інтелекту Аллена. Вони класифікували веб-сайти, використовуючи дані компанії веб-аналітики Similarweb.

Близько третини ресурсів неможливо встановити.

Дослідники ранжували 10 мільйонів веб-сайтів, що залишилися, на основі того, скільки «токенів» з’явилося на кожному з них у наборі даних. Токени – це невеликі фрагменти тексту, які використовуються для обробки інформації. Зазвичай це слово чи фраза.

У наборі даних переважали веб-сайти різних галузей, включаючи журналістику, розваги, розробку програмного забезпечення, медицину та створення контенту, що допомагає пояснити, чому цим сферам може загрожувати розвиток штучного інтелекту.

Трьома найпопулярнішими сайтами були patchs.google.com, який містить текст з патентів, виданих по всьому світу; wikipedia.org — безкоштовна онлайн-енциклопедія, та scribd.com — цифрова бібліотека, доступна лише за передплатою.

Цікаво, але до топ-200 потрапив і b-ok.org № 190 — онлайн-ринок піратських електронних книг. Також з’ясувалося, що штучний інтелект використовує інші ресурси, що порушують авторські права.

Серед використовуваних ШІ сайтів є українські новинні ЗМІ.