Компанії, що розробляють генеративний ШІ, значною мірою залежать від журналістського контенту для тренування своїх мовних моделей. Поки одні медіа ведуть переговори з технологічними гігантами, інші відмовляються надавати свої дані. Така неоднорідна ситуація — від економічних можливостей до ризику невидимості — здатна істотно вплинути на майбутнє медіаекономіки та плюралізму.
Два роки експериментів з великими мовними моделями (Large language model, LLM), такими як ChatGPT, показали не лише відносну надійність відповідей алгоритмів, а й нагальну потребу в перевірених журналістських даних для навчання. Тексти, створені штучним інтелектом, не мають цих якостей, а тренування моделей виключно на них може призвести до їхнього занепаду. В умовах, коли прогнозується, що до 2028 року розробники ШІ можуть вичерпати навчальні дані, звіт Німанського інституту підкреслює життєву важливість якісних журналістських даних для генеративного ШІ.
Останні активно використовують журналістський контент, який вони завантажують за допомогою своїх «вебкраулерів» — цифрових роботів, що сканують та індексують інтернет. OpenAI пояснює, що без використання захищених авторським правом даних неможливо навчити високопродуктивні моделі.
Однак частка журналістських даних серед навчальних матеріалів залишається вкрай нечіткою. У технічному звіті, опублікованому в березні 2023 року, компанія Сема Альтмана прямо зазначила, що не бажає надавати деталі щодо використовуваних наборів даних. Хоча генеративний ШІ наразі, здається, не може обійтися без журналістських даних, відсутність прозорості у використанні медіаконтенту викликала ланцюгову реакцію в новинній індустрії.
Медіа звертаються до суду
Інтенсивне використання журналістського контенту технологічними компаніями призвело до серйозних юридичних конфліктів. The New York Times подала позов 27 грудня 2023 року проти Microsoft та OpenAI за «порушення авторських прав та журналістської діяльності». У квітні 2024 року вісім інших американських газет подали позов проти OpenAI за порушення авторських прав, а наприкінці листопада того ж року — коаліція найбільших канадських медіаорганізацій.
Відповідаючи на ці звинувачення, компанія, що розробляє ChatGPT, пояснила, що використання журналістського контенту для навчання її моделей було перетворювальним, а не таким, що просто копіює оригінал.
Цей судовий процес, поряд з іншими, продемонстрував масштаби вебскрейпінгу — автоматизованого вилучення даних з інтернету, у цьому випадку для навчання LLM. Розслідування виявило наявність мільйонів статей з новинних вебсайтів у наборах даних OpenAI ще до початку навчання.
На момент написання цієї статті результат судового процесу залишався невідомим, а дебати щодо «добросовісного використання», які здебільшого тривають у США, ще далекі від завершення. Однак, схоже, завершився період «Дикого Заходу», коли розробники ШІ безперешкодно викачували інформацію з інтернету, не отримуючи жодної реакції від медіа. Сьогодні, стикаючись із цим потоком медіаданих, журналісти застосовують різні підходи.
Медіастратегії в світі вебскрейпінгу
Кілька медіагруп уклали угоди з розробниками LLM для регулювання використання свого контенту. Це особливо стосується американських агентств Associated Press та OpenAI, а також Reuters та Meta. У Європі Le Monde (Франція), Axel Springer (Німеччина), Prisa Media (Іспанія) та Financial Times (Великобританія) також підписали партнерські угоди з розробником ChatGPT. Проте ці угоди залишаються меншістю в медіаландшафті, а їхні умови для медіа все ще не є повністю прозорими.
Однак багато медіакомпаній вирішують протистояти вебскрейпінгу, застосовуючи механізми блокування, запропоновані розробниками: файли «robots.txt» для блокування вебкраулерів LLM, механізми відмови або реєстрацію IP-адрес (Chesterman 2024). Дослідження Reuters показує, що 48% найбільших новинних сайтів у десяти країнах активно блокують роботів OpenAI. Етичні міркування можуть зіграти важливу роль у цьому процесі. Маттіас Кеттеманн, дослідник з Університету Інсбрука та фахівець з управління інтернетом, зазначив у розмові з EJO, що, на його думку, роль медіа не полягає в навчанні алгоритмів.
У Швейцарії пресгрупи NZZ, Tamedia та CH Media блокують доступ пошукових роботів до новинних порталів своїх брендів. Пресслужба CH Media в інтерв’ю EJO пояснила, що прагне протистояти ситуації, коли «великі технології» використовують контент видавців для отримання трафіку та доходів від реклами на їхніх платформах, не вкладаючись у витрати на виробництво цього контенту. Технічний директор національного інформаційного агентства Keystone-ATS, Том Шнайдер, поділився схожими застереженнями та зазначив, що його компанія також планує впровадити блокування вебкраулерів.
Однак CH Media визнає й недоліки стратегій блокування. Група зазначає, що проведені вимірювання свідчать про можливість обходу цих заходів, що підтверджують результати опитування, проведеного американською медіакомпанією Wired у червні 2024 року на сайті Perplexity. Тому CH Media закликає до посилення державного регулювання та більшої підтримки в застосуванні стратегій обходу блокувань. Надя Колер, керівник лабораторії штучного інтелекту Tamedia, поділилася деталями стратегії використання файлів robots.txt. «Заведено вважати, що ці файли встановлюють правила, але їх дотримуються не всі гравці. Метою є також зміцнення правової позиції групи», — сказала вона, додавши, що Tamedia запровадила різноманітні технічні заходи для блокування.
З’являється й третій підхід: деякі медіа свідомо вирішують не протистояти вилученню даних розробниками LLM, навіть якщо не підписали з ними угоди. Такою є позиція Швейцарської телерадіомовної корпорації (la Société suisse de radiodiffusion, SSR), яка володіє суспільними медіа Швейцарії. Представник компанії повідомив EJO, що головна мета — отримати досвід роботи з цими технологіями. «Ми хочемо зрозуміти, чи можна використовувати ці технології в майбутньому на користь наших медіапропозицій та громадськості, і якщо так, то яким чином», — пояснив він.
Зі свого боку, Ringier Group через представника медіа Blick пояснила свій вибір Persoenlich як спеціалізованого медіа бажанням забезпечити доступність свого контенту на всіх платформах, включаючи LLM.
Це нове відображення відносин між медіа та ШІ порушує важливе питання: коли лише певні медіа надають інформацію для LLM, які критерії визначають цей вибір?
Економічна вага — вирішальний фактор у переговорах
Раніше вебскрейпінг мав здатність покривати широку мережу джерел. Тепер, коли процеси диференціації набирають сили, виникає побоювання, що домінантним критерієм буде не плюралізм медіа.
На думку дослідника Фелікса Саймона, медіаорганізації, які мають фінансові можливості для інвестування в дослідження та розвиток, отримують значну перевагу (Simon 2023). Ці «переможці», за словами дослідника, здобувають сильну позицію для ведення переговорів на вигідних умовах з технологічними гігантами. Насправді такі вебгіганти, як Google, Meta (колишній Facebook) та, останнім часом, TikTok, вже схиляються до того, щоб надавати перевагу великим медіагрупам у комерційних партнерствах й розробці нових форматів.
Якщо економічна вага медіа є вирішальним фактором у їхній здатності вести переговори з технологічними гравцями, позитивні побічні ефекти штучного інтелекту та потенційне зростання популярності можуть зосередитися в руках кількох великих гравців, що шкодить меншим, таким як місцева преса.
З усім тим, 15 січня цього року OpenAI оголосила про інвестиції у видавництво місцевої преси Axios в обмін на доступ до їхнього контенту для відповіді на запити користувачів чат-ботів. Це партнерство стало несподіванкою, оскільки «великі технології» зазвичай віддають перевагу медіагрупам з національним або міжнародним охопленням. Axios, хоча й спеціалізується на місцевій журналістиці, не є дрібним гравцем, оскільки охоплює понад 30 великих американських міст і був придбаний за 525 мільйонів доларів у 2022 році.
Колектив як економічний важіль
У інтерв’ю EJO Хав’єр Діас Носі, професор Університету Помпеу Фабра та дослідник цифрової журналістики, стверджує, що «в довгостроковій перспективі як великим, так і меншим гравцям доведеться створювати альянси та вести переговори з OpenAI [або іншими компаніями], це неминуче». Це твердження підкріплюється позицією OpenAI, яка вказує, що медіаіндустрія складає лише незначну частину даних, що використовуються для навчання її моделей. Як зазначає Financial Times, «негласна загроза для видавців така: якщо ви не погодитеся на наші умови, ми без проблем виключимо вас». Це попередження ще більше підкреслює необхідність колективного підходу, щоб набрати переговорну силу.
Міжмедійна співпраця є також критично важливою для монетизації контенту. Для Хав’єра Діаса Носі завдання очевидне: не повторювати помилок минулого, коли видавці безплатно надавали свій контент вебгігантам. Як зазначає Financial Times, «багато хто в медіаіндустрії, здається, навчився на власному гіркому досвіді взаємодії з такими гейткіперами, як Google та Facebook».
Цього разу у Швейцарії технічний директор Keystone-ATS заявив, що відкритий до впровадження спільного рішення для медіагруп країни, подібного до того, яке обговорював Джефф Джарвіс. Таким чином, формування міжмедійних альянсів стає дедалі більш реальним та конкретним кроком.
Нові шляхи монетизації
Вигідні угоди з розробниками штучного інтелекту не лише залишаються рідкісними, але й можуть стати відносно незначним джерелом доходу для медіа. За інформацією відділу комунікацій CH Media Group, «швейцарські видавці наразі не мають перспективи справедливого партнерства. Винагорода, яку зараз обговорюють на ринку за контент, вироблений видавцями, є занадто низькою». За даними The Information, OpenAI пропонувала від одного до п’яти мільйонів доларів на рік деяким видавництвам за використання їхніх статей для навчання моделей LLM.
Однак з’являються нові шляхи для монетизації. Впровадження реклами в LLM стало першим кроком у цьому напрямку. Perplexity стало піонером цього підходу, який може допомогти медіа повернути частину рекламних доходів, що раніше йшли до GAFAM. У липні 2024 року стартап представив «програму для видавців», обіцяючи виплачувати їм частину доходів від реклами, яка безпосередньо пов’язана з їхнім контентом. Проте Financial Times застерігає від великих очікувань на швидкі доходи, хоча й визнає, що ця модель має важливу перевагу — вона створює прецедент, який можуть розвивати інші видавці.
Інший підхід стає популярним завдяки компаніям, таким як Prorata.ai, які розробляють технології для автоматичного аналізу та визначення джерел контенту, створеного LLM. Це рішення дозволяє точно виявляти, які джерела використовуються, і забезпечувати справедливу винагороду правовласникам. Така система може стати основою для винагороди, заснованої на реальному використанні контенту. Проєкт підтримали кілька медіаорганізацій, зокрема Sky News та Guardian Media Group.
Рішення RAG (Retrieval-augmented generation), на яких також ґрунтується Prorata.ai, є перспективним напрямом розвитку. Ця технологія дозволить LLM генерувати відповіді не на основі величезних обсягів навчальних даних, а на основі зовнішніх, специфічних баз знань, до яких звертаються в режимі реального часу. Такий підхід кардинально відрізняється від традиційного «вилучення» контенту: замість того, щоб постійно інтегрувати контент у параметри моделі, медіа могли б запропонувати контрольований платний доступ до своїх архівів. Це також дозволить забезпечити кращу відстежуваність джерел.
У Швейцарії Tamedia є однією з груп, що розробляють рішення RAG для покращення своїх послуг. «Ми векторизували весь наш архів (примітка редактора: перетворення тексту в математичні дані, які можуть бути використані ШІ) і вже використовуємо розширений пошук (RAG) для різних додатків ШІ – як для підтримки наших журналістів, так і для розробки орієнтованого на користувача підходу», – пояснює Надя Колер. Наприклад, на сайті 24heures.ch чат-бот зі штучним інтелектом полегшує доступ читачів до контенту Tamedia, що стосується потокових серіалів. Однак не згадувалося використання рішень RAG для монетизації дистрибуції. На міжнародному ринку, з іншого боку, директор сінгапурської пресгрупи NUS Пітер Шопперт пояснив на своєму каналі Substack, що угода між Axel Springer і OpenAI переважно стосувалася ліцензування пошуку даних за допомогою RAG, що демонструє потенціал цієї технології для бізнес-моделей медіа.
Поява LLM в інформаційному ландшафті безумовно може відкрити нові економічні можливості для журналістських гравців. Однак це також може підірвати традиційну модель, яка базується на залученні трафіку на сайти медіа.
Викривлена гра в SEO?
Чи змінює поява LLM правила SEO (пошукової оптимізації), яку медіа освоювали роками? Вже з’являється нова форма оптимізації – GEO (Generative Engine Optimization), яка спрямована на адаптацію контенту таким чином, щоб його краще ідентифікували та використовували не пошукові системи, а генеративні моделі. Хоча вебтрафік ще не масово переорієнтовано на інструменти типу Perplexity чи ChatGPT, де функція пошуку в реальному часі залишається новою і недосконалою, ландшафт інформаційного пошуку може зазнати суттєвих змін.
За словами дослідника Фелікса Саймона (2023), деякі медіаорганізації побоюються втратити до половини своєї поточної аудиторії через зміни в пошукових системах. Цю тенденцію вже можна спостерігати: звіт Інституту Reuters за 2023 рік підтверджує значне зменшення прямого доступу до новинних сайтів на користь сторонніх платформ та агрегаторів.
Однак є один позитивний момент: ChatGPT все частіше систематично цитує свої джерела – практика, що майже не існувала на етапі запуску інструменту. Проте інформація, отримана безпосередньо з джерел і узагальнена в діалоговій бульбашці, теоретично звільняє користувачів від необхідності звертатися до оригінальних сайтів, хіба що для перевірки фактів.
У цьому контексті виникає важливе питання: якщо лише частина медіа бере участь у навчанні програм LLM, тоді як потенційно на всі можна знайти посилання через Google, чи не існує ризику, що доступ до інформації ставатиме все більш нерівноправним? В інтерв’ю EJO Маріо Хаїм, професор комунікаційних наук і комп’ютерних комунікацій Мюнхенського університету (LMU), висловив це занепокоєння. Він зазначає, що сектор вже проходив подібні фази з появою новинних агрегаторів і пошукових систем. «Великі гравці на чолі з Google встановили свої правила належної практики. Важко сказати, чи був плюралізм медіа однією з їхніх турбот». Він додає: «Європейський Союз зрештою запровадив правила, що вимагають представлення різноманітної групи видавців. Цей регламент достатньо гнучкий і може бути застосований до OpenAI, коли ChatGPT стане важливим інструментом пошуку, хоча на даному етапі це ще далеко не факт».
Окрім питань видимості, постає ширше питання: демократичного представництва медіа в публічному просторі, що дедалі більше формується під впливом LLM.
LLM та публічний простір: нові виклики медіаплюралізму
Юнґерр і Шредер (2023) визначають публічний простір як місце, де «суспільство стає видимим для самого себе і де формуються громадськість та контргромадськість». За їхнім твердженням, ШІ формує не тільки інформацію, яку люди бачать, а й ту, яку їм дозволяють або заохочують публікувати. Таким чином, суттєва функція публічного простору може зазнати змін через незбалансоване представлення медіа в LLM.
Чи не існує ризику, що одне бачення світу буде домінувати, тоді як альтернативні ідеї залишатимуться поза увагою? Ця загроза стає ще більш очевидною, коли врахувати, що LLM часто критикують за те, що вони іноді без належної критики відтворюють інформацію, не перевіряючи її достовірність.
Для дослідника Матіаса Кеттеманна головним викликом є нерівність у навчальних даних між глобальною Північчю та Півднем. «Заснування нових європейських медіа, незалежно від їх редакційної лінії, не суттєво змінить загальний рівень різноманіття даних. Ключовою проблемою залишається відсутність збалансованого представництва всіх регіонів світу в наборах даних, зокрема, недостатня увага до журналістських джерел з Африки та Азії», — підкреслює він.
Дослідник Фелікс Сімон також виокремлює інші ризики для публічної сфери. Хоча вплив на медіаплюралізм може бути як позитивним, так і негативним, він виділяє один особливий ризик: «Індивідуальні орієнтації, викликані ШІ, не завжди змінюють контент у конкретному напрямку на системному рівні. Проте, коли технологічне посередництво поступово і скоординовано змінює контент з часом, це може вплинути на функціонування публічного простору» (Simon, 2023).
Ці потенційні упередження ще складніше виявити, оскільки немає нормативного еталона для порівняння ідеальної композиції публічного простору з тим, що формує штучний інтелект. Така ситуація вимагає підвищеної пильності та детального дослідження еволюції публічного простору в епоху LLM та вебскрейпінгу, коли алгоритми можуть безшумно змінювати контури громадської думки.
Література
- Jungherr, A., Schroeder, R. (2023). Artificial intelligence and the public arena, Communication Theory, Volume 33, Issue 2-3, Pages 164–173
- Simon, F. (2024). Artificial intelligence in the news: how AI retools, rationalizes, and reshapes journalism and the public arena. Tow Center for Digital Journalism, Columbia University.
- Chesterman, S. (2024). Good models borrow, great models steal: intellectual property rights and generative AI, Policy and Society
Цей текст було вперше опубліковано на швейцарському сайті EJO 15 лютого 2025 року. Українською переклала Олександра Ярошенко.
Погляди, висловлені на цьому сайті належать авторам і не обов’язково відображають точки зору, політики та позиції EJO.
Tags: Associated Press, ChatGPT, Facebook, Google, Microsoft, New York Times, Reuters, Інтернет, авторське право, ШІ, Швейцарія, штучний інтелект