Уявити Швейцарію 2050 року, використовуючи інструменти штучного інтелекту (ШІ) для створення та анімації зображень, — саме таке завдання поставили перед двадцятьма студентами магістерської програми з журналістики в Академії журналістики та медіа (AJM) в рамках курсу «Newslab». Це був багатий досвід, що дав студентам та їхнім керівникам поживу для роздумів про потенціал та обмеження ШІ у журналістському виробництві.
У співпраці з місцевою інформаційною групою ESH Médias ми попросили близько двадцяти студентів нашого курсу «Newslab» створити серію з 7 відеороликів для трансляції напередодні першого Швейцарського кліматичного форуму 18 червня в Instagram-акаунтах газет групи (Arcinfo, Le Nouvelliste і La Côte). Студенти мали цілий місяць для організації та виконання різних етапів проєкту, включаючи розробку ідеї, пошук інформації, виробництво і постпродакшн, аж до фінальної трансляції. Клас швидко погодився на концепцію, яку легко адаптувати: уявити собі сім «свідків майбутнього», що втілюють різні теми, такі як їжа, енергія, кліматична міграція, вода, екосистеми, транспорт і здоров’я.
Спробувати свої сили в журналістиці майбутнього
Початкові труднощі з проєктом були не технічними, а радше редакційними: як висвітлити таку тему в журналістському ключі? Ефективна та зворушлива журналістика, заснована на науково підтверджених сценаріях, без упадання в чисту наукову фантастику, загострений песимізм чи активізм. Для цієї частини роботи мобілізували не ШІ, а експертів і вчених, готових накреслити реалістичні шляхи розвитку на наступні 25 років, забезпечуючи міцну основу для історій. Як резюмував один студент: «Під час завдання виявилося, що цей тип журналістики дуже відповідає цінностям професії. Пошук правди існує не лише в сьогоденні, але й відбувається в майбутньому». Оригінальний підхід до тем мав на меті «помітити слабкі сигнали, щоб замислитися над тим, якими будуть основні тенденції у 2050 році та пролити світло на світ завтрашнього дня. Інше бачення того, якою може бути журналістика».
Джерела, якими користувалися студенти, були згадані в описі до кожного допису, що супроводжував відео. Ця вимога прозорості є особливо важливою для вправ у художній журналістиці. Сліди дослідження навіть присутні в деяких відео у вигляді архівів, датованих 2024 роком. Це спосіб інтегрувати сучасні джерела та посилання, щоб запропонувати розширення кожної теми, а також підкріпити вірогідність розказаних історій.
Цінність ШІ для ілюстрації майбутнього
Використання інструментів штучного інтелекту було початковою метою команди викладачів: дозволити студентам опанувати їх, дослідити їхній потенціал та обмеження, а також розвинути своє критичне мислення. Важливо було також, щоб це додало цінності журналістиці. Ідея проєктування себе в майбутнє природно виправдовувала таке використання в контексті, коли виробництво контенту, повністю згенерованого штучним інтелектом у журналістиці, викликає кілька гострих і важливих запитань. Цей комплексний підхід був ретельно оформлений під час трансляції для громадськості (у відеотитрах і супровідному тексті).
Інструменти та цілі
Для створення цих відео клас протестував і використав кілька інструментів. Для генерації зображень вибір швидко впав на MidJourney через його потужні функції, які часто перевершують інші інструменти. Інструмент Firefly використовувався більше для доповнення вже створених зображень, уяви поза камерою тощо. Наприклад, при створенні ескізів у форматі, відмінному від відео, а також при масштабуванні певних зображень.
Для відеоанімації більшість груп обрали RunWay, зокрема функцію «Зображення у відео». Основною перевагою цього інструменту є можливість вибору області для анімації. Проте інструмент має деякі недоліки (на цьому етапі), які можуть обмежувати роботу; ми повернемося до них пізніше. Haiper також використовувався групою, яка високо оцінила якість створених ним відео, хоча й з меншими можливостями редагування. Нарешті, Pika була корисною для синхронізації руху губ (lip sync) у відео.
Що стосується звуку, то голос не створювався штучно, щоб зберегти автентичність, а також через недостатньо задовільні результати французькою, особливо коли потрібно було відтворити місцевий акцент. Однак одна група пропустила свій голос через Elevenlabs.io, щоб постарити його, зберігши при цьому оригінальний тон і тембр.
Нарешті, слід згадати про використання програмного забезпечення AfterEffects для специфічних анімацій, яка виявилася менш актуальною для інструментів ШІ (анімація комп’ютерної графіки, об’єктів тощо).
6 уроків про актуальність та межі генеративного ШІ для журналістики
1. Генерувати ймовірне чи неймовірне, правильне чи помилкове?
На перший погляд, студенти були «ошелешені» зображеннями, згенерованими з простого запиту, та швидкістю роботи. Один студент підсумував це відчуття:
«Більшість з нас були дуже вражені якістю зображень і особливо анімацій, які можна було створити за кілька хвилин за допомогою цього програмного забезпечення. Крім того, вони, як правило, дуже прості у вивченні та інтуїтивно зрозумілі у використанні. Створення такого ж типу контенту із залученням професійних ілюстраторів, фотографів чи відеооператорів, безумовно, зайняло б значно більше часу».
Створення правдоподібних, але не реальних ілюстрацій майбутнього, особливо добре підходить для цих інструментів, призначених для змалювання ймовірного, а не істинного. Однак студенти мали бути дуже точними у своїх запитах, щоб дотриматись сценарію і не залишити занадто багато місця для інтерпретації ШІ. Їхні запити дозволили поєднати кілька «інгредієнтів» майбутнього в одному зображенні: «У наших зображеннях багато деталей, які ґрунтуються на перевіреній інформації», — пояснює один зі студентів. Шляхом спроб та помилок, а також послідовних ітерацій групи уточнювали свої запити, поки не отримали бажані образи, з мікродеталями, такими як кліпання очей в анімації обличчя.
Тому що диявол ховається в деталях… Очі, руки, волосся і перспектива: поточні обмеження інструментів штучного інтелекту добре задокументовані. Наші студенти відчули їх на собі, навіть побачивши схожість з тим, як люди вчаться малювати: «Це трохи схоже на молодого художника, який вчиться малювати та має труднощі з певними аспектами малювання (перспектива, певні позиції, рухи руками тощо)». Інші обмеження, такі як складність створення елементів з текстом (наприклад, дорожнього знаку), були подолані за допомогою більш традиційних інструментів, таких як Photoshop.
Парадоксально, але створення зображень змусило деяких студентів поставити під сумнів свої стосунки зі словами. Як сказав один студент:
«Робота з запитами для ШІ надихнула мене на роздуми про те, наскільки захопливою є мова. Часто ми використовуємо певні слова, думаючи, що описуємо реальність, але машина видає результат, який зовсім не відповідає нашим очікуванням. Тож ми усвідомлюємо, що мова і словниковий запас можуть охоплювати реалії, які є різними для кожного. Тому дуже важливо точно висловлювати свої думки, особливо для журналістів».
І все ж, точність не завжди є достатнім критерієм. Вірогідність похибки, і, перш за все, інтерпретації, залишається високою: «Окрім команд, які ми даємо ШІ, і які нам іноді важко виконати, є все інше: деталі, які є плодом його власних пропозицій, і важливість яких нам доводиться арбітрувати». Більш прозаїчно, деякі групи змінили мову для певних команд: наприклад, «MidJourney інтерпретувала слово “sauterelle” (“коник”) як “poule” (“курча”) французькою. Тому ми обрали англійську».
2. Відтворення або створення спадкоємності та послідовності
Однією з головних проблем було забезпечення узгодженості між послідовними серіями зображень, особливо для персонажів, які є центральними в концепції. Для цього було використано дві функції: «узгодженість персонажів» для створення зображення на основі обличчя попереднього (за допомогою комбінації клавіш «-cref + посилання на еталонне зображення»). Друга команда, додана до кожного запиту, забезпечила узгодженість стилю зображень між різними відео («знято на Sony A7 III»).
Попри ці команди, забезпечити послідовність і безперервність виявилося непросто, коли маєш справу з програмою, яка щоразу генерує різні результати. Навіть з правильною командою, персонажі не завжди мають однакові риси. Ще складніше зробити так, щоб вони з’являлися в однакових умовах, в однаковому одязі тощо. Поставши перед труднощами, студентам довелося проявити винахідливість, наприклад, рознести появу персонажів у часі або перемежовувати їх кадрами, щоб зменшити сприйняття відмінностей. Виявилося, що певні обличчя легше відтворити, ніж інші, що вплинуло на остаточний вибір, як пояснює один студент: «Ми швидко зрозуміли, що, всупереч важливості цілісності персонажа, у нашому проєкті досягти схожості буде складніше, ніж ми очікували. Нам довелося кілька разів змінювати аватарки, щоб знайти ту, яку можна було б впізнати від однієї сцени до іншої».
3. Від зображення до відео: ШІ-анімація
Хоча створення цілісних персонажів та сцен було нелегким завданням, анімація цих зображень для інтеграції їх у відео також стала джерелом труднощів. Найпростішими для роботи були анімації на основі базових рухів, таких як переміщення хмар або шелест листя. Ці легкі рухи зазвичай швидко створювалися з досить задовільними результатами. Особливо корисною була можливість анімувати певну ділянку зображення за допомогою чітких запитів (наприклад, конкретний об’єкт або губи персонажа).
Однак реалізація складніших анімацій була більш проблематичною. Наприклад, запит на створення ефекту рухомого знімка міг призвести до спотворення зображення. Анімація об’єктів також іноді приносила несподівані результати: наприклад, замість того щоб обертатися, вітряк міг злетіти в небо. Ці деформації ставали ще помітнішими після 4 секунд анімації, які Runway пропонує за замовчуванням. Групи винахідливо подолали цю проблему: одні створили більше зображень, інші вирішили трохи уповільнити відео, що, однак, вплинуло на загальний темп.
4. Анімація персонажів та руху
Анімувати людей було найскладніше, як пояснив один студент: «Я попросив Runway зробити так, щоб жінка йшла вперед спиною до “камери”. За чотири секунди відео програма, без мого запиту, створила їй три різні зачіски: спочатку пучок, потім косу і, нарешті, “хвіст”. Навіть коли я перефразував свій запит, програма продовжувала змінювати зачіску героїні». Інший персонаж отримав від програми блакитне волосся через рух голови. Деякі персонажі зазнавали морфінгу (англ. morphing — спеціальний візуальний ефект плавного переходу (перетікання) між об’єктами, — перекладач), який радикально змінював риси їх обличчя, а також руки, які іноді перетворювалися на «мацак, плавники чи ласти».
Одне з основних обмежень посилювало ці труднощі: майже неможливо було створити та анімувати людей у русі. «Штучний інтелект ледве справлявся з завданням змусити людей на зображеннях ходити. Крім того, рухи та жести персонажів виконувалися в уповільненому режимі, що робило анімацію значно менш реалістичною», — зізнався один студент.
Інший студент підтвердив: «Нам ніколи не вдавалося змусити нашого персонажа ходити або бігти, попри запити, такі як “він поспішає”, “він тікає”, “він біжить”. Здавалося, неможливо отримати зображення персонажа в русі. А тим більше оживити його: або рух був надто повільним і неприродним, створюючи враження сповільненого фільмування, або з’являлися помітні неправдоподібності». Кілька груп стикнулися з цією перешкодою і були змушені відмовитися від частини свого сценарію (зокрема, від деяких ефектів руху), тоді як інші вирішили створити нові, більш «базові» образи, які було легше анімувати.
5. ШІ для генерування непотребу?
Протягом курсу студенти зрозуміли, що створення «ідеального запиту» для ШІ є практично неможливим, і що досягнення бажаного результату вимагає підходу «спроб і помилок» для генерації, що призводить до великої кількості непотрібного матеріалу. Один студент пояснює: «Спочатку я генерував небагато зображень, але врешті-решт зрозумів, що потрібно створювати багато варіантів, щоб знайти дійсно вартісний результат. Я намагаюся “вбити муху з гармати” – сподіваюся, що випадково натраплю на потрібне зображення». Це викликало занепокоєння щодо енергетичного впливу такого методу: «Хоча цей підхід допоміг мені отримати бажані результати, він змусив мене задуматися про енергетичні витрати, необхідні для створення такої кількості зображень». Інший студент додає: «Якщо використання штучного інтелекту в журналістиці буде зростати, важливо враховувати обсяг енергетичних витрат». Для створення 7 відеороликів тривалістю близько 2 хвилин кожен було згенеровано майже 10 000 зображень у MidJourney і 900 анімацій у Runway, що іноді займало до 10 хвилин на просте тестування.
Таким чином, інструменти для створення зображень не лише споживають багато енергії, але й потребують значного часу для використання та очікування, що суперечить поширеній думці про їхню здатність заощаджувати час. Один студент підрахував, що загальний час очікування на створення відео його групи склав 45 годин, що є мінімумом, враховуючи кількість зображень, згенерованих спеціально для цього відео. Інший студент роздумує над таким ставленням до часу: «Ми звикли отримувати негайний результат одним клацом мишки. Проте під час створення зображень і відео час очікування становив близько хвилини на одне зображення або анімацію. Це дії, які ми повторювали тисячі разів. Це приголомшує».
6. Упередження генеративного ШІ
Останньою проблемою, з якою стикнулися студенти під час використання генеративного ШІ для цього проєкту, є виявлення та можливе обмеження упереджень, властивих інструменту. Як відомо, ШІ, як і інші технології, не є нейтральним і відображає цінності та уявлення своїх розробників. Генеративний ШІ також базується на величезних масивах даних, які формують його обчислювальну основу.
Першим потрясінням (а іноді й джерелом дискомфорту) для студентів стало спостереження за генерацією надзвичайно стереотипних та шаблонних облич. Одна зі студенток згадує: «Наша перша Люсі завжди виглядала як топмодель. Нам доводилося спеціально доповнювати наші запити деталями, щоб надати їй більш реалістичного вигляду, але навіть у фінальному варіанті Люсі залишалася в межах традиційних канонів краси».
Окрім кольору шкіри та рис обличчя, занадто естетичними та неприродними виявилися й пози. Усім спробам створити персонажів, які виходять за межі стереотипної норми, не вистачило успіху; це було надзвичайно складно, майже неможливо. Наприклад, згенерувати зовнішність літньої людини, яка не виглядала б просто як молодша особа з кількома ознаками старіння, було дуже важко: «Ми попросили Midjourney створити зображення 65-річної жінки, і в результаті вийшла жінка, яка виглядала на 37 років, але з сивим волоссям».
Студентка підтверджує це, пояснюючи наслідки таких обмежень для їхньої роботи:
«Якщо дати волю, ШІ буде генерувати білих молодих людей, які відповідають досить чітким стандартам краси (струнка статура тощо). Спочатку у нас була ідея зробити Леа людиною азійського походження, але ця ідея зрештою була відкладена через додаткові команди, які ускладнювали нашу дослідницьку роботу».
Ці труднощі ще більше загострювалися, коли мова йшла про анімацію персонажів, які виходили за межі «норм». Помилки та галюцинації, описані раніше, ставали ще більш вираженими. Через це студентам часто доводилося коригувати свій вибір, щоб забезпечити узгодженість, навіть якщо це суперечило їхньому початковому бажанню внести більше різноманітності в образи персонажів.
Студенти також стикалися з іноді заплутаними результатами, такими як сексуалізація певних поз: наприклад, запит на зображення спини людини найчастіше призводив до зображень з оголеною спиною, а прохання зобразити присідання часто закінчувалося створенням сугестивної пози. І навпаки, іншій групі було важко створити зображення людини, яка плаває, оскільки фільтри проти оголеності блокували цей тип запитів.
Ці шість уроків не охоплюють усіх роздумів, які виникли під час цього досвіду, який породив багато інших питань. Проєкт також став джерелом нових амбіцій для студентів, які відчувають, що настає нова ера, в якій журналістам доведеться впоратися з цими інструментами, навчитися використовувати їх максимально ефективно та, найголовніше, не дозволяти технологіям поглинути себе, а використовувати їх як потужний ресурс.
Тринадцять років тому Ерік Шерер поставив питання: «Чи потрібні нам ще журналісти?», пропонуючи «маніфест доповненої журналістики». Його слова здаються актуальними як ніколи.
Особлива подяка Шарлю-Анрі Ґроулту, керівнику відео-відділу Le Monde і викладачеві AJM, співкерівнику курсу Newslab, а також Жульєну Перро, докторанту AJM на курсі Newslab.
А також студентам, які брали участь у цьому проекті (деякі з них згадуються в цій статті анонімно): Шарлотті Бюзер, Янніку Каттіну, Жюлі Колле, Амелі Фазель, Барнабе Фурньє, Жану Фрідріху, Флавії Джилліоз, Трістану Джордано, Сімону Гумі, Джоан Хабеггер, Саломе Лоран, Пабло Лавілю, Марго Леманн, Тібо Мабу, Солен Монні, Джакомо Нотарі, Олівії Шмідлі, Матильді Шотт, Томасу Штрюбіну та Юлії Зедер.
А також Лена Вюрльгер, журналістка ESH Médias, яка супроводжувала проект для партнерських медіа, та Ксав’є Фійєс, заступник головного редактора Le Nouvelliste, який взяв участь у фінальному пітчингу.
7 відеороликів можна знайти в Instagram-акаунтах Arcinfo, Nouvelliste, La Côte та AJM, а також на сайті Arcinfo.
Більше матеріалів про штучний інтелект можна знайти в нашому тематичному досьє.
Цей текст було вперше опубліковано на французькому сайті EJO 10 липня 2024 року. Українською переклала Олександра Ярошенко.
Погляди, висловлені на цьому сайті належать авторам і не обов’язково відображають точки зору, політики та позиції EJO.
Джерело зображення: AJM Instagram.
Стежте за нами у Facebook.
Tags: інновації в журналістиці, цифрові інструменти, ШІ, штучний інтелект