Штучний інтелект – справжня «чорна скринька». Журналісти висвітлюють явище, яке навіть експертам у цій сфері важко пояснити. Ускладнює ситуацію те, що більшість важливих розмов на цю тему відбуваються за закритими дверима. Інформація про багато кроків у цій сфері закрита, а громадськість надто покладається на однобокі корпоративні прес-релізи, що максимізують вигоди акціонерів та мінімізують ризики. Тимчасом публічно доступна інформація – переважно академічного характеру і потребує глибоких знань у галузі, щоби розшифрувати щось поза аналітичними записками.
Чому для журналістів розуміння штучного інтелекту є надважливим
Журналістам слід професійно розібратися у штучному інтелекті до того, як він підважить і наші ньюзруми, і суспільство. Нам треба навчитися краще пояснювати цю технологію, яка впливає практично на всі аспекти нашого життя – від того, які фільми з’являються у нашій черзі на Netflix до того, чи претендуємо ми на кредит. Але щоб розвинути свої навички до професійного рівня, потрібно мати серйозне розуміння інфраструктури, яка уможливлює роботу штучного інтелекту – йдеться про масиви даних, що насичують системи і те, звідки походить ця інформація.
Почнемо з того, що масиви даних і те, як їх збирають, використовують і розкривають може впливати на результати всієї системи. Це може здаватися очевидним. Але навіть базове запитання – на зразок «яка інформація міститься у цих навчальних даних для цієї моделі штучного інтелекту?» – може мати складну відповідь.
Наприклад, деякі найважливіші бази даних, що використовуються для машинного навчання складаються з мільйонів зображень. Зазвичай програміст може відповісти на запитання, звідки походять дані і які бібліотеки використовувалися, щоб генерувати результати. Але яка інформація формує бібліотеки? Донедавна відповісти на це було складно.
Щоби працювати, набір даних для навчання повинен мати багато елементів. Тому більшість бібліотек переважно збирають та компілюють інформацію кількох масивних репозиторіїв даних, таких як Google Images чи Flickr. Хоч нас переважно переконують, що введені дані правильно категоризовані, помилки можуть з’являтися .
2015 року широко обговорювали помилку Google, коли програміст Джекі Алсіне (Jacky Alciné) помітив, що система розпізнавання зображень Google Photos позначає чорношкірих людей як «горил». Це жахлива та расистська асоціація – але як узагалі це могло трапитися? Більшість експертів у сфері штучного інтелекту знали як. Винен не якийсь програміст-расист, що таємно затіяв цю «чорну справу». Це була база даних, натренована більшою мірою на горилах, а не афроамериканцях.
Ще складніше, як виявилося, це вирішити. Матеріал Wired на цю тему показує, що Google використав обхідний шлях: заблокував можливість ідентифікувати горил у системах розпізнавання зображень, але досі не вирішив ключову проблему.
І ми пам’ятаємо, що Google володіє базою даних, яка працює на основі завантажених користувачами власних фото. А також маємо на увазі, що це був лише один приклад, який помітили і якому надали публічності.
Проблеми такого характеру більш поширені, ніж ми думаємо. Команда Google People + AI Research за допомогою машинного навчання створила інструмент візуалізації даних Facets. Зараз він у відкритому доступі, може працювати з даними та створювати зрозуміліші візуалізації інформації, яку треба представити.
Дослідники Фернанда Вієґас (Fernanda Viégas) та Мартін Уатенберг (Martin Wattenberg) під час виставки MoMA R&D пояснюють геніальність системи і те, що вона може виявити.
Завдяки Facets помилки та упередження у масивах даних стають помітними. Перші кілька прикладів не надто серйозні. Наприклад, літаки переважно блакитні – що може дезорієнтувати систему, яка намагається ідентифікувати червоні чи сріблясті летючі об’єкти. Чорні діри, помилки і місця, де люди й комп’ютери не сходяться в категоризації, також просто помітити.
Проте, деякі упередження не так легко виправити, і це може бути досить проблематично. На тій же виставці згадані науковці та ще одна дослідниця, Кейт Кроуфорд (Kate Crawford), звернула увагу на упередження у фотографії та новинах – наприклад, чому в масиві даних найбільше позначуваних облич інтернету 78% становлять білі чоловіки – і пов’язала це помилкою категоризації у штучному інтелекті.
Простих відповідей немає
У висвітленні та розумінні штучного інтелекту немає простих відповідей. Наведені приклади лише поверхово показують серйозніші проблеми упереджених систем. Багато журналістів у сфері даних та технологій інвестують у розуміння принципів програмування. Я готова припустити, що всі журналісти починають вивчати, як на базовому рівні вивчають, як працюють обробка даних та програмування.
Не треба ставати програмістом чи вільно володіти мовами програмування на зразок Python, аби висвітлювати штучний інтелект. Просте спостереження за тим, як розробники підходять до вирішення проблем, суттєво допоможе в розумінні того, як побудовані ці системи.
Це покращить наше подання цих питань і розуміння того, як зрештою ці системи впливають на ньюзрум. Адже журналісти не розуміють основ того, як працює штучний інтелект; ми схильні не бачити ширшу картину чи робити наші історії надто сенсаційними.
Спіазасновниця Fast.ai Рейчел Томас (Rachel Thomas) нещодавно звернула увагу на те, як журналісти висвітлюють штучний інтелект: «Медіа часто подають переваги штучного інтелекту крізь призму “люди проти машин”: хто чемпіон у певному завданні. Цей підхід неточний щодо того як використовуються більшість алгоритмів; це і дуже обмежений спосіб міркувати про штучний інтелект. У всіх випадках алгоритми мають людський компонент: і в тому, хто збирає дані (і які стереотипи має ця людина), і в тому, що впливає на прийняття рішень, і в тому, як вони імплементуються, і як результати використовуються для прийняття рішень, і в розумінні різних зацікавлених сторін про правильне використання та обмеження алгоритму і т.д.».
У розумінні машинного навчання та штучного інтелекту багато чого стосується фреймінгу. Якщо ви ставите кращі запитання і задаєте кращі параметри, то отримуєте кращий результат. Журналісти навчені виявляти рамки, структури. Ми робимо це само собою. Але щоби по-справжньому інформувати громадськість про повний потенціал революції штучного інтелекту нам потрібно сформувати кращу базу знань.
Вперше стаття з’явилася у AI Ethics Initiative і опублікована EJO з дозволу авторки.
Право на головне зображення: © Henri Campeã, CC BY-NC-ND 4.0.
Точки зору, висловлені на цьому сайті, належать авторам і не обов’язково відображають погляди, політики та позиції EJO.
Зверніть увагу, що наближається кінцева дата подачі на програму AI Ethics Initiative, що пропонує $750,000 на ідеї стосовно впливу штучного інтелекту на сферу новин та інформації.
Підпишіться на нашу щомісячну e-mail-розсилку найцікавішого у сфері медіа
Tags: машинне навчання, штучний інтелект