Прокачайся в код-рев’ю: для перших 50 учасників — курс безкоштовний

час читання: 5 хв

Які етичні проблеми ховаються за Machine Learning і Computer Vision?

Штучний інтелект vs людяність: наскільки «чесними» та етичними є алгоритми машинного навчання й до яких наслідків вони можуть призвести, розповідає Lead Software Engineer Ігор Нестереня.

Lead Software Engineer Ігор Нестереня

Інші статті за темою:

Етичність і чесність — у чому різниця?

— Поняття чесності (fairness) алгоритмів ML — це коли результати роботи моделі машинного навчання упереджені щодо певних груп людей. Як правило, таке трапляється через дані поганої якості, — пояснює Ігор.

Етичність — це, імовірніше, філософське питання, пов’язане з використанням технологій. Уже зараз у нашому житті з’являються безпілотні автомобілі, уже є перші ДТП за їхньої участі, і таких випадків буде більше. Як етика має працювати в цьому разі? Як має працювати закон? Де точки перетину?

Животрепетне питання — розпізнавання облич. У містах по всьому світу розставлено безліч камер: можна відстежувати всі переміщення громадян. Держава обіцяє так боротися зі злочинністю, але водночас у майбутньому ці дані можуть бути використані й для інших цілей.

Межі розумного

— Де межа між «етично» й «неетично»? Тут багато залежить від країни. Так, у Китаї нормою вважають речі, як-от система соціальної репутації, камери спостереження по всьому місту й навіть спеціальна система контролю людей певних народностей, — наводить приклад Ігор. — Щодо технологій, то там є багато чого протестувати. Однак головне питання в тому, чи використовують цю систему на благо людям або як засіб контролю.

«Упередженість» ML

— Як працюють алгоритми машинного навчання? Деякі люди думають, що їх утискають алгоритми машинного навчання, тому що хтось навмисно додав перевірку, наприклад раси, і вимкнув автофокус камери для них. Але насправді моделі ML дають багато різних фотографій облич, і алгоритм визначає саме те, що розмічено в цих даних.

Далі модель учиться самостійно визначати важливі ознаки на фотографіях. Якщо в даних погано представлені певні раси людей, то алгоритм не навчиться їх добре розпізнавати й буде робити помилки. Дані — це основа будь-якої системи машинного навчання. Щоб побудувати хорошу ML-систему, потрібні якісні дані.

Так, у розпал пандемії коронавірусу COVID-19 мало не щодня виходила нова стаття про те, що вчені навчилися визначати коронавірус за знімком легенів або навіть за звучанням голосу. Проблема більшості алгоритмів полягала в тому, що модель машинного навчання вчилася визначати не коронавірус, а джерело даних.

Наприклад, в одному дослідженні модель навчалася на даних знімків легень хворих на коронавірус з однієї лікарні й знімках легень без коронавірусу з іншої. У підсумку модель навчилася лише відрізняти знімок з однієї лікарні від знімка з іншої.

Практично буває складно повністю позбутися упередженості моделей, і в деяких випадках компанії уникають потенційних ризиків. Наприклад, Google та Apple прибрали клас «горила» у пошуку за фотографіями зі своїх застосунків. Пов’язано це зі старим скандалом про неправильну класифікацію деяких груп людей.

Багато компаній розробляють спеціальні набори правил, як створити чесну модель. Деякі з них можна знайти тут: ai.google і microsoft.com. Так устоявся термін Responsible AI. Також з’являються правила на державному рівні, наприклад, у Євросоюзу є спроби описати, як робити AI-системи, щоб вони були «чесними».

Розвиток AI дуже сильно прискорився з появою генеративних моделей, як-от GPT-3.5 і GPT-4. Унаслідок цього в Європі вже розглядають ухвалення закону щодо регуляції та ліцензування таких моделей. Попри благі наміри, такі регуляції з боку держави можуть сильно нашкодити розвитку індустрії.

Упередженість людей

— Більшість проблем із даними пов’язані з когнітивними викривленнями самих людей. Приклад: ми подивилися на одну людину певної національності й сформували свою думку про неї як про, наприклад, неохайну людину, а потім екстраполювали це судження на всіх людей її національності. Але це неправильно, це когнітивна помилка. І більшість проблем «чесності» алгоритмів ML пов’язані саме з когнітивними викривленнями людей.

Причому помилки можуть виникати на різних етапах. Коли ми беремо дані для ML, вони вже можуть містити в собі когнітивні помилки. Далі ми фільтруємо дані та завантажуємо їх у модель — тут вони теж можуть проявлятися. По-третє, використання: наприклад, ми можемо неправильно інтерпретувати передбачений моделлю результат, як у випадку з прикладом коронавірусу.

Як із цим боротися? Знати, що таке когнітивні помилки, і намагатися «відловлювати» їх, щоб ухвалювати важливі рішення щодо випуску моделей ML у виробництво на основі знань і фактів, а не на основі власних когнітивних викривлень.

Про інтернет-пошуковики, які видають упереджені результати

— Тут причина, найімовірніше, у зовнішньому чиннику — урядах, які можуть вимагати прибирати небажані новини. Ця спотворена версія стрічки новин може бути, по суті, вшита в модель машинного навчання, яка використовується в пошуковику. Це можливо зробити за допомогою підбору даних і спеціальної фільтрації на основі «чорного» списку засобів масової інформації.

Тут не тільки проблема етики, а загалом свободи людини. Зайва зарегульованість, блокування певних думок і зміщення новинного порядку денного в певний бік у конкретній країні... Мені здається, це пряма дорога до пекла, тому що, якщо ми виправдовуємо блокування боротьбою з «поганими», то в якийсь момент «поганими» можуть виявитися далеко не ті, хто був таким від самого початку.

Безпілотні автомобілі. Хто несе відповідальність у разі ДТП?

— Це більше проблема юристів, а не алгоритмів. Зараз є люди, які скептично ставляться до технологій сфери self-driving, зокрема й у середовищі IT. Тут така сама історія, як і зі звичайними автомобілями.

Коли з’явилися перші автомобілі, теж точилися обговорення з приводу відповідальності. У США та Великій Британії свого часу навіть були закони червоних прапорів, де людина з червоним прапором йшла перед машиною, що їхала, і сигналізувала перехожим про небезпечний транспортний засіб. Зі зрозумілих причин це не могло працювати довго, і в якийсь момент стали з’являтися звичні для нас правила дорожнього руху.

У разі аварії з безпілотним автомобілем логічно було б припустити, що, якщо винен алгоритм, відповідальність має нести компанія-творець. Або, якщо проблема технічна, можуть бути винні люди, які здійснювали техогляд. У будь-якому разі, розбиратися мають юристи.

Тут дуже багато залежить від конкретної країни. Наприклад, у США працює прецедентне право. Якщо суддя ухвалює рішення щодо конкретного випадку ДТП за участі Tesla, то це рішення використовуватимуть інші судді як прецедент для винесення рішення за схожими кейсами. У Європі ж закон працює на основі норм і законодавчої бази, і нові безпілотники ніхто не випустить на дорогу без появи цих норм.

Як реагує суспільство на системи розпізнавання облич?

— Екс-VP Яндекса Григорій Бакунов створив спеціальний макіяж для захисту від розпізнавання облич, — згадує Ігор. — Суть у тому, що CV може робити найдурніші помилки, яких людина ніколи не зробила б. Наприклад, якщо на стіл поруч із яблуком наклеїти невелику наліпку, то алгоритм комп’ютерного зору може зі стовідсотковою впевненістю визначати яблуко як банан. У команди Бакунова вийшло так само змусити алгоритм визначати обличчя на відео як обличчя іншої людини, причому конкретної людини.

Масштаб такого явища можна проілюструвати фактом того, що в Азії є цілі магазини, які спеціалізуються на продажу одягу, що заплутує алгоритми комп’ютерного зору.

Варто зазначити, що навіть якщо зараз можна сховатися, використовуючи недоліки алгоритмів, не варто забувати, що дані можуть зберігатися довго, а якість алгоритмів може бути покращена в майбутньому.

Діпфейки: хто винен і що робити?

— Технології можуть створювати фейки, які складно відрізнити від реальності. У Facebook є цілий напрям, який відповідає за створення алгоритмів модерації контенту. Відбувається постійна боротьба: з’являється нова модель, яка краще відстежує фейки, а через якийсь час — новий алгоритм спотворення голосу, — ділиться Ігор.

Це перетворюється на протиріччя різних систем ML. А якщо додати, що спотворене відео може бути поганої якості, а людина дивиться його на телефоні, візуально зрозуміти, де правда, а де брехня, стає дуже складно. Це вже новий вид підміни понять.

Діпфейки — це новий виклик для людства, і вже є компанії, які намагаються вирішувати цю проблему. Часто проблеми полягають у тому, як люди споживають контент. Технічні рішення можуть дати людині додаткову інформацію, попередити про небезпеку. Але вони не ідеальні, це схоже на перегони вірусів й антивірусів. Тому треба враховувати й інші чинники, як-от освіта людей. Світ стає складнішим, щодня з’являються технології, які можуть поліпшити життя мільярдів людей, водночас ці ж технології можуть перетворити світ на пекло.