Прокачайся в код-ревью: для первых 50 участников — курс бесплатный

время чтения: 5 мин

Какие этические проблемы скрываются за Machine Learning и Computer Vision?

Искусственный интеллект vs человечность: насколько «честны» и этичны алгоритмы машинного обучения и к каким последствиям они могут привести, рассказывает Lead Software Engineer Игорь Нестереня.

Lead Software Engineer Игорь Нестереня

Другие статьи по теме:

    Этичность и честность — в чем разница?

    — Понятие честности (fairness) алгоритмов ML — это когда результаты работы модели машинного обучения предвзяты по отношению к определенным группам людей. Как правило, такое случается из-за данных плохого качества, — поясняет Игорь.

    Этичность — это, скорее, философский вопрос, связанный с использованием технологий. Уже сейчас в нашей жизни появляются беспилотные автомобили, уже есть первые ДТП с их участием, и таких случаев будет больше. Как этика должна работать в этом случае? Как должен работать закон? Где точки пересечения?

    Животрепещущий вопрос — распознавание лиц. В городах по всему миру расставлено множество камер: можно отслеживать все перемещения граждан. Государство обещает так бороться с преступностью, но в то же время в будущем эти данные могут быть использованы и для других целей.

    Границы разумного

    — Где грань между «этично» и «неэтично»? Здесь многое зависит от страны. Так, в Китае нормой считаются такие вещи, как система социальной репутации, камеры наблюдения по всему городу и даже специальная система контроля людей определенных народностей, — приводит пример Игорь, — В плане технологий там есть много чего протестировать. Однако главный вопрос в том, используется ли эта система во благо людям либо как средство контроля.

    «Предвзятость» ML

    — Как работают алгоритмы машинного обучения? Некоторые люди думают, что их ущемляют алгоритмы машинного обучения, потому что кто-то намеренно добавил проверку, например, расы и выключил автофокус камеры для них. Но на деле модели ML дается много разных фотографий лиц, и алгоритм определяет именно то, что размечено в этих данных.

    Дальше модель учится самостоятельно определять важные признаки на фотографиях. Если в данных плохо представлены определенные расы людей, то алгоритм не научится их хорошо распознавать и будет совершать ошибки. Данные — это основа любой системы машинного обучения. Чтобы построить хорошую ML систему, нужны качественные данные.

    Так, в разгар пандемии коронавируса COVID-19 чуть ли не каждый день выходила новая статья о том, что ученые научились определять коронавирус по снимку легких либо даже по звучанию голоса. Проблема большинства алгоритмов заключалась в том, что модель машинного обучения училась определять не коронавирус, а источник данных.

    К примеру, в одном исследовании модель обучалась на данных снимков легких больных коронавирусом из одной больницы и снимках легких без коронавируса из другой. В итоге модель научилась всего лишь отличать снимок из одной больницы от снимка из другой.

    Практически бывает сложно полностью избавиться от предвзятости моделей, и в некоторых случаях компании избегают потенциальных рисков. Например, Google и Apple убрали класс «горилла» в поиске по фотографиям из своих приложений. Связано это со старым скандалом о неправильной классификации некоторых групп людей.

    Многие компании разрабатывают специальные наборы правил, как создать честную модель. Некоторые из них можно найти здесь: ai.google и microsoft.com. Так устоялся термин Responsible AI. Также появляются правила на государственном уровне, например, у Евросоюза есть попытки описать, как делать AI системы, чтобы они были «честными».

    Развитие AI очень сильно ускорилось с появлением генеративных моделей, например, таких как GPT-3.5 и GPT-4. В результате чего в Европе уже рассматривают принятие закона по регуляции и лицензированию таких моделей. Несмотря на благие намерения, такие регуляции со стороны государства могут сильно навредить развитию индустрии.

    Предвзятость людей

    — Большинство проблем с данными связаны с когнитивными искажениями самих людей. Пример: мы посмотрели на одного человека определенной национальности и сформировали свое мнение о нем как о, например, неаккуратном человеке, а потом экстраполировали это суждение на всех людей его национальности. Но это неправильно, это когнитивная ошибка. И большинство проблем «честности» алгоритмов ML связано именно с когнитивными искажениями людей.

    Причем ошибки могут возникать на разных этапах. Когда мы берем данные для ML, они уже могут включать в себя когнитивные ошибки. Далее мы фильтруем данные и загружаем их в модель — здесь они тоже могут проявляться. В-третьих, использование: к примеру, мы можем неверно интерпретировать предсказанный моделью результат, как в случае с примером коронавируса.

    Как с этим бороться? Знать, что такое когнитивные ошибки, и стараться «отлавливать» их, чтобы принимать важные решения по выпуску моделей ML в производство на основе знаний и фактов, а не на основе собственных когнитивных искажений.

    Об интернет-поисковиках, которые выдают предвзятые результаты

    — Здесь причина, скореe всего, во внешнем факторе — правительствах, которые могут потребовать убирать неугодные новости. Эта искаженная версия новостной ленты может быть по сути вшита в модель машинного обучения, которая используется в поисковике. Это возможно сделать с помощью подбора данных и специальной фильтрации на основе «черного» списка средств массовой информации.

    Здесь не только проблема этики, но в целом свободы человека. Излишняя зарегулированность, блокировки определенных мнений и смещение новостной повестки в определенную сторону в конкретной стране… Мне кажется, это прямая дорога в ад, потому что, если мы оправдываем блокировку борьбой с «плохими», то в какой-то момент «плохими» могут оказаться далеко не те, кто был таковыми изначально.

    Беспилотные автомобили. Кто несет ответственность в случае ДТП?

    — Это больше проблема юристов, а не алгоритмов. Сейчас есть люди, которые скептически относятся к технологиям сферы self-driving, в том числе и в среде IT. Здесь такая же история, как и с обычными автомобилями.

    Когда появились первые автомобили, тоже шли обсуждения по поводу ответственности. В США и Великобритании одно время даже были законы красных флагов, где человек с красным флагом шел перед едущей машиной и сигнализировал прохожим об опасном транспортном средстве. По понятным причинам, это не могло работать долго, и в какой-то момент стали появляться привычные нам правила дорожного движения.

    В случае аварии с беспилотным автомобилем логичным было бы предположить, что, если виноват алгоритм, ответственность должна нести компания-создатель. Либо, если проблема техническая, могут быть виноваты люди, которые проводили техосмотр. В любом случае, разбираться должны юристы.

    Здесь очень многое зависит от конкретной страны. Например, в США работает прецедентное право. Если судья принимает решение по конкретному случаю ДТП с участием Tesla, то это решение будет использоваться другими судьями как прецедент для вынесения решения по похожим кейсам. В Европе же закон работает на основе норм и законодательной базы, и новые беспилотники никто не выпустит на дорогу без появления этих норм.

    Как реагирует общество на системы распознавания лиц?

    — Экс-VP Яндекса Григорий Бакунов создал специальный макияж для защиты от распознавания лиц, — вспоминает Игорь, — Суть в том, что CV может делать глупейшие ошибки, которые человек никогда не сделал бы. К примеру, если на стол рядом с яблоком наклеить небольшую наклейку, то алгоритм компьютерного зрения может со стопроцентной уверенностью определять яблоко как банан. У команды Бакунова получилось таким же образом заставить алгоритм определять лицо на видео как лицо другого человека, причем конкретного человека.

    Масштаб такого явления можно проиллюстрировать фактом того, что в Азии есть целые магазины, специализирующиеся на продаже одежды, которая запутывает алгоритмы компьютерного зрения.

    Стоит отметить, что даже если сейчас можно скрыться, используя недостатки алгоритмов, не стоит забывать, что данные могут храниться долго, а качество алгоритмов может быть улучшено в будущем.

    Дипфейки: кто виноват и что делать?

    — Технологии могут создавать фейки, которые сложно отличить от реальности. У Facebook есть целое направление, которое отвечает за создание алгоритмов модерации контента. Происходит постоянная борьба: появляется новая модель, которая лучше отслеживает фейки, а через какое-то время — новый алгоритм искажения голоса, — делится Игорь.

    Это превращается в противоречие разных систем ML. А если добавить, что искаженное видео может быть плохого качества, а человек смотрит его на телефоне, визуально понять, где правда и где ложь, становится очень сложно. Это уже новый вид подмены понятий.

    Дипфейки — это новый вызов для человечества, и уже есть компании, которые пытаются решать эту проблему. Во многом проблемы заключаются в том, как люди потребляют контент. Технические решения могут дать человеку дополнительную информацию, предупредить об опасности. Но они не идеальны, это похоже на гонку вирусов и антивирусов. Поэтому надо учитывать и другие факторы, такие как образование людей. Мир становится сложнее, каждый день появляются технологии, которые могут улучшить жизнь миллиардов людей, в то же время эти же технологии могут превратить мир в ад.