Новый инструмент поиска bios в современной модели генеративного искусственного интеллекта

Средства преобразования текста в изображение (T2I) становятся все более мощными и распространенными инструментами, которые могут создать практически любое изображение на основе всего нескольких введенных слов. Генеративный искусственный интеллект T2I может создавать убедительно реалистичные фотографии и видео, которые все чаще используются для самых разных целей, от искусства до политических кампаний.

Однако алгоритмические модели, на которых основаны эти инструменты, обучены на данных, полученных от людей, и могут воспроизводить человеческие предубеждения в создаваемых ими изображениях, такие как предубеждения в отношении пола и тона кожи. Эти предубеждения могут нанести вред маргинализированным группам населения, укрепляя стереотипы и потенциально приводя к дискриминации.

Чтобы устранить эти неявные предубеждения, доцент кафедры компьютерных наук и инженерии Синь (Эрик) Ванг и команда исследователей из Baskin Engineering в Калифорнийском университете Санта-Круз создали инструмент под названием Тест ассоциации текста с изображением, который обеспечивает количественное измерение сложных человеческих предубеждений, встроенных в модели T2I, оценивая предубеждения по таким измерениям, как как пол, раса, карьера и религия. Они использовали этот инструмент для выявления и количественной оценки смещения в современной генеративной модели стабильного распространения.

Инструмент подробно описан в документе для конференции Ассоциации компьютерной лингвистики (ACL) 2023 года и доступен для использования в демо-версии.

“Я думаю, что эта проблема волнует как владельцев моделей, так и пользователей”, – сказал Джиалу Ванг, аспирант Калифорнийского университета в области компьютерных наук и инженерии и первый автор статьи. “Если пользователь принадлежит к непривилегированной группе, он может не захотеть видеть только привилегированную группу, отраженную в создаваемых им изображениях”.

Чтобы воспользоваться инструментом, пользователь должен попросить модель создать изображение для нейтральной подсказки, например “ребенок изучает науку”. Затем пользователь вводит подсказки, специфичные для пола, такие как “девочка изучает естественные науки” и “мальчик изучает естественные науки”. Затем инструмент вычисляет расстояние между изображениями, сгенерированными с помощью нейтрального запроса, и каждым из конкретных запросов. Эта разница между этими двумя расстояниями является количественным измерением смещения.

Используя свой инструмент, исследовательская группа обнаружила, что современная генеративная модель Stable Diffusion как воспроизводит, так и усиливает человеческие предубеждения в создаваемых ею изображениях. Инструмент проверяет связь между двумя понятиями, такими как наука и искусство, и двумя атрибутами, такими как мужчина и женщина. Затем он выдает оценку ассоциации между концепцией и атрибутом и значение, указывающее, насколько инструмент уверен в этой оценке.

Команда использовала свой инструмент, чтобы проверить, связывает ли модель шесть наборов противоположных концепций с положительными или отрицательными атрибутами. Они тестировали следующие концепции: цветы и насекомые, музыкальные инструменты и оружие, европейцы и афроамериканцы, светлокожие и темнокожие, гетеросексуалы и геи, иудаизм и христианство. По большей части модель вызывала ассоциации по стереотипным образцам. Однако модель ассоциировала темную кожу с приятной, а светлую – с неприятной, что удивило исследователей как один из немногих результатов, противоречащих распространенным стереотипам.

Кроме того, они обнаружили, что модель более тесно ассоциировала науку с мужчинами и искусство – с женщинами, а карьеру – с мужчинами и семью – с женщинами.

В прошлом методы оценки смещения в моделях T2I требовали, чтобы исследователи комментировали результаты, полученные от моделей, при вводе нейтрального запроса. Например, исследователь может ввести гендерно нейтральное приглашение, такое как “ребенок, изучающий науку”, и указать, создает ли модель изображения мальчиков или девочек. Но трудозатраты, затрачиваемые на этот процесс аннотирования, являются дорогостоящими и потенциально могут быть неточными, и часто сводятся только к гендерным предубеждениям.

“Мы хотим избавиться от этого процесса комментирования человеком и предложить автоматический инструмент для оценки этих предубеждений без утомительной работы”, – сказал Синь Ван.

Кроме того, в отличие от других, инструмент оценки предвзятости команды UCSC учитывает такие аспекты фона изображения, как цвета и теплота.

Исследователи основали свой инструмент на тесте имплицитных ассоциаций, хорошо известном тесте в социальной психологии, используемом для оценки человеческих предубеждений и стереотипов. Этот тест оценивает, насколько тесно люди ассоциируют такие понятия, как “врачи” или “семья”, с такими атрибутами, как “мужчины” или “женщины”.

Помимо оценки и анализа погрешностей в существующих инструментах, таких как Stable Diffusion и Midjourney, команда предполагает, что этот инструмент позволит инженерам-программистам получать более точные измерения погрешностей в своих моделях на этапе разработки и отслеживать их усилия по устранению этих погрешностей.

“С помощью количественных измерений люди могут работать над устранением этих предубеждений и использовать наш инструмент для количественной оценки своего прогресса в этом”, – сказал Синь Ван.

Команда заявила, что получила множество положительных отзывов от других исследователей, когда представляла эту работу на конференции ACL.

“Многие в сообществе проявили большой интерес к этой работе”, – сказал Синь Ван. “Некоторые исследователи немедленно поделились этой работой в своих группах и попросили меня рассказать подробности”.

В дальнейшем команда планирует предложить предлагаемые методы для смягчения этих искажений, как при обучении новых моделей с нуля, так и для устранения искажений в существующих моделях во время тонкой настройки.

Среди исследователей, участвующих в этом проекте, также студентка бакалавриата Синьюэ Габби Лю, аспирант Цзунлинь Ди и доцент кафедры компьютерных наук и инженерии Ян Лю.