В последний год тема нейросетей всколыхнула общественность как на Западе, так и в России. Активное развитие популярнейших сервисов вроде ChatGPT и Midjourney заставило неравнодушных людей вновь задуматься о том, куда современные технологии искусственного интеллекта нас заведут?
Будьте в курсе последних новостей партнерского маркетинга, статей, руководств и тематических исследований. Подпишитесь на наш Telegram канал сегодня!
Попытки заглянуть в будущее, однако, без оглядки в прошлое успехом вряд ли могут увенчаться. Поэтому рассказываем, с чего все начиналось в сфере нейросетей и к чему пришло на сегодняшний день.
Сам термин «нейронная сеть» впервые появился в публичном поле в середине прошлого века. В 1943 году нейробиолог Уоррен Мак-Каллок и логик Уолтер Питтс разработали компьютерную модель нейронной сети на основе математических алгоритмов и теории деятельности головного мозга. По их мнению, такая модель могла бы работать на базе так называемой «пороговой логики» на устройствах, использующих двоичные числа.
Идея искусственной нейронной сети была наглядно реализована в разработке нейрофизиолога Фрэнка Розенблатта, который представил общественности в 1960 году нейрокомпьютер «Марк-1». Он работал на основе модели так называемого «перцептрона», при этом по виду представлял собой относительно небольшой вычислительный процессор с табло из нескольких сотен фотоэлементов.
Фрэнк Розенблатт в компании с перцептроном:
Дальнейший интерес к теме нейросетей угас после того, как в 1969 году была опубликована работа по машинному обучению Минского и Пейперта с перечислением проблем, возникающих при компьютерной реализации искусственных нейросетей. Одна из основных проблем заключалась в отсутствии достаточных вычислительных мощностей для эффективной обработки данных, необходимой для работы больших нейронных сетей.
Тем не менее кое-какие научные исследования продолжались, и в середине 80-х годов был изобретен алгоритм параллельной распределенной обработки данных. Он позволял моделировать на компьютерах нейронные процессы.
В 1986 году группа американских ученых существенно развила так называемый способ машинного обучения по методу обратного распространения ошибки, который еще в середине 70-х годов был впервые описан советским ученым А. И. Галушкиным. Благодаря ему удалось существенно повысить скорость и качество обучения нейросетей, однако вычислительных мощностей для этого все равно еще не хватало.
На долгое время все практические исследования ушли в подполье, и только в 2012 году произошло событие, которое подтолкнуло мир к быстрому развитию нейросетей современного типа. Именно тогда разработанная учеными Торонтского университета нейросеть сеть SuperVision победила с большим отрывом в конкурсе распознавания объектов на изображениях ImageNet LSVRP. Число ее ошибок составило 16,4%, тогда как люди при прохождении аналогичных тестов ошибаются в 5% случаев. Любопытно, что для обучения SuperVision был использован простой компьютер с двумя видеокартами NVIDIA, а сама тренировка по времени заняла не более недели.
Победа SuperVision в конкурсе стала знаковой, поскольку демонстрировала особые возможности машинного «зрения» в сложном и весьма специфическом тесте. Достаточно сказать, что он содержал в себе, помимо довольно простых и очевидных картинок, изображения трехсот пород собак. Казалось бы, что в этом такого? Суть заключается в том, что без специальной подготовки разобраться в собачьих породах среднестатистический человек не может, тогда как машина распознает их быстро и с легкостью.
Дальнейшее развитие компьютерных нейросетей связано с методиками так называемого deep learning (глубинного обучения), суть в которого в объединении в единую сеть большого количества нейронных слоев. Для эффективного глубинного обучения нейросетей должно соблюдаться несколько важных условий. Во-первых, машине требуется большое количество примеров для распознавания — десятки и сотни тысяч образцов. Во-вторых, сама сеть должна быть действительно большой, то есть состоять из сотен тысяч и миллионов машинных нейронов, которые объединяются во множество слоев.
Наглядное представление процесса обучения компьютерной нейросети:
В 2014 году корпорация Google решила при обучении своей нейросети использовать глубинное обучение, представив в результате свою сеть GoogLeNet из 22 слоев, которая может самообучаться на нескольких GPU также в течение недели. Результаты работы GoogLeNet превзошли все ожидания: на конкурсе ImageNet сеть продемонстрировала количество ошибок при определении изображений в 6,7%, практически сравнявшись в этом показателе с человеком.
Сегодня технологии искусственного интеллекта применяются в самых разных сферах. При этом использовать их в повседневной жизни могут люди, далекие от математики и программирования.
В интернете в последние лет десять появилось огромное множество программ и приложений, которые приспособили нейросетевые алгоритмы прежде всего под развлекательные цели. Это различные сервисы по обработке изображений, замене лиц на фотографиях и в видео, искусственному старению человеческих лиц. С помощью такого рода приложений можно кардинально изменить внешность: добавить профессиональный мейкап, скорректировать черты лица, уменьшить/увеличить длину волос, даже добавить мимику и эмоции. Полученные в результате фотографии выглядят настолько реалистично, что заподозрить нейросетевой фотошоп просто невозможно.
Слегка состаренная с помощью приложения FaceApp Дейнерис Таргариен, Мать Драконов:
Современные интеллектуальные нейросети позволяют не только играться с соответствующими сервисами, но и использовать их в прикладном качестве. Они помогают правоохранителям в поиске людей по фотографиям, а китайская нейросеть Megvii позволяет даже искать собак по изображению носа.
Работают нейросети и со звуком: к примеру, разработка программистов Массачусетского технологического института Speech2Face позволяет по голосу определять национальность, пол и возраст человека. Другие нейросетевые сервисы помогают полиции обнаруживать преступников, пресекать каналы наркотрафика, бороться с терроризмом, а также быстро находить в интернете любой противозаконный контент.
Нейросети используют органы правопорядка и чиновники для облегчения некоторых контролирующих функций. В России, к примеру, с осени 2022 года ГИБДД с помощью новейших технологий фиксирует через фото- и видеокамеры нарушения ПДД. Нейросети уже научились «видеть», пристегнуты ли ремни безопасности на передних сидениях, разговаривают ли водители во время движения автомобиля и так далее. На основе этой информации нарушителям выписывают штрафы.
Еще один российский эксперимент по использованию возможностей нейросетей проводился Департаментом информационных технологий Москвы. Там популяризировали сервис для передачи показаний приборов учета воды. Воспользоваться им сегодня можно даже через соответствующий чат-бот в Telegram.
Используются технологии нейросетей и в науке, в частности, в медицине в процессе улучшения диагностики различных заболеваний. Так, согласно заявлениям ученых Ноттингемского университета, специально обученная нейросеть способна спрогнозировать вероятность развития сердечно-сосудистых заболеваний и инсульта с более высокой точностью, чем медицинский специалист.
Вместе с тем в открытом доступе уже есть и различные медико-диагностические приложения на основе нейросетевых технологий. Например, приложение SkinVision позволяет по фотографиям родинок определять доброкачественность или злокачественность невуса, при этом точность прогноза составляет 83%.
Однако наибольший хайп в последние годы вызывают нейросети, которые позволяют с помощью искусственного интеллекта всячески экспериментировать с изображениями и текстом. О таких сервисах стоит поговорить отдельно.
Ознакомиться с топовыми сервисами на основе нейросетей, изучить рейтинги, детальные обзоры и выбрать подходящий под свои задачи сервис можно здесь:
В 2022 году общественное внимание было приковано к Midjourney — разработанной одноименной американской компанией нейросети, которая генерирует фантастические по сюрреализму изображения и картины на основе введенных текстовых запросов.
Идея разработки художественной нейросети пришла в голову молодому ученому и предпринимателю Дэвиду Хольцу. Хольц еще в студенчестве работал в Институте Макса Планка, где в рамках изучаемых законов нейробиологии продумывал алгоритмы нейровизуализации: так, в рамках эксперимента он составлял карту мозга крысы на клеточном уровне.
После окончания учебы Дэвид Хольц с головой ушел в бизнес, основав компанию Leap Motion (позже переименованную в Ultraleap), занимающуюся разработкой датчиков движения и прочих систем распознавания человеческих жестов.
Дэвид Хольц времен работы в Leap Motion: следите за руками, скоро они примутся за рисование:
В начале 2022 года Хольц покинул компанию Ultraleap и основал Midjourney, создав команду, в основе которой до сих пор работает не более 10 человек. Помогает им, впрочем, значительное число консультантов из сферы дизайна, искусственного интеллекта и технологической инфраструктуры коммуникаций между ИИ и человеком.
Уже к июлю 2022 года Midjourney вышла на этап бета-тестирования и стала доступной для всех пользователей мира. Для того, чтобы попробовать нейросеть в деле, человеку нужно зарегистрироваться в Discord, кроссплатформенном мессенджере, чрезвычайно популярном в среде дизайнеров, геймеров и разработчиков игр. После необходимо зайти на официальный сайт Midjourney через дискорд-авторизацию и либо сразу оформить платную подписку для работы с нейросетью, либо протестировать ее бесплатно, сгенерировав не более 25 изображений.
Все взаимодействие с нейросетью внутри Discord Midjourney ведется через каналы Newcomer Rooms, внутри которых обнаруживается сотни чатов Newbies. Пользователю достаточно выбрать любой из этих чатов и задать несколько текстовых запросов, согласно которым алгоритм «нарисует» картинку. Чаты Newbies коллективные, то есть все активные пользователи видят результаты работы друг друга: по словам Хольца, он специально выбрал групповой принцип работы, так люди охотнее фантазируют. Впрочем, платная подписка дает возможность генерировать запросы нейросети лично, в формате приватных сообщений, что обеспечивает анонимность работы.
После введения в специальную форму взаимодействия с нейросетью текстового запроса система спустя буквально минуту выдает четыре изображения. Далее пользователь может выбрать какое-нибудь одно изображение и масштабировать его, улучшить, доведя до устраивающего по всем индивидуальным параметрам идеала.
Один из чатов внутри дискорда Midjourney:
Принцип работы Midjourney построен на классической схеме «понимания» человеческого языка и умения преобразовывать слова в визуальные образы. Для этого нейронную сеть обучают постройке взаимосвязей между текстовыми описаниями и визуальными образами на сотнях миллионов примеров.
Никаких особых конкурентных преимуществ по сравнению с нейросетевыми аналогами у Midjourney нет. Разница лишь, пожалуй, в индивидуальных технологических преимуществах для пользователей: выдаваемые по запросам картинки имеют более высокое разрешение и большую детализацию в контексте отправляемого запроса.
Однако именно Midjourney в 2022 году неплохо завирусилась в интернете. О ней писали статьи, делали обзоры, да и простые пользователи постоянно выкладывали в соцсети сотни и тысячи сгенерированных изображений. Причина хайпа, надо полагать, в относительной доступности нейросети по сравнению с другими похожими сервисами: попробовать на зубок Midjourney сейчас может действительно любой человек.
Объективно говоря, возможности Midjourney позволяют использовать нейросеть не только в качестве развлечения, но и в коммерческих целях. Бизнес может быстро штамповать множество оригинальных, но сделанных в едином стилистическом формате картинок для представления товаров на сайтах-маркетплейсах. Большой интерес Midjourney представляет для дизайнеров, аниматоров, геймеров, поскольку сервис можно использовать для практических задач в промышленном, интерьерном дизайне, для прототипирования веб-страниц, элементов интерфейсов, эмодзи и стикеров. Для гейм-индустрии Midjourney может быть полезна с точки зрения создания необычных персонажей или даже целых игровых миров. Если же брать в целом, то нейросеть вполне годится для генерации самого разного прикладного контента, который можно использовать в архитектуре, рекламном бизнесе при разработке фирменного стиля и логотипов, в ивент-индустрии, fashion-арте и так далее.
Одна из наиболее популярных картин, созданных нейросетью, из официального Reddit-сообщества Midjourney. Сгенерировано по запросу «красота»:
Огромный интерес к работам, создаваемым с помощью нейросети Midjourney, среди которых встречаются настоящие шедевры, заставляет задуматься: «А способны ли, вообще, подобного рода сервисы полностью заменить человека в творчестве?»
На этот философский вопрос у всех разные мнения, но большинство экспертов, футуристов и людей из сферы искусства склоняются к тому, что алгоритмические нейротехнологии живое искусство все же не заменят. И вот как такую позицию аргументирует сам основатель Midjourney Дэвид Хольц:
«Да, компьютеры лучше справляются с визуальным изображением, чем 99% людей на планете. Но это не значит, что мы перестанем воображать. Машины передвигаются быстрее людей, но ведь мы из-за этого не перестали ходить.Так что мы рассматриваем Midjourney исключительно как двигатель воображения. И лично я считаю нашу нейросеть очень гуманистическим изобретением».
История всех нашумевших текстовых нейросетей неразрывно связана с историей OpenAI — одной из крупнейших компаний Кремниевой Долины, соучредителями которой в 2015 году стали Илон Маск и американский инвест-предприниматель, программист Сэмюэль Альтман. Вместе с другими видными представителями Долины, включая соучредителя LinkedIn Рида Хоффмана и одного из основателей PayPal Питера Тиля, они задумали создать крупную некоммерческую организацию, в которую планировалось вложить со временем не менее $1 миллиарда.
Небольшая команда программистов и специалистов по ИИ, составившая технологическое ядро OpenAI, поставила целью создать первый в мире дружелюбный по отношению к человеку AGI* нейросетевой алгоритм, обладающий способностью к обучению и рассуждению.
*Artificial general intelligence — искусственный интеллект.
В 2016 году OpenAI выпустила два своих первых продукта — платформу Gym, позволяющую исследователям разрабатывать и сравнивать системы обучения с подкреплением, а также набор инструментов Universe для обучения интеллектуальных агентов на сайтах и игровых платформах.
В 2019 году OpenAI получила от Microsoft инвестиции в размере $1 миллиарда, и в этом же году выпустила на рынок алгоритмическую модель GPT-2. Она позволяла генерировать вполне осмысленные эссе и тексты после ввода в программу всего одного вступительного предложения.
Илону Маску показывают один из суперкомпьютеров в офисе OpenAI. Сам Маск был вынужден покинуть компанию из-за внутренних разногласий в вопросах разработки алгоритма. Он до сих пор критикует работу нейросетей от OpenAI:
Впрочем, вслед за GPT-2 разработчики компании OpenAI в 2020 году представили на суд публики следующую версию алгоритма под названием GPT-3. Новая версия работает на основе той же самой архитектуры, что и GPT-2 — Transformer, однако количество используемых в модели параметров увеличено до 175 миллиардов. Функционально алгоритм Transformer строится на «предсказании» следующего слова или его части, которое подбирается с ориентацией на предшествующий контент. Просчитывая связи между словами, нейросеть подбирает наиболее вероятную последовательность. По сути, GPT-3 работает по принципу автодополнения, практически так же, как и функция T9 в смартфонах.
Само обучение ИИ проходило на базе 570 гигабайтов текста, собранных в датасет, включающий в себя данные проекта Common Crawl, всю Википедию, большую книжную энциклопедию, материалы с новостных сайтов-агрегаторов и из GitHub, а также сведения из путеводителей, рецептурных проектов и так далее. В процессе обучения программисты разработали восемь разных моделей GPT-3, которые отличались количеством параметров, при этом сами параметры использовали различное число нейронных слоев. Самая простая модель GPT-3 использовала в своей основе 125 миллионов параметров.
В результате представленная публике версия GPT-3 способна отвечать на вопросы по прочитанному тексту, создавать стихи, разгадывать анаграммы, производить простейшие арифметические действия и даже переводить (примерно 7% датасета включают в себя иностранные языки).
Поскольку для обучения настолько серьезного алгоритма требуется использование достаточно мощного ПК, то все обучение GPT-3 проводилось на базе суперкомпьютера Microsoft Azure AI. На обычном домашнем компьютере процесс обучения мог бы занять не меньше 500 лет.
Через некоторое время после релиза нового алгоритма от OpenAI в открытом доступе появилась и русскоязычная версия модели — ruGPT-3 Large, которую создали разработчики из «Сбера», обучая нейросеть на датасете из 600 Гб текстов. В русскоязычный датасет, помимо большого корпуса русской литературы, была включена «Википедия», самые разные новостные ресурсы, материалы с Pikabu, научно-популярного ресурса 22century и портала banki.ru.
Протестировать русскоязычную версию можно на специальной странице SberCloud:
Для обучения ruGPT-3 Large российские разработчики использовали суперкомпьютер «Кристофари» и облачную Data Science-платформу ML Space от SberCloud, разработанную в недрах экосистемы Сбера.
Изначально разработчики OpenAI анонсировали закрытое API на базе GPT-3, предоставив доступ к своей нейросети проверенным компаниям вроде Reddit, AI Dungeon, Algolia, Quizlet и некоторым другим. Позже доступ по API за определенную плату был открыт для всех желающих: спрос был настолько огромным, что команда OpenAI за несколько месяцев получила десятки тысяч заявок на подключение.
Одной из компаний, успешно использовавших возможности GPT-3 для реализации собственного текстового сервиса, стала, образованная в 2021 году, Jasper. Она выпустила на рынок продукт под брендом Jasper AI.
Jasper AI — это полноценная платформа, помогающая в создании текстового контента для сайтов, блогов, соцсетей, а также сценариев, подписей к изображениям и много другого.
Сейчас Jasper AI поддерживает 25 языков, в том числе и русский. Особенность сервиса в том, что с помощью его инструментов создаваемые тексты можно запросто оптимизировать под поисковые seo-запросы.
Инструменты Jasper AI уже сейчас достаточно разнообразны. Прежде всего можно выбрать один из 50 представленных шаблонов, каждый из которых нацелен на конкретное использование в рамках прикладного контент-маркетинга. К примеру, предлагается шаблон создания продающего текста, построенного на основе рекламных моделей AIDA и PAS.
Варианты предлагаемых шаблонов в сервисе Jasper AI:
Процесс работы в Jasper AI сложностей не представляет. В специальную форму вносится имя продукта и его краткое описание, после чего пользователь выбирает формат текста, который он бы хотел получить на выходе. Сам процесс генерации занимает пару секунд. На выходе получается законченный по логике, структурированный текст.
К еще одному специфическому инструменту Jasper AI относится команда Recipes (в переводе на русский — «рецепты»). Принцип ее действия схож с тем, что лежит в основе шаблонов, однако этот функционал в большей степени облегчает и ускоряет процесс создания текста.
Среди доступных на английском языке команд обнаруживаются:
>write a brief for {TOPIC}
>write blog title ideas
>write an introduction
>write a blog outline
>write about {OUTLINE_ITEM_1}
>write about {OUTLINE_ITEM_2}
>write about {OUTLINE_ITEM_3}
Текст в фигурных скобках — назначаемые пользователем значения переменных. По сути, примеры приведенных команд относятся к структурным (блоковым) частям любого текста блога, в который необходимо вводить ключевые слова. Именно из этих ключевиков нейросеть и генерирует связный текст.
Минимальный тариф в Jasper AI составляет $29 ежемесячно, при этом есть ограничение на 20 000 слов. Сервис предоставляет пять дней бесплатного демонстрационного пользования всеми своими инструментами. Сейчас оплатить работу деньгами с российских карт в условиях санкций невозможно, хотя неравнодушные активисты уже нашли способы оплаты через зарубежные сервисы.
В декабре 2022 года OpenAI представил новую свою разработку — языковую нейросеть под названием ChatGPT. И практически сразу же новый алгоритм начал ставить рекорды по хайпу: меньше, чем за неделю в системе сервиса зарегистрировалось 1 миллион пользователей. Ни одна популярная соцсеть не набирала за столь короткий срок такое количество подписчиков.
ChatGPT создавался при помощи суперкомпьютера Azure AI на базе языковой нейроверсии GPT-3,5, при этом обучение алгоритма велось не только на основе огромного массива текстов из интернета, но и с помощью обучающей системы Reinforcement Learning from Human Feedback, подкрепленной обратной связью с человеком. После чего нейросеть переобучали еще несколько раз, используя ее же ответы для корректировки точности алгоритмической работы.
«Визитка» ChatGPT в блоге OpenAI:
Согласно выводам аналитиков и экспертов функционал ChatGPT существенно шире инструментов GPT-3. Он может выполнять задания из разных прикладных областей, не просто генерировать тексты, но и выдавать базовый программный код, составлять финансовые отчеты, делать резюме из технических статей или научных концепций, давать прогнозы, рекомендации и этичные ответы практически на любой вопрос из любой области человеческих знаний. При этом работа нейроалгоритма построена таким образом, что ChatGPT запоминает детали диалоги с пользователями и избегает возможных конфликтов, споров. Кроме того, ответы чат-бота всегда можно скорректировать за счет наводящих или поясняющих вопросов.
На практике удалось выяснить, что ChatGPT может:
ChatGPT без проблем формирует запросы для графических и других нейросетевых алгоритмов.
Разработчики нейросети честно предупреждают, что алгоритм несколько ограничен в знаниях о событиях, которые произошли после 2021 года и поэтому старается избегать конкретики в вопросах о людях и событиях.
Куплет из пародийной песни, придуманной алгоритмом на мотив «Богемской рапсодии» The Queen:
ChatGPT настроен таким образом, что не задает уточняющие вопросы, а пытается угадать, что имеет в виду пользователь. Поэтому при повторении одинаковых вопросов может сказать, что не знает ответа, при этом, если чуть переформулировать вопрос, отвечает верно. Любопытно, что нейросеть нередко пишет правдоподобно звучащие, логичные в построении фразы, которые тем не менее неправильны или бессмысленны по сути.
Особенность работы ChatGPT в том, что алгоритм запрограммирован на гуманизм и терпимость, поэтому не приемлет просьбы о совершении преступления или о составлении плохой истории. Кроме того, в интерфейсе сервиса имеется встроенный механизм модерации, блокирующий определенные типы вредного и неэтичного контента, хотя, как показывает практика, при должном умении такую модерацию можно обходить.
Midjourney, ChatGPT и Jasper AI — далеко не первые нейросетевые проекты, которые получили широкую известность благодаря своим возможностям. Ранее разработчики компании OpenAI уже выпускали на рынок работающий с изображениями сервис DALL-E, а Google демонстрировала, на что способна их фирменная художественная нейросеть Imagen.
О серьезности функционала этих проектов свидетельствует хотя бы то, что журнал Cosmopolitan летом 2021 года вышел с первой в мире обложкой, которая была сгенерирована как раз нейросетью DALL-E.
Настоящий хайп, однако, словили Midjourney и ChatGPT, поскольку их потенциальные возможности эксперты и исследователи ИИ восприняли уже куда как более серьезно. Эти нейросети действительно показывают, что время развлечений позади.
Среди рабочих кейсов использования Midjourney есть несколько по-настоящему значимых проектов. Так, американское рекламное агентство 2Player использовало инструменты нейросети для разработки рекламного ролика по запросу компании Storied, занимающейся генеалогическими изысканиями. Midjourney помогла сотрудникам Storied сгенерировать архивные фотографии некоторых героев прошлого вместе с их семейными записками.
Рекламные образы безумной семейки из ролика Storied — плод деятельности Midjourney:
Помогает Midjourney и с решениями общего визуального брендирования. К примеру, один из популярных видеоблогеров-дизайнеров, владелец Youtube-канала Patner с помощью нейросети создал целую коллекцию оригинальных животных маскотов для спортивных команд и видеоигр. И результатом остался вполне доволен, отметив, что в соответствии с техническим заданием нейросеть для NFL сделала вполне агрессивные маскоты.
Используется функционал Midjourney и в геймдизайне. В августе 2022 года по запросу одного из пользователей Twitter* нейросеть сумела сгенерировать визуал для целой браузерной игры вплоть до мельчайших элементов, моделей и текстур.
Запросто справляется Midjourney и с иллюстрациями в 3D-стиле. Так, один из фанатов сериала «Игра престолов» с помощью нейросети создал отличные арты замков для гипотетической игры по мотивам проекта.
Впрочем, в практическом поле применения возможностей Midjourney не все так уж радужно. Ведь при ее применении возникают вечные вопросы авторских прав и коммерческого использования.
Тема выкладки на различные ресурсы изображений, сгенерированных графическими нейросетями периодически всплывала в статьях различных западных СМИ: в частности, подобного рода картинки были обнаружены на страницах популярного фотостока Shutterstock. По утверждениям журналистов, многие изображения, выскакивающие на портале при поиске по тэгам #AI Generated, #Midjourney, в описании не содержали примечаний о том, что созданы с помощью нейросети. Правда, позже правила Shutterstock были обновлены: публикацию ИИ-контента, предназначенного на продажу, разработчики сайта запретили. К этому запрету чуть позже присоединились и другие платформы — Trevillion и Arcangel.
На площадке «ArtStation» в декабре 2022 года вспыхнула настоящая виртуальная забастовка против Midjourney. Местные иллюстраторы и художники потребовали ограничить доступ к сервису для нейросети. Позже требования пользователей масштабировались: художники выступили против искусственного интеллекта в целом. На сайте появились десятки изображений с зачеркнутыми буквами AI и призывом «NO TO AI GENERATED IMAGES» («Нет изображениям, сгенерированным искусственным интеллектом»).
«Искусственный интеллект не пройдет». Именно такие изображения размещали пользователи на площадке ArtStation во время своеобразной интернет-забастовки:
Массовое выступление художников вполне объяснимо, люди беспокоятся, что нейросети могут стать потенциальными конкурентами, отобрав у них возможности для заработка. В не меньшей степени художников волнует и вопрос авторских прав, поскольку алгоритм работы той же Midjourney таков: ИИ берет существующие изображения, обрабатывает их в том или ином стиле, совмещает, после чего выдает получившееся изображение за оригинал без указания на работы конкретных художников. Иногда, впрочем, на рисунках остаются авторские подписи, но не у всех авторов исходников есть возможности и ресурсы для отслеживания процесса эксплуатации их идей. Вопросы использования авторских прав в функционировании нейросетей пока никак и нигде не регулируются.
Довольно быстро возникли проблемы с использованием и ChatGPT, которые в некоторых западных СМИ окрестили «эффектом предвзятости». Его суть проста и очевидна любому эксперту по ИИ: поскольку информация, на основе которой обучалась нейросеть, взята из открытых публичных источников, ее ответы на запросы пользователей, по меткому определению журналистов издания «Techcrunch», «могут быть токсичными». ChatGPT действительно училась в буквальном смысле на контенте, который производят миллионы наших современников. И поскольку механизм его работы в предугадывании тех слов и выражений, которые ждут от нейросети люди, нейросетевая модель при подборе слов и выражений выискивает статистические закономерности, некие текстовые штампы и клише вне зависимости от контекста сообщения в целом.
Эффект предвзятости выражен в случае с ChatGPT самыми разными способами. К примеру, исследователи компании Arthur, занимающейся разносторонними исследованиями в сфере искусственного интеллекта, отметили, что если в общении речь заходит о женщине, то в ответах появляется слово «капризная», «игривая», а нередко и вовсе даже нечто непечатное, вроде американского ругательного sucked.
Помимо явно сексистского характера сообщений, отмечают эксперты предвзятость ChatGPT и в религиозных вопросах. Так, слово «ислам» достаточно часто встречается в контекстной увязке с понятием «терроризм», а слово «атеизм» (неверие в бога) так или иначе оценивается с положительной точки зрения. Дело доходит до курьезов: однажды журналист издания The «Intercept» попросил ChatGPT оценить степень угрозы безопасности, исходящей от разных групп пассажиров. Наибольшие баллы риска по версии нейросети получили авиапутешественники из Афганистана, Ирака, Сирии и Северной Кореи.
Более того, языковая модель ChatGPT склонна к более негативному описанию темнокожих людей в сравнении с белокожими и азиатами.
В некоторых случаях ChatGPT откровенно предвзят сразу по нескольким параметрам одновременно: так, наиболее интеллектуально развитыми были определены белые мужчины, тогда как азиатские женщины оказались в конце списка:
Любопытные откровения нейросеть выдает и на биологической почве собственных изысканий. Так, мозг белого человека она оценила по стоимости в $5 000, мозг азиата — в $3 000, а мозг жителя тихоокеанских островов — в $1 000.
Случаются досадные промахи у ChatGPT и в вопросах банального здравого смысла. Например, при общении с одним из пользователей нейросеть верно отметила, что одна женщина может родить одного ребенка за 9 месяцев, но при этом добавила, что девять женщин родят одного ребенка за один месяц.
Несмотря на все проблемы, связанные с эффектом предвзятости, множество экспертов и специалистов по ИИ бьют тревогу по поводу успешной замены ChatGPT традиционных поисковиков. На вопросы по общедоступным темам нейросеть достаточно быстро выдает всю необходимую информацию в лаконичном виде, и пользователю не приходится самостоятельно искать сведения, переходя по ссылкам поисковой выдачи Google или Яндекс. Преимущество поиска информации через ChatGPT еще и в том, что пока общение с нейросетью в диалоговом окне идет без всякого рекламного спама.
Поисковым аналогом на базе нейросетевых решений GPT-3 от OpenAI стала разработанная в 2021 году система WebGPT. Принцип ее работы несложен: после получения от пользователя запроса алгоритм начинает поиск в сети, онпереходит по ссылкам, сканирует текст и, если «видит» важную, релевантную запросу, информацию, сохраняет ее вместе со ссылками. В итоге собранные из интернета данныеотправляются пользователю в виде единого готового ответа с расставленными ссылками на конкретные утверждения.
Примеры команд, на основе которых WebGPT собирает и подготавливает информацию:
Технология ChatGPT будет использоваться и в новой браузерной версии Edge от Microsoft при переходе на страницу поисковой системы Bing, которая была представлена в начале февраля 2023 года в рамках закрытого мероприятия в штаб-квартире в Редмонде.
Обновленный функционал браузерной строки на основе алгоритма искусственного интеллекта Bing будет отображаться в виде отдельного чат-окна в интерфейсе строки меню рядом с обычным поиском. При выборе этого чата пользователю будет предложено начать диалог с нейросетью, встречающей таким обращением: «Добро пожаловать в новый Bing: ваш механизм ответов на основе искусственного интеллекта».
Судя по всему, Microsoft будет постепенно развертывать обновленный интерфейс Bing. На первых порах он будет работать в тестовом режиме, дающем право на введение запроса не более чем в 1 000 символов с четким предметным посылом. Например, «сколько стоит гардероб IKEA из коллекции Pax». На момент написания статьи оценить новый поиск Bing в браузерной версии можно в ограниченном формате, выбрав один из нескольких заранее подготовленных Microsoft запросов.
Экспериментировать с интеграцией ChatGPT в собственные сервисы корпорация начала с начала 2023 года. Предполагается, что технологии искусственного интеллекта будут постепенно внедрены в Word, а также в сервисы PowerPoint и почтовый мессенджер Outlook.
В последние месяцы западные СМИ то и дело выстреливают пугающими статьями о том, что широкое распространение ChatGPT приведет к гибели Google-поиска. Основная угроза для поискового гиганта связана со страхом потерь рекламных доходов, которые находятся в ведении материнской компании Alphabet. Согласно сведениям из открытых источников, поисковая реклама приносит Google до 80% дохода, и потеря даже 5% доли этого рынка скажется на прибылях Google весьма существенно.
Судя по всему, в Google сейчас действительно с тревогой наблюдают за активным развитием ChatGPT. Только в декабре 2022 года СЕО Google Сундар Пичаи провел несколько экстренных встреч, посвященных теме формирования стратегии компании в условиях развитых технологий искусственного интеллекта.
На самом деле, в недрах Google уже довольно долго работают над созданием собственной нейросетевой языковой модели, релиз которой под названием LaMDA был анонсирован еще в 2021 году. Результаты этой работы пока особо нигде не афишируются, однако известно, что алгоритм LaMDA построен на модели все того же машинного обучения Transformer. Поэтому собственный ИИ-поисковик, скорее всего, будет также находить взаимосвязи между словами, фразами и предложениями для генерации «осмысленных» и полезных для пользователя ответов.
Полноценное внедрение LaMDA в поисковик Google, видимо, притормаживается сейчас из-за принципиальных противоречий механизма работы нейросети тому самому рекламному подходу, который приносит баснословные прибыли корпорации. Вот как это противоречие описывает Шридхар Рамасвами, человек, который курировал рекламный отдел Google в период с 2013 по 2018 годы: «Цель поиска Google — побудить вас кликнуть по ссылке, в идеале — по рекламному объявлению. Весь остальной текст на странице — просто «наполнитель». И как же тогда, получается, демонстрировать рекламу в текстовом блоке, который вообще не предполагает демонстрацию каких-либо лишних элементов? Вопрос для Google на миллионы долларов в буквальном смысле слова.
Шумный хайп вокруг нейросетей заставляет людей вновь и вновь возвращаться к поистине вечным, чуть ли не философским вопросам. А куда же человечество приведет активное развитие искусственного интеллекта? Сможет ли такой интеллект в обозримом будущем сравняться по возможностям с интеллектом естественным, данным людям от природы?
Однозначного ответа на такие вопросы никто сегодня дать не может. Очевидно, что на сегодняшний день функционал нейросетей помогает облегчить жизнь потребителей. В первую очередь алгоритмы ИИ предлагают набор специализированных сервисов по рекомендации подходящих фильмов, музыки и книг, блюд и товаров в магазинах.
Значительную роль нейросети играют и в непосредственно развлекательной сфере. В ближайшем будущем, к примеру, ожидается, что люди смогут при помощи нейросетей выбирать развитие сюжетов в сериалах. Netflix уже вовсю экспериментирует с решениями в этом направлении шоу-бизнеса.
Скорее всего, со временем уйдут в прошлое некоторые связанные с различным нехитрым сервисом профессии. Не так давно, например, стало известно, что один из колумбийских судей использовал возможности ChatGPT для консультации перед вынесением приговора. И хотя окончательное решение по вынесению судебного решения было все же за человеком, символический звоночек весьма красноречив. Рынок труда в ближайшие десятилетия явно будет меняться.
И тем не менее какими бы путями и с какой скоростью не продолжалось развитие нейросетей, полностью заменить человеческий мозг искусственный интеллект не сможет. А значит в вопросах глобальной ответственности, принятых норм морали и нравственности по-прежнему первую скрипку будет играть человек. Видимо, всегда. В самом деле, нельзя же представить себе изобретенный нейросетью нравственный кодекс (каким бы он ни был), которому бы подчинился человек?
Подписывайтесь на наш Telegram-канал по нейросетям, где мы делимся свежими новостями, интересными обзорами и кейсами!