|
Опрос
|
реклама
Быстрый переход
Нашумевший стартап DeepSeek выпустил Janus Pro — мощный ИИ-генератор изображений, который потягается с OpenAI DALL-E 3
27.01.2025 [22:18],
Анжелла Марина
Китайская компания DeepSeek, получившая огромную известность благодаря своему ИИ-чат-боту, анонсировала семейство мультимодальных моделей искусственного интеллекта Janus Pro. По заявлению компании, эти алгоритмы, доступные под открытой лицензией MIT, способны генерировать и анализировать изображения лучше, чем OpenAI DALL-E 3, PixArt-alpha и Stable Diffusion XL.
Источник изображения: hdhAI Janus Pro предлагается в версиях, насчитывающих от 1 до 7 миллиардов параметров — чем их больше, тем выше производительность. Флагманская модель Janus Pro 7B, как информирует TechCrunch, успешно продемонстрировала свои возможности в бенчмарках GenEval и DPG-Bench. «Janus Pro превосходит предыдущие универсальные модели и сопоставима, и даже превосходит узкоспециализированные решения других компаний. Простота, гибкость и эффективность делают нашу ИИ-модель кандидатом на новое поколение мультимодальных систем», — говорится в сообщении компании. Архитектура Janus Pro позволяет не только создавать изображения, но и анализировать их. Однако текущая версия ограничена генерацией картинок с разрешением 384 × 384 пикселей, что ниже стандартов современных моделей. Тем не менее, для компактных ИИ-моделей такие результаты называют впечатляющими, особенно на фоне конкурентов.
Источник изображения: DeepSeek Стоит сказать, успех DeepSeek привлёк широкое внимание после того, как её чат-бот возглавил топ приложений App Store. При этом стартап, финансируемый компанией High-Flyer Capital Management и используя энергоэффективные методы обучения, заставляет аналитиков с Уолл-стрит и ИТ-экспертов сомневаться в том, что США наверняка сохранят лидерство в гонке решений, связанных с искусственным интеллектом. Некоторые также задаются вопросом, сохранится ли текущий ажиотажный спрос на чипы для ИИ, так как DeepSeek использовал совсем другие подходы. Как отмечают эксперты, революционность Janus Pro — в его универсальности. Он объединяет анализ и генерацию, что редко встречается в моделях такого размера. Хотя разрешение изображений пока не дотягивает до уровня DALL-E 3, открытая лицензия и адаптивность могут ускорить внедрение Janus Pro в коммерческие проекты. Microsoft вернула старый ИИ-генератор картинок Bing Image Creator, потому что новый работал хуже
09.01.2025 [15:18],
Владимир Фетисов
Компания Microsoft решила откатить обновление ИИ-генератора изображений Bing Image Creator. Это произошло после того, как в течение нескольких недель пользователи сервиса активно жаловались на снижение качества его работы, которое возникло после обновления большой языковой модели DALL-E 3 18 декабря. Microsoft отказалась от комментариев по поводу причин решения откатить обновление.
Источник изображения: Microsoft Сегодня корпоративный вице-президент Microsoft по поиску и искусственному интеллекту Жорди Рибас (Jordi Ribas) опубликовал пост в соцсети X, в котором сообщил, что разработчикам удалось воспроизвести «некоторые из обнаруженных проблем». Он также добавил, что было принято решение вернуться к использованию более старой версии модели DALL-E. В декабре Рибас сообщил о развёртывании обновления для модели DALL-E, которая является основой генератора изображений Bing Image Creator. Почти сразу после этого в интернете появились жалобы от пользователей сервиса, которые писали, что ИИ-генератор стал менее точно следовать текстовым подсказкам при создании изображений. На тот момент Рибас заявил, что качество работы обновлённого продукта «в среднем должно быть немного лучше», чем раньше. Жалобы пользователей стали появляться не только на форумах поддержки Microsoft, но и на других платформах, включая Reddit и форум OpenAI. Очевидно, что в конечном счёте Microsoft пришлось признать наличие проблемы и откатить обновление, чтобы вернуть Bing Image Creator к прежнему состоянию. Когда софтверный гигант может снова обновить языковую модель DALL-E, пока неизвестно. Бесплатным пользователям ChatGPT разрешили генерировать две картинки в день с помощью DALL-E 3
09.08.2024 [16:02],
Анжелла Марина
OpenAI объявила о нововведении в своём сервисе ChatGPT. Теперь пользователи бесплатного тарифа смогут создавать до двух изображений в день с помощью модели DALL-E 3. Это изменение является частью стратегии компании по расширению функциональности своих продуктов.
Источник изображения: Levart_Photographer/Unsplash Версия DALL-E 3, запущенная в сентябре 2022 года, изначально была доступна только подписчикам платного тарифа ChatGPT Plus. Теперь же сервис стал доступен более широкому кругу пользователей, хоть и с некоторыми ограничениями. Помимо расширения доступности сервиса, он также получил новые возможности. Если раньше необходимо было формулировать запросы для создания изображений самостоятельно, то теперь ChatGPT поможет в этом. Надо только попросить его написать тематическую подсказку. Например, Адитья Рамеш (Aditya Ramesh), ведущий исследователь и глава команды DALL-E, попросил ChatGPT помочь ему придумать логотип для кафе, расположенного вблизи гор. Затем, на основе этого короткого запроса, ChatGPT написал более длинную и подробную подсказку, а DALL-E предложил четыре варианта изображений. OpenAI сообщила, что функция бесплатного создания изображений с DALL-E 3 находится в процессе развёртывания. Некоторые пользователи уже получили доступ к этой возможности. В частности, журналист из The Verge смог создать два изображения в приложении ChatGPT для Mac, прежде чем получил уведомление о достижении лимита созданий изображений на день. OpenAI также сделала несколько других важных заявлений. Компания представила оценку безопасности своей модели GPT-4o, добавила нового члена в совет директоров, а генеральный директор Сэм Альтман (Sam Altman) получил письмо от демократов в Конгрессе США с требованием предоставить разъяснения по вопросам безопасности OpenAI. OpenAI научилась распознавать сгенерированные своим ИИ изображения, но не без ошибок
08.05.2024 [10:19],
Дмитрий Федоров
OpenAI объявила о начале разработки новых методов определения контента, созданного искусственным интеллектом (ИИ). Среди них — новый классификатор изображений, который определяет, было ли изображение сгенерировано ИИ, а также устойчивый к взлому водяной знак, способный маркировать аудиоконтент незаметными сигналами.
Источник изображения: Placidplace / Pixabay Новый классификатор изображений способен с точностью до 98 % определять, было ли изображение создано ИИ-генератором изображений DALL-E 3. Компания утверждает, что их классификатор работает, даже если изображение было обрезано, сжато или была изменена его насыщенность. В то же время эффективность этой разработки OpenAI в распознавании контента, созданного другими ИИ-моделями, такими как Midjourney, значительно ниже — от 5 до 10 %. Также OpenAI ввела водяные знаки для аудиоконтента, созданного с помощью своей платформы преобразования текста в речь Voice Engine, находящейся на стадии предварительного тестирования. Эти водяные знаки содержат информацию о создателе и методах создания контента, что значительно упрощает процесс проверки их подлинности. OpenAI активно участвует в работе Коалиции по происхождению и аутентичности контента (C2PA), в состав которой также входят такие компании, как Microsoft и Adobe. В этом месяце компания присоединилась к руководящему комитету C2PA, подчеркивая свою роль в разработке стандартов прозрачности и подлинности цифрового контента. Для этих целей OpenAI интегрировала в метаданные изображений так называемые учётные данные контента от C2PA. Эти учётные данные, фактически являясь водяными знаками, включают информацию о владельце изображения и способах его создания. OpenAI уже много лет работает над обнаружением ИИ-контента, однако в 2023 году компании пришлось прекратить работу программы, определяющей текст, сгенерированный ИИ, из-за её низкой точности. Разработка классификатора изображений и водяного знака для аудиоконтента продолжается. В OpenAI подчёркивают, что для оценки эффективности этих инструментов крайне важно получить отзывы пользователей. Исследователи и представители некоммерческих журналистских организаций имеют возможность протестировать классификатор изображений на платформе доступа к исследованиям OpenAI. OpenAI отключила генератор изображений DALL-E 2 — его место займёт более продвинутый DALL-E 3
19.04.2024 [09:02],
Владимир Фетисов
Компания OpenAI продолжает активно развивать свои генеративные алгоритмы, делая их более совершенными и удобными для пользователей. На этом фоне разработчики объявили о закрытии нейросети DALL-E 2, которая дебютировала в апреле 2022 года и позволяла создавать качественные изображения на основе текстовых описаний. Этого следовало ожидать, поскольку OpenAI уже выпустила более совершенный алгоритм DALL-E 3.
Источник изображения: OpenAI Алгоритм DALL-E 3 получил полную интеграцию с ИИ-ботом ChatGPT, что способствовало формированию более простого пользовательского интерфейса и созданию более качественных изображений. Начать взаимодействие с ChatGPT в DALL-E 3 можно буквально в пару кликов. Что же касается DALL-E 2, то очевидно, что нейросеть безвозвратно уходит в прошлое. «Мы больше не допускаем новых пользователей к DALL-E 2. DALL-E 3 позволяет создавать изображения более высокого качества, лучше обрабатывает запросы, и мы начали внедрять в него функцию редактирования изображений. Он доступен пользователям ChatGPT Plus, Teams и Enterprise, а также через API OpenAI», — говорится в сообщении разработчиков на странице DALL-E 2. Вместе с появлением сообщения от разработчиков со страницы исчезла форма для ввода текстовых описаний. Доступ к сгенерированным ранее изображениям на данный момент есть, но не исключено, что позднее это изменится. OpenAI предупреждала о предстоящем закрытии доступа к алгоритму ещё в начале года, поэтому для пользователей нейросети этот шаг не должен стать чем-то неожиданным. DALL-E 3 научился дорабатывать картинки и менять их части по текстовому запросу
03.04.2024 [18:58],
Владимир Чижевский
OpenAI рассказала о новых возможностях редактирования картинок, созданных генеративным искусственным интеллектом DALL-E 3, который помимо прочего входит в платную подписку ChatGPT Plus за $20 в месяц. Теперь при щелчке по созданной DALL-E 3 картинке открывается специальный редактор, главная особенность которого — выбор и редактирование отдельных частей изображения без необходимости генерировать его заново. Картинку можно изменять глобально, задав уточняющий запрос в диалоговом пространстве в правой части редактора — например, попросить DALL-E 3 сделать её чёрно-белой. Однако очевидно, что OpenAI куда больше гордится возможностью точечных правок. Для этого необходимо выбрать инструмент выделения, определиться с его размерами, а затем выделить необходимые области и ввести запрос. Как и полная генерация, правки происходят посредством ввода текстовых подсказок. Простейшее, что сразу приходит на ум — удаление и добавление объектов, однако возможности инструмента гораздо шире. В примере с котёнком можно выделить его мордочку и попросить ИИ изобразить определённую эмоцию. Аналогичным образом происходит редактирование изображений в мобильном приложении ChatGPT, где перечисленные возможности также доступны. OpenAI будет незаметно маркировать творчество ИИ-художника DALL-E 3
07.02.2024 [15:29],
Павел Котов
Генератор изображений OpenAI DALL-E 3 будет помечать созданные им картинки метаданными в соответствии со стандартами организации C2PA (Coalition for Content Provenance and Authenticity — «Коалиции по происхождению и аутентичности контента»). Такая маркировка позволит легко узнать, что изображение создано ИИ, а не человеком.
Источник изображения: Gerd Altmann / pixabay.com При помощи метаданных будут маркироваться изображения, созданные искусственным интеллектом на сайте ChatGPT и при подключении к API для модели DALL-E 3, сообщила OpenAI. При выводе таких изображений на поддерживающих технологию Content Credentials ресурсах будет отображаться изображение с символами «CR» в левом верхнем углу каждой картинки. Это позволит установить происхождение файла, но пока маркировку получат только картинки, а не видеозаписи или текст. Добавление метаданных лишь незначительно повлияет на скорость работы системы и никак не скажется на качестве картинки, подчеркнули в OpenAI.
Источник изображения: openai.com Организация C2PA, в которую входят крупные технологические компании масштаба Adobe и Microsoft, продвигает собственный стандарт Content Credentials — это решение позволяет определять происхождение контента. Ранее о намерении помечать на своих платформах созданные ИИ материалы сообщила компания Meta✴✴. Американские разработчики технологий ИИ взяли на себя обязательства обеспечивать средства идентификации генерируемого ИИ контента. Метаданные, однако, трудно назвать надёжным способом защиты — их легко удалить, случайно или намеренно. Так, они часто в принудительном порядке удаляются при загрузке в соцсети. Метаданные также не сохраняются при снятии снимков экрана. |
|
✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»; |