No title | Tim Pro Home Labs

Упакованная статья <-> здесь

1. В мае 2024 года на конференции Google I/O компания Google представила нейросеть Imagen 3, предназначенную для генерации изображений по текстовому описанию. Она доступна в сервисе ImageFX. Модель может создавать изображения с разрешением 1024×1024 пикселей, а также с увеличенным разрешением (2, 4 и 8 раз). Для обучения Imagen 3 использовался датасет уникальных изображений, которые прошли через несколько фильтров: удалены небезопасные и жестокие картинки, низкокачественные файлы и сгенерированные изображения. К каждой картинке добавили текстовое описание.
Доступ к платформе ImageFX от Google пока есть только у жителей США. Всем остальным пользователям необходимо зарегистрироваться в очереди. Imagen 3 является продвинутым генератором искусственного интеллекта, который может составить конкуренцию моделям Midjourney, DALL-E 3 и Grok 2 от X. Она обладает большей универсальностью и пониманием подсказок, более высоким качеством изображений и лучшей визуализацией текста.
Изображения, созданные Imagen 3, имеют цифровой водяной знак SynthID от Google. В скором времени генератор станет доступен во всех функциях Google AI в Workspace и Gemini в веб браузере и на мобильных устройствах.

2. Некоторые пользователи Reddit критизируют модель за то, что она слишком ограничена в наборе генерируемых изображений. Они сообщают, что генератор отклоняет до половины запросов.

3. Стартап Илона Маска xAI выпустил модель Grok 2, которая генерирует изображения практически без ограничений. Модель допускает создание картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. “Яндекс” ищет тренеров для обучения YandexGPT переводу текста с изображений, аудио и видеофайлов.

4. Google открыл доступ к Imagen 3 для всех пользователей в США. Журналисты The Verge смогли обойти ограничения системы и сгенерировали персонажей, похожих на Соника, Марио и Микки Мауса, а также логотипы компаний Apple, Macy’s, Hershey’s и Google.

ая битва за креативность: Imagen 3 от Google выходит на поле боя

В мире, где искусственный интеллект (ИИ) стремительно развивается, генерация изображений по текстовому описанию становится все более популярной темой. Google I/O 2024 года ознаменовала появление нового игрока в этой борьбе – Imagen 3. Модель, представленная компанией Google, обещает стать серьезным конкурентом для уже известных DALL-E 3 от OpenAI, Midjourney и Grok 2 от X (бывшего Twitter).

Imagen 3 доступна в сервисе ImageFX, который пока открыт только жителям США. Все остальные пользователи могут зарегистрироваться в очереди, чтобы первым получить доступ к новому инструменту. Модель способна создавать изображения с разрешением 1024×1024 пикселей и даже увеличивать их до 2, 4 или 8 раз от исходного размера.

Для обучения Imagen 3 был использован уникальный датасет изображений, подвергнутый тщательной фильтрации. Были удалены небезопасные и жестокие картинки, файлы низкого качества и сгенерированные изображения. Каждой картинке было присвоено текстовое описание, что позволило модели лучше понимать связь между словами и визуальными образами.

По словам экспертов из Google, Imagen 3 обладает большей универсальностью и пониманием подсказок, чем ее конкуренты. Модель генерирует изображения с более высоким качеством и точнее интерпретирует текстовые инструкции. Однако некоторые пользователи Reddit жалуются на то, что модель слишком ограничена в своих возможностях и отклоняет до половины запросов.

В то же время, стартап Илона Маска xAI уже представил свою модель Grok 2, которая практически не имеет ограничений при генерации изображений. Пользователи сообщают о возможности создания картинок с общественными деятелями и деталями, которые на других платформах считаются недопустимыми. В России “Яндекс” активно работает над обучением своей модели YandexGPT переводу текста с изображений, аудио и видеофайлов.

Google также внедрил в Imagen 3 цифровой водяной знак SynthID для подтверждения авторства и предотвращения мошенничества. В ближайшем будущем генератор станет доступен во всех функциях Google AI в Workspace и Gemini на веб-браузерах и мобильных устройствах. Журналисты The Verge, обойдя ограничения системы, уже смогли сгенерировать персонажей из популярных игр – Соника, Марио и Микки Мауса – а также логотипы компаний Apple, Macy’s, Hershey’s и Google, что подчеркивает потенциал Imagen 3.