Анонсы Google I/O 2025: модели Gemini 2.5, Imagen 4, Veo 3 и Flow

На Google I/O 2025 было представлено множество анонсов, в основном посвященных искусственному интеллекту. Мы получили обновления и новые функции для моделей Gemini 2.5 (Pro и Flash), а также более мощный генератор изображений Imagen 4 и генератор видео с искусственным интеллектом Veo 3. Google также представила Flow - специализированный инструмент для создания фильмов с искусственным интеллектом, который объединяет модели Imagen, Veo и Gemini для создания кинематографических сцен с помощью простых текстовых подсказок.

Google I/O 2025 announcements: Gemini 2.5 models, Imagen 4, Veo 3 and Flow

Gemini 2.5 обеспечивает расширенную языковую поддержку более чем 24 языков, включая преобразование текста в речь и выразительные голоса. Google заявляет об улучшенных возможностях логического мышления, мультимодальности, кодирования и расширенного контекста как для моделей Flash, так и для Pro.

Важным обновлением в Pro model стало добавление режима глубокого анализа для решения сложных математических задач и задач по программированию. Эта функция все еще находится на “экспериментальной” стадии и скоро будет доступна для проверенных тестировщиков. Google заявляет, что может рассмотреть несколько гипотез, прежде чем давать ответ.

Gemini 2.5 Pro теперь является ведущим режимом искусственного интеллекта в тестах WebDev Arena и LMArena. Он предлагает расширенные инструменты для кодирования и создания веб-приложений, а также окно до 1 миллиона токенов для понимания контекста. Gemini 2.5 также повышает защиту от косвенных быстрых инъекций.

Версия Gemini 2.5 Flash доступна в предварительном просмотре для всех пользователей приложения Gemini, а ее общий выпуск запланирован на конец июня. Коммерческий релиз Gemini 2.5 Pro состоится вскоре после этого.

Imagen 4 теперь может выводить изображения с разрешением до 2 КБ. Google утверждает, что это улучшило точность текста в создаваемых открытках, плакатах и комиксах. С сегодняшнего дня Imagen 4 доступен в приложениях Gemini, Google Workspace, Whisk и Vertex AI.

Imagen 4 samples (shared by Google)

Veo 3 - это новейшая модель Google для видео с искусственным интеллектом, которая обладает улучшенным распознаванием текста в виде подсказок. Она может выводить видео со звуком, диалогами персонажей и фоновыми шумами. С сегодняшнего дня Veo 3 доступна для подписчиков Google AI Ultra в США и корпоративных пользователей Vertex AI.

В Veo 2 реализованы функции перемещения камеры, добавления и удаления объектов. Пользователи также могут добавлять изображения для управления стилем и закрашивания, чтобы расширить рамки за пределы исходных границ.

Flow - это новый инструмент Google для создания фильмов с искусственным интеллектом, который сочетает в себе возможности моделей Veo, Imagen и Lyria для создания кинематографических сцен с большей детализацией. Google утверждает, что Flow может помочь рассказчикам создавать исключительные кинематографические ролики, которые отличаются физикой и реалистичностью. Пользователи могут управлять движением камеры, ракурсами и перспективой. Вы также можете редактировать и расширять ранее созданные видеоролики. Google Flow теперь доступен для подписчиков Google AI Pro и Ultra в США.