Перейти к содержимому

Microsoft анонсировала ИИ модель Phi 3 vision: что это такое и как она работает?

Много текста? Вот суть ^

1. Компания Microsoft анонсировала ИИ модель Phi 3 vision, новую версию своей небольшой языковой модели Phi 3.
2. Phi vision является мультимодальной ИИ моделью, способной читать текст и просматривать изображения.
3. Модель Phi vision доступна в виде предварительной версии, имеет 4,2 млрд параметров и может выполнять общие задачи на визуальное мышление.
4. Семейство Phi 3 включает модели Phi mini (3,8 млрд параметров), Phi small (7 млрд параметров) и Phi medium (14 млрд параметров).
5. Разработчики ИИ моделей всё чаще выпускают компактные и легкие решения, такие как Phi, чтобы удовлетворить растущий спрос на доступные и менее требовательные к вычислительным ресурсам сервисы искусственного интеллекта.
6. Модель Orca Math от Microsoft предназначена для решения математических задач и справляется с ними лучше, чем более крупные аналоги, такие как Gemini Pro от Google.
7. Новая языковая модель Phi Silica была представлена на конференции разработчиков Build 2024 Microsoft.
8. Модель включает в себя 3,3 миллиарда параметров и оптимизирована для локального выполнения на нейронных процессорах (NPU) в устройствах под брендом Copilot+.
9. Разработчики приложений могут использовать Phi Silica в своих проектах для генерации текстовых ответов на пользовательские запросы.
10. Библиотека Windows Copilot Library позволяет интегрировать в приложения функции на базе искусственного интеллекта, такие как Studio Effects, перевод субтитров в режиме реального времени, OCR и Recall User Activity.
11. В следующей версии Windows App SDK, которая выйдет в июне, все эти функции станут доступны, а позднее в библиотеке появятся дополнительные функции, такие как Text Summarization, Vector Embeddings и RAG.
12. Модель Microsoft Phi 3 vision может работать как с текстом, так и с изображениями, включая 4,2 миллиарда параметров и ориентирована на распознавание и анализ графической информации.
13. Предварительная версия Phi vision доступна в библиотеке Azure, а также доступны другие модели семейства Phi 3, такие как Phi mini, Phi small и Phi medium.
14. Модель Phi 3 vision не может заменить более крупные модели, такие как GPT 4, но может быть полезной в конкретных задачах, благодаря компактному размеру, что позволяет запускать её на смартфонах и ноутбуках без необходимости подключения к интернету, а также для организаций, использующих собственные данные для обучения.


Microsoft анонсировала ИИ модель Phi 3 vision: что это такое и как она работает?

Thank you for reading this post, don't forget to subscribe!

Компания Microsoft представила новую ИИ модель под названием Phi 3 vision, которая является обновленной версией небольшой языковой модели Phi 3. Phi vision – это мультимодальная модель, способная анализировать текст и изображения. Она доступна в виде предварительной версии и имеет внушительные 4,2 миллиарда параметров, что позволяет ей выполнять общие задачи на визуальное мышление. Новая модель является частью семейства Phi 3, которое также включает в себя модели Phi mini (3,8 миллиарда параметров), Phi small (7 миллиардов параметров) и Phi medium (14 миллиардов параметров).

С развитием технологий искусственного интеллекта разработчики всё чаще представляют компактные и легкие решения, такие как Phi, чтобы удовлетворить растущий спрос на доступные и менее ресурсоемкие сервисы ИИ. Например, модель Orca Math от Microsoft, предназначенная для решения математических задач, демонстрирует более высокую эффективность по сравнению с более крупными аналогами, такими как Gemini Pro от Google.

На конференции разработчиков Build 2024 Microsoft также представила новую языковую модель Phi Silica, включающую в себя 3,3 миллиарда параметров. Она оптимизирована для локального выполнения на нейронных процессорах (NPU) в устройствах под брендом Copilot+. Разработчики приложений теперь могут использовать Phi Silica в своих проектах для генерации текстовых ответов на пользовательские запросы.

Библиотека Windows Copilot Library от Microsoft позволяет интегрировать в приложения функции на базе искусственного интеллекта, такие как Studio Effects, перевод субтитров в режиме реального времени, OCR и Recall User Activity. В следующей версии Windows App SDK, которая выйдет в июне, все эти функции станут доступны, а позднее в библиотеке появятся дополнительные функции, такие как Text Summarization, Vector Embeddings и RAG.

Модель Microsoft Phi 3 vision представляет собой мощный инструмент, способный работать как с текстом, так и с изображениями благодаря своим 4,2 миллиарда параметрам. Предварительная версия Phi vision уже доступна в библиотеке Azure, а также другие модели семейства Phi 3, такие как Phi mini, Phi small и Phi medium 3. Не смотря на свой компактный размер, модель Phi 3 vision не претендует на замену более крупных моделей, таких как GPT 4, но может оказаться полезной в конкретных задачах, особенно для организаций, использующих собственные данные для обучения.