Open AI опубликовали возможности GPT-4V (Vision)

Это расширенная модель с углубленной функциональностью по работе с изображениями.

Спустя несколько месяцев экспериментов с версией ChatGPT-4 в сети появился документ с описанием возможностей новой модели Vision. Разработчики ранее упоминали возможности применения инструмента в медицинской и страховой сфере, например, для расшифровки рентгеновских снимков. В документе сообщаются новые подробности относительно возможностей Vision:

Распознавание текста, формул и таблиц на фотографиях;
Расшифровка медицинских документов, например, результатов компьютерной томографии;
Подсчет количества объектов на картинке (функция несовершенна);
Решение головоломок и оптических иллюзий;
Определение различий между изображениями, устанавливает дефекты и неточности;
Различение человеческих эмоций.

Уже сейчас Vision может определять степень повреждений в ДТП по снимкам. Нейросеть предоставляет подробные объяснения о дефектах, однако пока не в состоянии подсчитать приблизительный ущерб.

Подробнее о возможностях Vision читайте в справочном документе на английском языке.