Tech

‘Визуальные’ модели искусственного интеллекта могут вообще ничего не видеть

UnKnew Saturday, September 28 2024

Последние модели языковых моделей, такие как GPT-4o и Gemini 1.5 Pro, рекламируются как «мультимодальные», способные понимать изображения и звук, а также текст. Однако новое исследование показывает, что они на самом деле не видят так, как можно было бы ожидать. Фактически, они могут вообще не видеть.

...

Если мы полагаемся на маркетинговые уловки компаний по искусственному интеллекту, чтобы узнать о всех возможностях этих моделей, мы бы подумали, что у них зрение 20/20. Такие исследования, как это, необходимы, чтобы показать, что, несмотря на то, насколько точно модель может указать, сидит ли человек или идет или бежит, она делает это без «видения» в том смысле (если можно так выразиться), как мы обычно понимаем.

UnKnew

UnKnew

Related Articles

Функции Apple Intelligence будут доступны на iPhone 15 Pro и устройствах с чипами M1 или новее

Сара Букнер начала карьеру плотника в 12 лет — сейчас ее стартап по искусственному интеллекту в сфере строительства привлек $20 миллионов

‘Визуальные’ модели искусственного интеллекта могут вообще ничего не видеть

Несмотря на шумиху, многие компании действуют осторожно, когда речь идет о генеративном ИИ

Двуязычный помощник по диктовке Сильвия понимает 'Спанглиш' и другие смеси языков

Исследователи обучают домашних роботов в симуляциях на основе сканирования iPhone