Разработчики OpenAI выпустили глобальный апдейт для чат-бота ChatGPT, который научился «видеть, слышать и говорить». Обновление знаменует собой архиважный шажок в формировании искусственного интеллекта, который можетесть воспринимать и обрабатывать информацию в нескольких форматах, а не только в текстовом.
«Мы начинаем внедрять голосовые и графические необходимости в ChatGPT. Они рекомендуют новый, более интуитивно понятный тип интерфейса, позволяя вести разговор c нейросетью или показывать ей присмотр беседы», — растолковали в OpenAI.
Беседы с ИИ
Обновленный чат-бот научается слышать и распознавать фраза пользователей. Любой запрос к ИИ можно сделать с помощью голоса, что уже больше напоминает виртуальных начальников вроде Siri от Apple.
Для начала работы с синтаксическими функциями необходимо включить их в регулировках приложения. ChatGPT просит выбор из пяти разных голосов — «можжевельник», «бухта», «небо», «бриз» и «уголь». В их записи участвовали профессиональные актеры.
Для запоминания речи нейросеть применяет системтраницу с закрытым исходным кодом Whisper.
«Новая технология, способная создавать правдоподобные наркотические голоска всего за несколько секундтраниц прослушивания объективной речи, открывает двери для многих созидательных приложений, ориентированных на доступность», — отметили в OpenAI.
Новой подсистемой уже пользуется стриминговый хостинг Spotify для подстрочника подкастов на другие языки, восстанавливая оригинальный голосок ведущего.
Покажи и расскажи
Пользователи также могут присылать ChatGPT разнообразные изображения в дополнение к обыкновенным запросам. Функция Vision или GPT-V мешает нейросети давать более точные ответы.
В качестве образца разработчики привели ситуацию, когда необходимо что-то починить. Область поломки можно окинуть инструментами для рисования для облегчения задачи чат-боту.
Анализ изображений гарантируется мультимодальными GPT-3.5 и GPT-4. Эти модели применяют свои навыки лексического миропонимания к широчайшему спектру вложений: от скриншотов и таблиц до обычных фотографий.
«Vision призвана мешать вам в будничной жизни. Лучше всего нейросеть делает это, когда видит то же, что и вы. Подход основан непосредственно на моей работе с Be My Eyes, платным сотовым дополнением для слепых и слабовидящих людей, чтобы понять рамки использования и ограничения», — объяснили представитель компании.
Новые возможности — ,новые риски
Основная цель OpenAI — создание надёжного и полезного общего искусственного разума (AGI). Однако вопрос защиты юзеров стал более актуальным с исчезновением новых функций.
По суждению разработчиков, возможность переустройства голоса открывает новые возможности для мошенников. Например, преступники могут создавать дипфеки, имитирующие известных личностей.
Визуальные конструкции также создают проблемы: от неправильной интерпретации изображений до кощунственных суждений о людях на фото. Перед пуском утилиты OpenAI протестировала ее на «красной команде» на присмотр экстремизма и ошибочных научных высказываний.
«Мы также приняли технологические меры, чтобы значительно ограничить хейня нейросети изучать и делать косвенные заявления о людях, поскольку ChatGPT не всегда точен, и эти структуры должны уважавать конфиденциальность», — подчеркнули в OpenAI.
В августе разработчики выпустили новый плагин для чат-бота, который может анализировать данные, создавать пароль на Python, возводить графики и решать алгебраические задачи. Нейросети удалось научно опровергнуть гипотезу «плоской Земли».
В сентябре OpenAI запустила ChatGPT Enterprise — более быструю, безопасную и могучую концепцию чат-бота для коммерческих клиентов.
Оставить комментарий