Google только что объединил DeepMind и Google Brain в одну большую команду ИИ, и в среду новый Google DeepMind поделился подробностями о том, как одна из его моделей визуального языка (VLM) используется для создания описаний для YouTube Shorts, что может помочь в обнаружении.

«Шорты создаются за считанные минуты и часто не содержат полезных описаний и заголовков, что затрудняет их поиск с помощью поиска». DeepMind написал в посте. Flamingo может делать эти описания, анализируя начальные кадры видео, чтобы объяснить, что происходит. (DeepMind приводит пример «собаки, балансирующей на голове кучу крекеров».) Текстовые описания будут храниться в виде метаданных, чтобы «лучше классифицировать видео и сопоставлять результаты поиска с запросами зрителей».

Это решает реальную проблему, считает Колин Мердок, коммерческий директор Google DeepMind. Край: для короткометражных фильмов создатели иногда не добавляют метаданные, потому что процесс создания видео проще, чем для более длинного видео. Тодд Шерман, директор по управлению продуктами Shorts, добавил, что, поскольку Shorts в основном просматриваются в ленте, где люди просто переходят к следующему видео, а не активно ищут его, у них не так много стимулов для добавления метаданных.

«Эта модель Flamingo — способность понимать эти видео и предоставлять нам описательный текст — действительно бесценна для наших систем, которые уже ищут эти метаданные», — говорит Шерман. «Это позволяет им более эффективно понимать эти видео, чтобы мы могли сопоставлять пользователей, когда они их ищут».

Сгенерированные описания не будут видны пользователю. «Мы говорим о метаданных, которые остаются за кадром, — говорит Шерман. «Мы не передаем это создателям, но прилагаем много усилий, чтобы убедиться, что это точно». Что касается того, как Google обеспечивает точность этих описаний, «весь описательный текст будет соответствовать нашим стандартам ответственности», — говорит Шерман. “Очень маловероятно, что будет сгенерирован описательный текст, который каким-то образом создаст видео в плохом свете. Это совсем не тот результат, которого мы ожидаем.

ЧИТАТЬ   В 81 год Марта Стюарт становится самой старой моделью с обложки журнала Sports Illustrated в купальниках.

Flamingo уже применяет автоматически сгенерированные описания к новым загрузкам короткометражных фильмов.

По словам представителя DeepMind Дункана Смита, Flamingo уже применяет автоматически сгенерированные описания к новым загрузкам короткометражек, и это было сделано для «большого количества существующих видео, включая видео с наибольшим количеством просмотров».

Мне пришлось спросить, будет ли Flamingo применяться к более длинным видео на YouTube в будущем. «Я думаю, что вполне возможно, — говорит Шерман. «Я думаю, что потребность, вероятно, немного меньше». Он отмечает, что для более длинного видео создатель может потратить часы на такие вещи, как подготовка, съемка и редактирование, поэтому добавление метаданных — это относительно небольшая часть процесса создания видео. А поскольку люди часто смотрят более длинные видео, основываясь на таких вещах, как название и миниатюра, у создающих их создателей есть стимул добавлять метаданные, которые облегчают поиск.

Так что, я думаю, ответ таков: нам придется подождать и посмотреть. Но, учитывая серьезные усилия Google по внедрению ИИ почти во все, что он предлагает, применение чего-то вроде Flamingo к более длинным видео на YouTube не кажется чем-то невозможным, что может оказать огромное влияние на поиск на YouTube в будущем.

Source

От admin