Нейросеть научилась создавать фотографии блюда по его рецепту

Израильские разработчики создали нейросеть, способную формировать изображение на основе текстового описания объекта, которое не содержит четких данных о его визуальных признаках. В качестве примера они научили ее создавать фотографии блюда по его рецепту. Об этом сообщает статья на arXiv.org.

Исследователи применяют нейросетевые алгоритмы для разных задач, связанных с изображением. Как правило, это задачи по классификации изображений или их обработке, но также есть достаточно большой класс задач, связанный с созданием изображения с нуля, в том числе на основе текстового описания. Во время обучения такого алгоритма он учится связывать слова с соответствующими визуальными признаками.

Нетанел Йозефиан и его коллеги из Тель-Авивского университета разработали нейросеть, способную создавать изображение объекта, даже если его описание не содержит четких данных о его визуальных признаках. Авторы отмечают, что выбранный ими подход основан на работе других исследователей, создавших датасет из 800 тысяч пар рецептов и фотографий блюд, а также научивших нейросеть составлять рецепт по фотографии.

Cверху — реальные блюда, снизу — визуализация нейросети

Созданный израильскими разработчиками алгоритм работает с полноценными рецептами, содержащими список ингредиентов и описание этапов приготовления, занимающими десятки строк. Изначально алгоритм принимает отдельно рецепт и ингредиенты, и переводит их в отдельные вектора. После этого вектора подвергаются процедуре совместного вложения, при которой они формируют единый вектор, который условная генеративно-состязательная нейросеть StackGAN-v2 превращает в изображение блюда.

Разработчики обучили нейросеть на 52 тысячах пар рецептов и фотографий из датасета Recipe1M и проверили работу алгоритма еще на 24 тысячах пар. Для проверки его работы авторы выбрали две метрики — количественную и качественную. В первом случае они использовали описанную в 2016 году методику, позволяющую оценить работу генеративно-состязательной сети.

В 2017-м году американские ученые из Массачусетского технологического института разработали нейросеть, которая определяет список ингредиентов и рецепт приготовления блюда, исходя из одной его фотографии.