Хакатон «Разработка алгоритмов генерации голосовых фейков»

4 мая 2022 г.

22-24 апреля 2022 года в Российском Технологическом Университете МИРЭА при поддержке компании «Наносемантика», резидента Фонда «Сколково», прошел студенческий хакатон, задачей которого стала разработка алгоритма генерации голосового дипфейка, программы, которая копирует голос конкретного человека. 

 

Фото:  «Наносемантика».

 

Организаторы хакатона

 

Институт кибербезопасности и цифровых технологий Российского Технологического Университета МИРЭА. РТУ МИРЭА сегодня является одним из лидеров в области подготовки высококвалифицированных специалистов для быстро развивающихся наукоемких отраслей науки и техники: телекоммуникаций, информационных и компьютерных технологий, автоматики, кибернетики, радиотехники и электроники, химии и биотехнологий.

 

«Наносемантика»  — ведущий разработчик технологий искусственного интеллекта. Компания разрабатывает голосовых виртуальных ассистентов, нейронные сети и системы анализа больших данных.

 

Задача:

 

Участникам было предложено разработать алгоритм генерации голосового дипфейка – программы, которая копирует голос конкретного человека. 

 

Дипфейк (deep fake) - реалистичная манипуляция аудио-, фото- и видеоматериалами с помощью искусственного интеллекта для достижения максимального сходства с реальными изображениями и звуковыми дорожками. Само название deep fake объединяет в себе «глубокое обучение» (deep learning) и «подделку» (fake).

 

Выбор темы хакатон не случаен. Помимо того, что технология производства дипфейков (Generative Artificial Intelligence) названа агентством Gartner стратегическим трендом для 2022 года, мы также наблюдаем постоянный рост случаев мошенничества и пропаганды с помощью сгенерированных аудио, видео и текстов. Для успешного противодействия таким технологиям обязательно необходимо понимать, как такой генеративный контент создаётся.

 

Что было предоставлено участникам:

 

  • Набор данных (датасет) из 2 часов аудиозаписей с голосом американского президента Джо Байдена.
  • Программный код с предобученной нейронной сетью для синтеза речи.
  • Вычислительные мощности (сервер с видеокартой).

 

За время хакатона командам необходимо было сгенерировать 10 аудиозаписей по 10 предоставленным текстам и далее презентовать решение жюри, которое оценивало качество полученных аудиозаписей: их реалистичность и качество звучания.

 

Специалисты «Наносемантики» также провели 2 мастер-класса для участников хакатона: «Современные методики генерации голосовых дипфейков и синтеза речи» и «Ключевые особенности распознавания голосовых дипфейков».

 

Состав жюри:

 

  • Ректор РТУ МИРЭА — С.А. Кудж.
  • Директор Института кибербезопасности и цифровых технологий — А.А. Бакаев.
  • Генеральный директор компании «Наносемантика» — Станислав Ашманов.
  • Ведущие специалисты и руководители отделов «Наносемантики» — Павел Сухачёв, Антон Дробышев и Григорий Шершуков.

 

Результаты:

 

  1. Для участия в хакатоне зарегистрировалось 30 команд (67 человек), до финала дошло 5 команд.
  2. Итоги были подведены 24 апреля после итоговых презентаций от команд. Победителем стала команда «Лирохвост» (Шашков Александр Андреевич,  Балашов Дмитрий Сергеевич,  Охотников Роман Олегович) из РТУ МИРЭА, которая показала лучший результат по клонированию голоса, а также добавила разработку генерации текста рэп-композиций на основе технологий gpt2. Помимо денежного приза победители получат возможность пройти стажировку в  «Наносемантике». 
  3. Призовой фонд составил 110 тысяч рублей, которые распределились: 1-е место (Лирохвост) — 50 000 рублей, 2-е место (General) — 30 000 рублей, 3-е место (было разделено между 3 командами, Thunder Forward, Crazy Cats, Neural_Ducks) — суммарно 30 000 рублей.
Поделиться