НТР провела вебинар на тему: "Как использовать информацию о неопределенности в задаче распознавания диктора”
Государственное унитарное предприятие, охватывающее своей деятельностью Москву и частично Московскую область и выполняющее городские и пригородные перевозки автобусами, городские перевозки троллейбусами и трамваями, а также заказные перевозки автобусами городского и междугородного класса.

НОВОСТЬ

2 февраля 2021 Сильнова Анна, аспирант, исследователь, Технический университет Брно, Чехия, провела научно-технический вебинар в Zoom на тему "Как использовать информацию о неопределенности в задаче распознавания диктора”.

Спикер о презентации:

Часто задача распознавания диктора формулируется как ответ на вопрос, содержат ли два аудио фрагмента запись голоса одного и того же человека, или разных.

Интуитивно понятно, что сравнивая две длинные аудио записи хорошего качества следует ожидать более точный результат и большую в нем уверенность, чем когда сравниваются две короткие шумные записи. Однако большинство современных систем распознавания диктора не учитывают такой неоднородности во входных данных и относятся ко всем записям так, как будто они имеют одинаково высокое качество и достаточную длину. Более того, система может иметь очень высокую степень уверенности в своем решении, когда, на самом деле, лучше было бы дать понять пользователю, что аудио не позволяет надежно принять решение. Цель - построить такую систему, которая могла бы оценивать уровень неопределённости, который несут в себе данные и использовать эту информацию при принятии решения.

В своей презентации спикер рассказала о двух способах использования информации о неопределенности, над которыми она работала вместе с коллегами. Оба подхода модифицируют широко применяемый на практике метод: представление аудио в виде вектора фиксированной длины и моделирование таких векторов с помощью PLDA (вероятностный линейный дискриминантный анализ) модели. В первом случае мы модифицируем PLDA и показываем, что наша модификация позволяет использовать информацию о неопределенности, которая содержится в векторах представляющих аудио фрагменты. Во втором случае мы модифицируем векторное представление аудио так, чтобы в новой форме сохранялась неопределенность входных данных.

Совместно с HITs ТГУ мы организуем открытые научно-технические вебинары о нейронных сетях. С докладами выступают спикеры со всего мира. Вебинары проводятся на русском языке, по вторникам. 

Материалы прошедших и информация о предстоящих событиях на странице: https://www.ntr.ai/webinar.

Модератор и контакт: Генеральный директор НТР Николай Михайловский nickm@ntr.ai.


No items found.

МАТЕРИАЛЫ

СХОЖИЕ ПРОЕКТЫ

Мосэнергосбыт
Российская энергосбытовая компания страны, реализующая свыше 8 % вырабатываемой в России электрической энергии.