Машинное обучение – это искусство
Интервью на сайте департамента
> Каковы последние тенденции в сфере технологий машинного обучения и в каких направлениях будет развиваться эта область?
Тенденций очень много. Эта область развивается семимильными шагами. Появляется все больше направлений этой деятельности. Очень большое внимание исследователей обращено на вопрос интерпретируемости моделей машинного обучения. Для многих, даже для разработчиков моделей, это «черный ящик»: например, они создали работающую модель, дающую предсказания с удовлетворительным уровнем точности, но как она делает эти предсказания? Этот вопрос в особенности актуален по отношению к нейронным глубоким многослойным сетям. Да, можно взять нейрон, посмотреть его вес, скажем, три. А почему три?
Понимать модели машинного обучения необходимо для того, чтобы лучше их строить. От каких параметров зависит больше всего предсказание или распознавание? Ответ на такие вопросы — это отдельная проблема в сфере машинного обучения. Многие исследования посвящены построению моделей объяснения моделей машинного обучения. Это необходимо для того, чтобы можно было объяснить заказчику, почему одно работает, а другое — не работает, и чего не хватает, чтобы оно заработало.
Еще одно направление — и оно проистекает из предыдущего — это автоматизация процесса построения моделей машинного обучения. Но чтобы автоматизировать процесс, помимо наличия огромного объема вычислительной мощности, мы должны точно знать, как он происходит. Какие факторы влияют на общую производительность? Сейчас мы находимся на уровне ремесленного производства: лепим горшки, какой-то техпроцесс есть, но хочется наладить промышленное производство. Для этого нужно повысить уровень интерпретируемости моделей.
Еще одно интересное направление — это так называемые мультизадачные модели. Часто о машинном обучении говорят как о подобласти искусственного интеллекта, который может всё. Жива еще мечта у исследователей и публики о всесильном искусственном интеллекте, эдаком сверхразуме. Но современные прикладные модели — однонаправленные. Например, она умеет распознавать лица и всё, больше она ничего не умеет делать. В последнее время активизировались работы по построению больших, многослойных нейронных сетей со сложной структурой, которые теоретически могут решать несколько задач: например, распознавать людей по голосу и выполнять машинный перевод. Исследователи обнаружили, что в определенных архитектурах происходит синергетический эффект. Например, если обучить модель распознавать лица, то почему-то это немного улучшает производительность в машинном переводе. Таким образом внутри больших и сложных систем складывается какая-то онтология реального мира. Но позволить себе заниматься подобными исследованиями могут только самые большие и крупные компании, располагающие огромными вычислительными мощностями.
Изменится ли ситуация с появлением вычислительного оборудования нового поколения, более дешевого и мощного?
Идея ускорять процесс обучения моделей аппаратным образом возникла давно. Уже больше пяти лет это направление активно развивается. Большинство исследователей пользуется специализированным аппаратным обеспечением, в том числе специальными графическими картами. В этой сфере лидер — Nvidia, которая начала выпускать специализированные видеокарты для машинного обучения. Были попытки создать специальные процессоры, которые заточены под машинное обучение, и это на порядок ускорит процесс обучения моделей. Но как оказалось рынок для этого не очень большой, потому что это очень оригинальный технический процесс. На практике компаниям придется выстраивать всю технологическую линию заново с нуля. Есть компромисс — это специальные компьютерные платы, предназначенные для огромных параллельных численных расчетов. Они раньше использовались исключительно для графики в компьютерных играх, но потом ученые пришли к выводу, что они могут быть приспособлены для параллельных вычислений в машинном обучении.
Я думаю, что это направление будет развиваться и дальше, потому что машинное обучение входит во все сферы жизни, но быстрого развития ждать не стоит. Сначала машинное обучение должно стать настолько распространенным, чтобы оправдать расходы на технологическое производство новых аппаратных устройств.
В чем сложность распознавания речи?
В последние лет пять эта сфера сделала огромный шаг вперед, особенно с развитием голосовых помощников. Самая главная трудность — в отделении сигнала от шума. Наше ухо эволюционировало и создано, чтобы слышать речь друг друга. Микрофон воспринимает всё, что происходит вокруг. Вторая трудность — человеческие голоса обладают высокой вариативностью. Еще одна сложность состоит в последующем анализе распознанных звуков.
На каждом этапе — выделении сигнала из шума, распознавании отдельных звуков — может быть много ошибок, поэтому после них система проводит синтаксический и семантический анализ. Например, система распознала набор звуков, догадалась по паузам, что вот этот набор звуков — это отдельное слово, после чего она проверяет это слово в словаре. Если она находит это слово в словаре, то всё хорошо, а если нет — то она попытается найти замену этому слову. Но естественные языки — очень сложные, вариативные, допускающие множество форм слова, исключений и правил. Технология распознавания речи и ее преобразования в текст только в процессе развития и еще далека от зрелости.
Я думаю, что в ближайшие годы мы увидим большой прогресс в этом направлении. Этому способствует, прежде всего, интерес к этой технологии со стороны бизнеса. Это очень коммерчески значимая технология. Распознавание речи сейчас на порядок лучше, чем было пять лет назад, и станет на порядок лучше еще через лет пять. На этом сейчас сосредоточено очень много внимания крупных корпораций.
В каких приложениях чаще всего компании хотят использовать технологию распознавания речи?
Самый мощный драйвер роста этой технологии — мобильные голосовые помощники. Они есть у большинства крупных корпораций. Сейчас появляется интерес к этой технологии со стороны компаний, пытающихся оптимизировать процесс общения с клиентами. Но пока ее возможности там достаточно ограниченны. Человек сразу понимает, с кем он общается — с роботом или человеком.
Текстовые помощники в этом отношении более эффективны, потому что и сама технология распознавания текста развивается дольше, чем распознавание речи, и в целом распознавать текст гораздо легче, потому что мы убираем самое ошибкоёмкое звено — преобразование звучащей речи. Интерес к чатботам есть у большинства наших заказчиков среди бизнеса.
Другое дело — голосовое управление, голосовые команды, умные колонки и другие подобные решения. Они обладают большей точностью распознавания речи, потому что используют ограниченный набор слов и команд.
Сейчас некоторые компании вводят идентификацию клиентов по голосу. Насколько это безопасно?
Первые случаи применения голосовой идентификации появились еще лет 50–60 назад. Но за все это время технология не получила массового коммерческого распространения.
Если мы говорим про голос как один из биометрических инструментов идентификации и аутентификации человека, есть плюсы и минусы. Конечно, это менее безопасно, чем сканер отпечатка пальца или распознавание по лицу с помощью биометрического сенсора. Тем более, голос у одного и того же человека может меняться в зависимости от его физического состояния, времени суток, настроения. Голос можно подделать, можно записать заранее какую-то речь и с ее помощью попытаться обмануть систему.
Но если голосовая идентификация происходит в сочетании с другими инструментами — парольными фразами, ответами своим голосом на неожиданные вопросы — это хороший способ усилить защиту.
У этой технологии есть преимущество — не нужно специального сенсорного датчика. Голос можно записать с помощью простого микрофона. Но, на мой взгляд, звездный час этой технологии немного упущен. Сейчас у большинства смартфонов есть возможность передачи определенной биометрической информации, более точной, чем голос.
Решения на базе машинного обучения чаще всего доступны для крупных компаний с большими бюджетами. Когда технологии будут доступны среднему и малому бизнесу?
Да, тенденция к демократизации прослеживается, но всё упирается в человеческий фактор. Сейчас построение систем машинного обучения — это индивидуальный труд команды исследователей. Бизнес и люди, не связанные с разработкой в этой сфере, часто представляют себе искусственный интеллект как некую машину или программное обеспечение, которое установили — и все данные тут же начинают интеллектуально обрабатываться. Такая приставка, которую втыкаешь, включаешь и начинается машинное обучение, которое всё улучшает. На самом деле создание моделей машинного обучения — во многом больше искусство, чем точная наука и инженерия. Когда ставится какая-то задача, процесс проектирования чаще всего происходит с нуля. В команде должен быть не только data scientist, но еще и data engineer, который занимается поставкой и очисткой данных, который знает, где эти данные взять, и сотрудник, связанный с процессом, который пытаются улучшить с помощью машинного обучения, который понимает значение этих данных. В больших компаниях — это проблема. Часто сталкиваешься с тем, что компании-заказчики не могут предоставить определенные данные, хотя у них они имеются.
Разработав какую-то систему, нельзя просто взять и перенести на другую задачу, даже если она очень похожа. Все равно придется «обрабатывать напильником».
В машинном обучении есть стандартные задачи, которые в принципе уже понятно, как решать: задача распознавать голос, распознавать рукописный текст. Тут есть готовые решения. Многие прикладные задачи можно разложить на кубики стандартных задач. Но редко когда модели ограничиваются только этими задачами.
Сфера машинного обучения еще не настолько зрелая. В ней недостаточно стандартизации — и это еще одно направление, которое сейчас медленно, но развивается. Наработки в этом направлении ведут Microsoft, Google, Facebook, но у каждой пока свое видение. Если будут стандартные форматы, то модели машинного обучения можно будет собирать как компьютер из отдельных деталей.