Лучшее в мире распознавание адресов в тексте в 2006 году
Государственное унитарное предприятие, охватывающее своей деятельностью Москву и частично Московскую область и выполняющее городские и пригородные перевозки автобусами, городские перевозки троллейбусами и трамваями, а также заказные перевозки автобусами городского и междугородного класса.

ОПИСАНИЕ ПРОЕКТА

Когда в штате нашей компании появились сотрудники с учеными степенями, мы решили поработать над задачей распознавания именованных сущностей и с помощью технологии адаптивных деревьев решений разработали систему распознавания адресов в тексте.

В далёком 2006 году вокруг внутреннего проекта НТР сформировалась могучая команда программистов, пара из которых даже была с научными степенями: один - доктор наук computer science, второй - защитил кандидатскую по вычислительной лингвистике.

Задачу выбрали революционную на тот момент: Named Entity Recognition, то есть распознавание именованных сущностей, но по отношению к физическим адресам. Замахнулись сделать большой-большой каталог из физических адресов разных компаний, извлеченных из их сайтов. 

Начали работать. Написали паука, который бродил по интернету и собирал всякие интернет-странички. Стали писать распознавание именованных сущностей с  помощью адаптивных деревьев решений. Это тогда было модным направлением.

Писали-писали, не получалось. Писали-писали, не получалось.

В конце-концов решили эту задачку. С помощью этих самых деревьев решений сделали распознавание адресов, которое было на уровне лучших мировых образцов. Инновационная технология автоматически извлекала ключевую информацию с общедоступных веб-сайтов.

Назвали проект QuickHydra. Hydra, потому что был многоглавый как гидра - позволяло искать одновременно в разных поисковиках, а Quick потому что достаточно быстро. 

Сайт QuickHydra работал очень быстро, на нём перечислялись десятки миллионов адресов американских компаний. Этакая динамическая база данных предприятий по всей территории США. На сайте можно было найти компанию и ее адрес, тип бизнеса, номер телефона, адрес электронной почты. Люди приходили и пользовались. Затем мы обучили нейросеть распознавать британские, канадские и русские адреса. Таким образом разработали лучшее в мире распознавание адресов в тексте с помощью адаптивных деревьев решений. 
Стеки разработки
C++
Класс систем
Рекомендательные и скоринговые системы

МАТЕРИАЛЫ

СХОЖИЕ ПРОЕКТЫ

Мосэнергосбыт
Российская энергосбытовая компания страны, реализующая свыше 8 % вырабатываемой в России электрической энергии.