seoded (seoded) wrote,
seoded
seoded

Нейронные сети наносят ответный

Оригинал взят у plakhov в Нейронные сети наносят ответный
Вчера побывал на интересном докладе мистера Yann LeCun. Докладчик рекламировал техники, известные под собирательным названием Deep Learning, и со сцены показывал фокусы realtime-распознавание компьютером разных предметов. Наводил по очереди на них камеру ноутбука, и тот уверенно опознал пульт управления, микрофон, дисплей, докладчика и прочие предметы; сколько именно вещей он умеет узнавать, осталось тайной, но, судя по слайдам, никак не меньше пары десятков, что уже вполне ок для многих практических применений. Потом прямо на лету, за пару секунд и пару кадров, обучил его отличать себя от случайного человека из зала. Случайным человеком оказался м-р Борковский, руководитель Yandex Labs. Этот фокус я "разгадал": на LeCun'е была белая рубашка, а на Борковском - клетчатая тёмная, так что черты лица тут ни при чем; но такое лихое распознавание даже и "униформы" - все равно очень круто.


Лица, впрочем, тоже можно

Ещё он показывал фантастический боевик документальный фильм о том, как мобильный робот, похожий на Wally, но конструируемый по заказу DARPA, при помощи одной картинки с камеры (без всяких там лазерных дальномеров и прочего читерства) уверенно чувствует себя в настоящем лесу, объезжая на скорости деревья и прочие препятствия, а также солдат людей. Я не очень понимаю, о чем себе думает ВВПутин сотоварищи, или кто там у них думает о войнушках: при сохранении текущих тенденций пора готовиться к войне призывников против роботов из "Терминатора", при этом задача создания последних, кажется, окончательно переходит в разряд "чисто технических" (грубо говоря, ядро программы, которая управляла тем Wally, можно скачать бесплатно в исходниках).

Интересное свойство, которое мне очень понравилось: если обучить систему на большом количестве изображений, то после этого новым задачам распознавания она сможет быстро учиться всего по нескольким положительным примерам (прозвучало число 6), а 99% "знаний" будет переиспользовано. 6 положительных примеров в жизни легко получить, просто посмотрев на интересующий нас предмет под несколькими углами.

Помимо потенциальных применений, во всём этом очень интересны ещё две вещи.

Во-первых, проделывает всё это нейронная сеть, обучаемая обратным распространением ошибки. Не совсем многослойный персептрон, правда, а более хитрая штука, в связность которой уже хитрым образом зашито "знание" о 2d-топологии, но всё же штука вполне бионическая, аналоги её в зрительной коре легко представимы, и эволюционное появление такой штуки тоже (разве что процесс обучения первых слоёв в дикой природе происходил, скорее всего, не обратным распространением ошибки, а случайным блужданием, но это снижает эффективность лишь в константное число раз). Выражение "нейронная сеть" в начале 2000-х себя изрядно дискредитировало, но, как это с ними всегда происходит, теперь этим выражением опять называется новая штуковина, и в задачах распознавания речи и изображений она действительно выигрывает у прочих подходов (в том числе AdaBoost-style) с большим запасом. Похоже, что "нейронные сети" с хитрой connectivity - таки очень мощный (и очень простой) класс методов (я уже когда-то был изрядно удивлен их мощью в классификации развивающихся во времени процессов, а теперь ещё и это).

Во-вторых, интересно, что исходная статья написана в 1998 году. Ничего принципиально нового за эти 15 лет не случилось: ну, подобрали правильные настройки, посоревновались на разных dataset'ах, переписали всё на GPU, написали статей и демок. При этом Deep learning превратился в "модную тему" гораздо позже, по ощущениям, в 2010м, а доползает до "производства" (типа поиска по картинкам в интернете или ОБЧР) только сейчас. С gradient boosting, насколько я себе представляю, всё происходило примерно за такие же сроки. Константа "15 лет от статьи до production" плохо объяснима с материалистической точки зрения: причинами типа "надо в статье разобраться, переписать код в соответствии с промышленными требованиями, и подобрать настройки" можно объяснить только промежуток времени на полтора порядка меньше.

Причины, кажется, чисто социологические: количество лжеученых*, занимающихся чепухой, и публикуемого ими компетентно выглядящего мусора таково, что отфильтровать из этой мути жемчужины почти невозможно. Приходится ждать, пока автор, нимало не отчаиваясь, например, выиграет парочку competition'ов, выступит на нескольких ежегодных конференциях, постепенно начнет собирать вокруг себя коллег, вдруг осознавших, что это не привычный полубред, и т.п. Ситуация осложняется тем, что и лже-competition'ы, и лжедоклады, мягко говоря, тоже не редкость. Интересно, это только в machine learning/information retrieval так (не думаю: с чего бы этим областям быть уникальными?), или в медицине/физике/whatever точно так же?

--
* Под "лжеучеными" следует понимать не только тех, кем занимается (занималась?) комиссия РАН по лженауке, но и 90% респектабельных, пользующихся LaTeX'ом, и публикующихся в реферируемых журналах.

Tags: на подумать, технологии
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments