Михаил Нестор: AI or not AI

Misha Nestor_Office

Digital Future проводит 15-17 апреля AI Hackathon, на котором участники попробуют разработать системы с элементами искусственного интеллекта.

Первый анонс мероприятия мы опубликовали пару недель назад, и за это время получили десятки вопросов, уточнений и пожеланий. На самом деле, очень приятно, что хакатон вызвал такой живой интерес. 

Одна из самых популярных категорий вопросов: что считается AI? Развернутый ответ дал в своей колонке на Medium Михаил Нестор, создатель проекта LifeTracker – первого в мире искусственного интеллекта, который помогает планировать жизнь. С разрешения Михаила мы публикуем текст колонки на Thinking Investor.


В последнее время AI стало самым модным словом в мире стартапов. К тому же, меня часто стали спрашивать об этом в связи с нашим проектом. И наконец, это будет уместно в контексте грядущего AI-хакатона.

Статистика и нейронные сети

Связано это вовсе не с прорывами в сфере науки, а чаще всего с ростом вычислительных мощностей на квадратный миллиметр. Алгоритмы, которые чаще всего сегодня используют в сфере машинного обучения, существовали и ранее. Чаще всего все базируется на двух подходах:

1) Нейронные сети

2) Статистические методы

…и различных их комбинациях.

Статистические методы — это именно то, что называют Big Data. Так работают рекомендационные движки (вы купили на Amazon книгу, вам рекомендуют похожую на основе схожих паттернов покупок у других покупателей до вас). То есть ваш профиль сравнивают с другими профилями. То же самое с таргетингом рекламы — вы попадаете по определенным параметрам в один из сегментов ЦА, и вот вам показывают то, что рекламодатель посчитал релевантным для вас.

big-data

То же самое для трендов в целом — на основании прошлого поведения и данных (например, транзакции) сделать прогнозы в будущее. Например, для принятия бизнес-решений. Это чаще всего кластеризация и регрессия как методы. Именно для этих целей уже существуют целые открытые библиотеки (для Python, R, Matlab и тд), и все, что вам остается — обзавестись большим массивом полезных данных, подобрать нужные методы анализа, и настроить их. Огромный опыт в такого рода анализе и выводах является основным активом рекомендационных движков Amazon, Netflix и т.д.

Вторая часть более секси. Это нейронные сети. Их принцип работы схож с работой нейронов в человеческом мозге. Потому данная область так сильно будоражит умы и фантазию специалистов. Теорию можно почитать в Википедии или нагуглить. Самое важное в нейронных сетях — это то, что никто не знает, что происходит внутри них, но их можете чему-то обучить даже вы.

Суть в том, что вы в течение долгого времени подаете на вход такой системы большое количество промаркированных данных. Например, вот картинка с цифрой девять, вот картинка с цифрой девять немного другим почерком и так далее. Система делит цифру девять на определенное количество участков («клеточек» для упрощенного понимания), и с каждым из этих участков связан искусственный «нейрон». Каждый раз, когда он «выстреливает» (активизируется) в нужный момент (то есть это таки цифра девять), система это запоминает, в итоге настраивая вес связей между нейронами (йодами). В итоге система с огромным количеством таких элементов может путем массивной работы запомнить любые сочетания раздражителей.

Именно на нейронных сетях работает распознавание текста, распознавание речи, и распознавание изображений.

Neural-Network

Новая эра (как считается) в этом поле наступила с появлением так называемого deep learning. Если убрать всю эзотерику и пиар DeepMind и Яна ЛеКунна вокруг темы (а 50+ ребятам, имеющим PhD в этой теме, сейчас это ох как выгодно, можно уйти со скучной канадской или менее скучной (но все же) нью-йоркской кафедры в частный сектор на многозначную зарплату), так вот если убрать весь туман, то deep learning это не что иное, как те же нейронные сети, но в несколько слоев/этапов.

То есть у вас есть отдельная целая сеть для распознавания к примеру уха кота, отдельная сеть для распознавания лапок, и так далее. Все вместе эти сети работают на разных уровнях абстракции — от линий/паттернов через типы деталей до определения объекта в целом — и работают естественно лучше, чем просто однообразная нейросеть. Естественно, кроме идеологии есть масса деталей реализации, и здесь уже, конечно, у каждой компании есть масса наработок, которые и отличают их эффективность в определенных задачах.

Что необходимо понимать среднему человеку в этой теме, так это то, что данная технология применима для узких задач (да, я не согласен с молитвами вокруг последних побед AlphaGo): распознавание речи, образов, текста, паттернов данных. А также то, что один цикл обучения на нескольких десятках или сотнях тысяч ядер (процессоров) может длиться несколько недель. Конечно, для простеньких задач вы можете на недельку-другую оставить думать и свой ноутбук, но в целом масштаб необходимых вычислительных мощностей и времени на обучение именно такой. После этого вы можете подключать к уже обученной сети (ее копиям) различные интерфейсы запросов и она будет весело сортировать определенные виды данных или давать довольно точный ответ на вопрос, находящийся в пределах предметной области, представленной в обучающем материале.

И здесь мы подходим к самой интересной части, которая собственно и касается AI.

Искусственный интеллект — в первую очередь интеллект (хоть какой-то)

Чтобы не уходить в академическую риторику, можно сократить определение AI как системы, способной генерировать поведение, приближающее ее к достижению собственных целей. Можно сюда добавить еще способность к целеполаганию, но это будет самообманом, поскольку правильно будет это назвать способностью генерировать субцели, то есть делать декомпозицию задачи. Цель «выжить» и «кушать» мы с вами не выбирали, дорогие человеки, потому не нужно требовать от машины то, чего не могут люди.

Так вот, нейросети категорически не годятся в чистом виде для целеполагания и генерирования поведения. Это методы, отлично работающие для периферии — сенсорного восприятия. Но вы не можете загрузить весь мир, со всей онтологией, всеми объектами среды (каждый в десятках тысяч копий и с соответствующим тэгом), не говоря уже о динамическом поведении (которое сильно отличается от картинок котиков по сложности). Как минимум, некому маркировать все эти данные. Частично вопрос решается с помощью интернет — и именно так известный IBM Watson учился (училась? училось?). Но далеко не полностью. Как минимум, пока не хватает вычислительных мощностей для всего.

AI

Здесь заканчивается часть знаний, которую можно найти в популярных блогах и на TechCrunch. И начинается то, о чем распространяются меньше. А именно — тема когнитивных архитектур и кодифицирования знаний из области человеческого поведения.

Когнитивные архитектуры — это попытки смоделировать полный когнитивный процесс — от восприятия до моделирования мира до принятия решений (согласно существующей и обновляемой в реальном времени системы целей) и до генерирования поведения, в том или ином виде. Именно используя специфические когнитивные архитектуры, работают автономные дроны и так далее. Это то, что потенциально позволяет принимать решения, для которых в прошлом опыте не было готового референса. Не говоря о том, что не было десяти тысяч аналогичных случаев. Это немного сложнее.

Тема же моделирования процесса принятия решений человеком, не качественного а количественного моделирования, еще сложнее. Этим занимаются исследовательские центры при больших университетах, и военные. Эта тема слишком объемная и специфическая для краткого обзора. И на эту тему публикации не так часто делаются. Одно, когда вы читаете о победе машины над человеком в шахматы, викторину или го — восторг (хотя некоторым мерещится скайнет уже на этом этапе). Другое, когда вы читаете что алгоритмы, скажем, Facebook могут прогнозировать ваше поведение, реакции и когда вы что запостить на месяц вперед. Здесь ваш восторг утихает и вам становится страшно. Но более типичная реакция — не страх, а агрессия. Никому не приятно осознавать что он не уникален и его поведение может быть прогнозировано на много дней вперед.

На этой мысли я вас пока оставлю, давайте подведем промежуточные итоги.

Что такое AI в продукте?

В целом, что сейчас традиционно называют AI? Как правило, с горячей руки журналистов в эту корзинку идет все, что касается ML (machine learning), NLP (natural language processing), neural networks и большая часть Big Data (когда под Big Data денег уже не дают, это начинают называть AI). Также в AI записывают любую задачу, которую до этого конкретного стартапа делали люди.

Neural-Chip

Например, проверить мой календарь, ваш календарь, найти свободные таймслоты, предложить первый совпадающий таймслот как удобное время для встречи меня с вами. Обычно это делает живой календарь или мы с вами долго переписываемся в мессенджере. Таких электронных консьержей вы можете найти много на product hunt, один и наиболее нашумевших (но еще не запустившихся, недавно получил очередное письмо от них в ключе «построить AI это очень сложно друзья, а пригласите еще своих друзей с фейсбук зарегистрироваться у нас на сайте, пока мы не выпустим продукт») — это x.ai

Что касается последнего примера, задайте себе вопрос — какие именно поведение генерирует система? Есть ли в этом неожиданный компонент? Нужно ли системе принимать решение? Очень хочется раскритиковать такую «AI-технологию», да? Но формально — система генерирует поведение. Она воспринимает ваш запрос, смотрит в некие данные (календари), сообщает вам о подходящем времени для встречи. То есть, приносит пользу. Но никаких нейронных сетей и диплернинга. Разве что вы начнете говорить все это голосом.

В целом, я подвожу вас к достаточно простому определению любого «потенциально AI» стартапа или продукта. Стоит ответить себе на один вопрос: генерирует ли эта система новое, не заложенное в нее поведение? Способна ли она воспринимать поступающие (из среды, от пользователя) данные, адаптироваться к поведению пользователя и среды, обучаться (менять свое поведение ото дня к дню)? Если ответы да — у вас потенциально AI-проект. Ведь червяк или птичка — это тоже живое существо, а поведение их довольно примитивно, но мы не отказываем им в определенном уровне интеллекта.

Symbiotic AI

Пользуясь случаем, хочу.

Наша (LifeTracker) позиция состоит в понимании потенциала AI технологий как дополняющих, а не заменяющих человека. Это нечто, что может — безусловно — понимать человека и учиться у него, но не действовать полностью вместо него. Мы любим говорить об Enhanced Intelligence, или Augmented Intelligence. Здесь нет никакой магии. Ваш ежедневник помнит больше чем вы уже сегодня. Обладает ли он интеллектом? Вряд ли. Обладает ли он свойствами памяти? Однозначно. Ваши часы отсчитывают время лучше чем вы. Считаете ли вы их более интеллектуальными, чем себя самих? Вряд ли. И все же одну задачу они выполняют лучше. Они — это инструменты, расширяющие ваши возможности. И если часы или блокнот — это довольно тривиальные (на сегодня) устройства, то для управления более тонкими и специфичными аспектами нашей жизни нам нужно более сложные, новые инструменты. Эти инструменты будут обладать свойствами Symbiotic AI — дополнять вас, понимать вас, управлять миром вокруг вас в ваших интересах.

LifeTracker

В этом ключе — понимание поведения индивида, защита его личных данных, стремление к реализации его целей и задач более или менее широком домене — мы и предлагаем думать в рамках предстоящего хакатона или в рамках идей AI продуктов в целом.

Существует большое количество открытых технологий, и остается только пользоваться ими. Изобрести новый алгоритм распознавания речи — вещь хлопотная и требующая больших инвестиций и/или времени. Если вы хотите сделать что-то стоящее уже сегодня, то главное — ваша идея, в чем именно вы хотите облегчить жизнь человека, сделав его опыт взаимодействия с сервисом, приложением, устройством — более индивидуализированным и адаптивным.

Напоследок для вашего вдохновения я приведу несколько примеров.

Примеры сфер применения AI/ML

Естественный интерфейс (или гибридные интерфейсы) к уже существующим сервисам и устройствам — речь, текст (чатботы), микс с GUI. Нейроинтерфейсы — еще интереснее. Сири живет в этом разделе, это понятный всем пример (хотя в этот момент я всегда люблю повторять о том, что Сири сейчас может в 10 раз меньше, чем 8 лет назад; именно поэтому творцы Сири ушли из Apple и создают viv.ai — с поддержкой тех же инвесторов что поддержали их с Сири, разве что без DARPA).

Адаптация интерфейса, запоминание выбора. Это тонкая неизведанная пока сфера. Вдумайтесь только — вы к примеру пять лет без перерыва каждый день пользуетесь одной и той же копией аутлука или Ворда на рабочем месте. Спустя пять лет, кнопки и функции, которыми вы никогда не пользуетесь, все еще у вас в видимом интерфейсе, а функции, за которыми вы раз за разом ходите в меню, до сих пор не появились в виде видимых кнопок-иконок-шорткатвов. Я бы купил плагин, адаптирующий интерфейс под меня — я не люблю ничего настраивать вручную (да, я работаю не на линуксе — кстати, в 2015 по данным Stack Overflow самой предпочитаемой ОС разработчиков впервые стала MacOS вместо Линукса).

Рекомендации контента. Тема curated content очень горяча сейчас, если вы научитесь предлагать людям (начните с себя) то, что им действительно интересно почитать-посмотреть, вы принесете много пользы миру (и станете довольно богатым, если ничего в термшите не пропустите). Это касается как редакционного контента (созданного профессионалами;), так и UGC.

Рекомендация продуктов. Умный e-commerce. Здесь все ясно — предугадайте что, скорее всего, понравится покупателю и что он купит — и вы молодец.

Проактивное поведение сервисов и устройств. Пример — когда Google Now или родной календарь iPhone говорят вам выехать на полчаса раньше на следующую встречу, потому что пробки. Вы конечно уже многое сказали им (место и время следующей встречи. текущая локация), но все равно эффект вау присутствует. И польза пользователю;).

Атвоматизация функций поддержки, кол-центров, продаж. Убрать людей с монотонных должностей.

Понимание потребительского поведения. Анализ эмоций (уже делают всевозможные треккинговые системы). Анализ упоминаний. Анализ реального поведения и его причин, поиск корреляций. Это опасная зона, здесь легко уйти в обычную статистику, которой занимается уже большой бизнес, сюда вам не попасть.

Автоматизация исследований и сбора/анализа данных. Сделайте следующий Palantir, но еще умнее или в специфической теме — научитесь автоматически понимать архивы данных продаж, статистику болезней или правонарушений, прогнозировать подобные события по неполным паттернам данных.

Это только несколько направлений, не упоминая о робототехнике(роботам нужны мозги!), автономных устройствах (дроны, автомобили), IoT (те же устройства с сенсорами и способностью генерировать поведение — например, включать свет или вашу любимую музыку) и т.д.

Удачи!

Пред. След.