Р: Weapons of Math Destruction. 5/5 и 23%.

img_3650Дождались. После книг про Big Data и Small Data мы нашли на полке в Barnes&Noble книгу профессора математики про неожиданные негативные последствия массового применения алгоритмов машинного обучения в жизни.

Кати О’Нил преподавала высшую математику в Barnard at Columbia. Затем ее пригласили работать в самый крутой квантовый хедж-фонд. Как обычно, человек встал на одну сторону, а затем перешел на другую после разочарования.

Поэтому книгу на русском надо называть «Оружие матемассического поражения». Читается без остановки запоем за выходные. Как математикой нечаянно нанести массовый ущерб? Разбираем:

Для начала проговорим, какие фундаментальные сбои мостят дорогу ко злу из добрых намерений. Их три, приведем с реальными примерами:

— Ложные прокси. Например, вы хотите составить перечень лучших вузов, и начинаете набрасывать в рейтинг различные метрики. От количества профессоров на студента до суммы длин всех дорожек бассейнов на гектар. Эти метрики (прокси) являются субъективными, их веса являются определяемыми на глазок и они не означают, что вуз с максимальным количеством нобелевских лауреатов и беговых дорожек будет самым лучшим для карьеры.

— Потерянная обратная связь. Например, вы делаете скоринговую систему для заемщиков. Она самообучаемая, потому что перебирает параметры, предсказывающие, вернутся ли деньги. После многих раундов она уже надежно выбирает тех, кто возвращает деньги. Но проблема в том, что она не видит возвращаемость у тех, кого она отсеяла. В итоге, среди оставшейся аудитории вполне существуют кредитоспособные ребята, которые не имеют шансов.

— Отсутствие окна критики. Например, вы составляете федеральный рейтинг учителей, закладывая туда различные метрики. Если есть спецшкола, где вытягивают проблемных детей, то рейтинг, налаженный на общую аудиторию, покажет, что в этой школе самые некачественные преподаватели, и их надо уволить. Как только рейтинг становится утвержден Министерством образования, у этих учителей нет никаких шансов на апелляцию своей позиции. Ну и все риски потери работы.

Вот же парадокс. Каждая из моделей создавалась с благими намерениями, но в «умелых руках» и кирпич вместо составной части стены становится кувалдой. Что же делать с подобными проблемами. Теперь про варианты решения парадокса.

— Прозрачность и open source. Механика модели / рейтинга становится публичной. Поэтому каждый может поменять веса и вводные. Если рейтинг вуза сделать рассчитываемый явным образом — то таких рейтингов можно составить множество. Но в коммерческой экономике это невыгодно, поэтому решение срабатывает не всегда. Все хотят знать, как Фейсбук или Вконтакт составляет вашу ленту новостей, но никто вам об этом никогда не расскажет.

— Европейская закрытость. Хотите использовать частные данные, то во-первых вы должны получить четкое разрешение. Во-вторых, вы не можете их перепродать, как в Штатах. Поэтому в Европе нет частных библиотек личной информации, тогда как в США есть множество баз данных, которые собраны из разных источников. Поэтому в США у вас может появиться identity theft & identity double, а в Европе проверка бэкграунда не имеет таких рисков, что кто-то роботом в интернете собрал в ваш профиль по-ошибке детали тезки-рецидивиста.

— Грамотность. Нельзя отпускать модель от ее хозяина пользователям. Потому что для них это черный ящик без настраивания. Поэтому они гарантированно применят ее неправильно либо через час, либо через день, либо через месяц. Это неизбежность. А как только модель изготавливается через machine learning, то ее пользователь уже со старта не понимает, и проверить не может. Поэтому модель нельзя отпускать от владельца.

Вывод: условия практически не выполнимы, а три ошибки вверху практически неизбежны, то big data всегда будет иметь существенный риск ошибок и ложных результатов.

Грустно? Да. Избегаемо? Нет. Вы от этого уже пострадали? Да, даже если не знаете об этом. Вы от этого выиграли? Да, даже если не знаете об этом.

В первых 100 страниц 22 закладки или 22% содержательности. В книге 23%. Интересность 5/5

Еще на эту тематику из книг можно прочитать:
Lewis. Boomerang. 5/5 и 22%.
Schilit ‘Financial Shenanigans’ 5/5 и 20%
The Physics of Wall Street. 4/5 и 14%.
Nate Silver ‘The Signal and the Noise’ 4/5
Mayer, Cukier ‘Big Data’ 3/5 и 9%
Nassim Taleb ‘Antifragility’ 3/5 и 8%
Russ Koesterich ‘The Ten Trillion Dollar Gamble’ 3/5

На прошлой неделе опубликовали Р: The HP Way by Dave Packard. 4/5 и 19%.

Все публикации копируются в канал Телеграм.

Позиции в статьях отражают частное мнение автора в частном блоге и не могут быть официальным заявлением или публичной рекомендацией от имени компании-работодателя.