Рецензия: Big Data 3/5 и 9%

Термин Big Data не имеет сложившегося определения. Но последние три года он активно используется где угодно и где неугодно. Одноименная книга использует два определения. Одно логически неправильное, другое логически правильное. Первое: “Большие данные – это то, что можно сделать по-большому, и нельзя сделать по-маленькому”. Второе: “Когда выборка данных для анализа равна генеральной совокупности”.  img_2456

Первые 100 страниц имеют 8 закладок, или 8% содержательности. Всего на 205 страниц 19 закладок, или 9% содержательности. Оценка 3/5.

Чтобы попытаться уйти от критики, автор сразу делает оговорку, что причинно-следственные связи Big Data не интересуют, а только корреляции.

Почему автор игнорирует тематику причинно-следственных связей между входами больших данных и выходами из их анализа? Две причины: когда вводных и выводных параметров тысячи-миллионы, то попробовать объяснить найденную корреляцию весьма затруднительно; также вполне вероятны случайные корреляции, которые объяснять нет смысла. Поэтому проще игнорировать.

Big Data рассматривается для интернет-бизнесов и интернет-статистики, тогда как прагматичный вопрос заключается не в том, какие данные имеет Гугл по своим пользователям. А то, какие данные можно использовать за пределами интернета – в частности, на производственной практике, где ERP может собирать не меньший массив информации для анализа. Но автор интернетчик, поэтому книга остается весьма однобокой. Хватит с критикой, пора к делу.

Big Data не имеет гарантий одноформатности входящей информации. Данные рваные, разноплановые и необработанные. Поэтому порядок работы с ними отличается от академических исследований. Количество, предполагается, заменяет качество, так как позволяет вычленить в общем “алмазы”. Нужно найти нелегальные денежные переводы – Big Data подход выделит их в общем массиве банковских транзакций из-за их необычности в целой картине.

Big Data противоречит академической логике, подразумевающей, что за каждым событием стоит теория, объясняющая его. В случае с моделями Big Data исследователи не в состоянии объяснить, почему компьютер выдал именно такое решение к ситуации. Кредитный рейтинг заемщика зависит от его постов в Твиттере, но объяснить это исследователь-хозяин модели зачастую не в состоянии. Поскольку принимается аксиома “корреляция важнее причинности”, то предлагается брать на веру. Модель же работает.

Big Data есть у многих крупных социальных сетей и поисковиков, но как из нее выжимать выводы, знает не каждый. То есть установка алгоритмов не означает, что у вас появляется печатный станок. Просто случайно появляется некий результат, который повторяется снова и снова, и – вдруг он имеет прагматичный результат. Даже Твиттер аутсорсит анализ данных Big Data, поскольку сам уже не справляется.

Big Data дает полезность, если ее сделать открытой, тогда вдруг кто-то случайно находит в ней интересные результаты. Когда администрация Обамы стала выкладывать всю возможную статистику на data.gov, то через какое-то время внешние интерессанты стали находить в ней занимательные корреляции. Это и возможность, и риск одновременно.

В работе с Big Data есть три вида фирм. Первые имеют данные (типа сайта по продаже билетов). Вторые умеют данные обрабатывать (то есть консультанты). Третьи умеют извлекать из них пользу (те, кто на этом зарабатывают).

Ключевая проблема Big Data – нерешенные вопросы тайны частной жизни. Несколько фотографий, постов и логинов в интернете, и вы уже идентифицированы даже при использовании VPN или анонимайзера. Простота сбора данных про интересы, выборы, местонахождение и уровень благосостояния отдельного человека радикально отличается от десятилетней давности. Аналогично, можно восстановить историю передвижений, действий и поступков. Пока юридических решений по данному вопросу нет. Компании включают оговорки по использованию частных данных, но только отдельные страны регулируют этот вопрос всерьез (например, Германия).

Как вывод, дальше будет только больше. Поэтому пора приготовиться к миру, в котором про каждого будет известно больше, чем мы когда-либо привыкли. Цвет и дата покупки вашей зубной щетки известен вашему магазину вместе с вашим кредитным рейтингом.

Nassim Taleb ‘Antifragility’ 3/5 и 8%
Arnold Schwarzenegger ‘Total Recall’ 4/5
Todd Buchholz ‘The Price of Prosperity’ 4/5
Nate Silver ‘The Signal and the Noise’ 4/5
Carmine Gallo ‘Talk Like TED’ 4/5
Arthur C Clarke ‘The City and the Stars’ 5/5
Russ Koesterich ‘The Ten Trillion Dollar Gamble’ 3/5
Shull ‘Market Mind Games’ 2/5
Liker Hoseus ‘Toyota Culture’. 6/5 в порядке исключения
Klaus Schwab ‘The Fourth Industrial Revolution’ 3/5
‘Черчилль. Величайший из британцев’ 3/5
Galifianakis ‘If You Loved Me’ 5/5
Soros ´New Paradigm for Financial Markets´ 3/5
Harry Harrison ‘Father to Daughter’ 5/5
Harry Harrison ‘Father to Son’ 5/5
Diego Enrique Osorno ‘El Mexicano Más Rico Del Mundo’ 4/5
Roubini, Mihn ´Crisis Economics´ 5/5
David Wessel ‘In Fed We Trust’ 4/5
Jack Welch ‘Winning’ 5/5
Joseph Burgo ‘The Narcissist You Know’ 4/5
Кирилл Голубков ‘Потерянный рай’ 5/5
David Hunt ‘The Improbability Principle’ 4/5
Natasha Stout ‘The Sociopath Next Door’ 5/5
Brian Christian & Tom Griffiths ‘Algorithms to Live By’ 4/5
Jordan Ellenberg ‘How Not to Be Wrong’ 4/5
Andrew Bielat ‘Profit Hawks’ 1/5
Kevin Kelly ‘The Inevitable’ 5+/5
Уголовное право. Общая часть 3/5
George W Bush ‘Decision Points’ 5/5
Paolo Coelho ‘Adulterio’ 2/5
Malcolm Gladwell ‘Outliers’ 5/5
John Kounios, Mark Beeman ‘The Eureka Factor’ 3/5
Randall Munroe ‘What If?’5/5
Ася Казанцева «В интернете кто-то неправ» 4/5
Михаил Зыгарь «Вся кремлевская рать» 5/5
Patrick Lencioni ‘The Five Disfunctions of a Team’ 5/5
‘Steel’s contribution to a Low Carbon Europe’ 2050 5/5
Stephen Hawking and Leonard Mlodinow ‘The Grand Design’ 4/5
Alan Greenberg ‘Memos from the Chairman’ 5/5
Paolo Coelho ‘Once Minutos’ 2/5
Donald Trump ‘Crippled America’ 4/5
Paolo Coelho ‘El Demonio y Señorita Prym’ 3/5
Sarah Knight ‘The Life Changing Magic of Not Giving a F’ 5/5

 

 

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s