Tagged: сбор данных

T: Двадцать дискет и big data

Мой первый опыт работы с большими массивами данных начался с дискет. Тех, что три дюйма и по 1.44 мегабайта на каждой. Судьбой я оказался на градообразующем предприятии. Мой босс сказал мне, что есть гипотеза, что качество материалов на входе влияет на качество продукции на выходе. И отправил меня за данными для ее проверки.

Гипотеза очевидная, конечно же, жизнь так и устроена. Garbage in — garbage out. Хорошие материалы — хороший продукт. Осталось добыть данные в эпоху, когда аббревиатуры SAP/ OeBS/ ERP в принципе были особенно не известны, не говоря уж о практическом их применении. Поэтому подход, что сейчас сделаем запрос или найдем специалиста — не работал. Читать далее

Рецензия: Big Data 3/5 и 9%

Термин Big Data не имеет сложившегося определения. Но последние три года он активно используется где угодно и где неугодно. Одноименная книга использует два определения. Одно логически неправильное, другое логически правильное. Первое: «Большие данные — это то, что можно сделать по-большому, и нельзя сделать по-маленькому». Второе: «Когда выборка данных для анализа равна генеральной совокупности».  img_2456

Первые 100 страниц имеют 8 закладок, или 8% содержательности. Всего на 205 страниц 19 закладок, или 9% содержательности. Оценка 3/5.

Чтобы попытаться уйти от критики, автор сразу делает оговорку, что причинно-следственные связи Big Data не интересуют, а только корреляции.

Почему автор игнорирует тематику причинно-следственных связей между входами больших данных и выходами из их анализа? Две причины: когда вводных и выводных параметров тысячи-миллионы, то попробовать объяснить найденную корреляцию весьма затруднительно; также вполне вероятны случайные корреляции, которые объяснять нет смысла. Поэтому проще игнорировать.

Читать далее

Книга: Big Data и Small Data

img_2428Не удержался, взял две книги с антонимами в названиях. Надеюсь, контраст себя оправдает. Я ищу ответ на практические вопросы по применению Big Data — от проблем сбора данных (попробуйте расставить узлы учета на производстве в 13 переделов) до ложных выводов на случайных корреляциях. Термин Big Data уже притерся, сейчас посмотрим на Small Data также. Рецензия с прагматичными выводами на следующей неделе.