T: Двадцать дискет и big data

Мой первый опыт работы с большими массивами данных начался с дискет. Тех, что три дюйма и по 1.44 мегабайта на каждой. Судьбой я оказался на градообразующем предприятии. Мой босс сказал мне, что есть гипотеза, что качество материалов на входе влияет на качество продукции на выходе. И отправил меня за данными для ее проверки.

Гипотеза очевидная, конечно же, жизнь так и устроена. Garbage in — garbage out. Хорошие материалы — хороший продукт. Осталось добыть данные в эпоху, когда аббревиатуры SAP/ OeBS/ ERP в принципе были особенно не известны, не говоря уж о практическом их применении. Поэтому подход, что сейчас сделаем запрос или найдем специалиста — не работал.

Сначала я пошел к учетчикам, но там ответ был краток и прост, что молодой человек, у нас есть штуки, а в учете данных по качеству входа-выхода нет.

Потом к технарям. Там ответ был еще проще. Мне достали инструкцию шестидесятых годов, а там строго-настрого за подписью главного инженера и профильного института написаны требования к входящим материалам. И ни на шаг в сторону. Инструкция утверждена. Действует. Ну и что, что за несколько десятков лет стандарты ушли вперед.

Отправился в цех в начале технологической цепочки. А там есть ведомости контроля качества на каждый входящий вагон. Бумажные. Но зато на каждую товарную партию есть ключевые параметры качества. Это уже радость. Взяли стажера и он начал с альбома рукописных форм приемки качества вбивать в эксель ряд данных за несколько лет.

Добрался до цеха конца технологической цепочки. А там фанатом-энтузиастом стоял MS Access база данных, в которой на каждую деталь были все ключевые параметры качества. Только вот электронной почты в цеху не было. Пишушего CD-привода не было. Лишь трехдюймовый дисковод. А в базе MS Access лежало порядка миллиона записей.

Мы взяли, купили две пачки по десятку трехдюймовых дискет. Архивнули базу в цеху на самых жестких настройках rar. Разбили на файлы по 1.4 мегабайта и перевезли на заводской маршрутке за пару раз в заводоуправление. Там собрали архив обратно в целый файл. И…

Ну в MS Excel того времени было только 65536 строк, а не миллион, как сейчас. А в файле MS Access лежал миллион строк. Получается, что у нас есть рукодельный MS Excel входящих данных. И огромный MS Access исходящих данных. И отсутствует возможность собрать для удобного регрессионного анализа в один файл. ПОТОМУ ЧТО В ЭКСЕЛЕ ПРОСТО СТРОК МЕНЬШЕ ЧЕМ СТРОК ДАННЫХ.

SPSS на предприятии тоже не было. Поэтому мы сделали простое решение. Мы сделали выборку из MS Access на то количество строк, сколько могло поместиться для анализа. И соединили массив рукозабитых данных с бережно собранным фанатами в цеху на самописном MS Access сплошным набором статистики по каждой детали.

Ну а дальше, как с классической биг-дата:

  • Если вы ее смогли собрать.
  • А затем сумели ее причесать.
  • После этого смогли найти в ней зависимости.
  • И выжать из них эконом эффект.

То ваша задумка удалась.

Поэтому теперь, когда в эпоху биг дата и быстрых интернетов мне говорят, что данных нет. Я вспоминаю, как месяц просто искал на предприятии, кто может что записывать, а затем переносил на дискетах архив и делал из него выборку.

Все же прогресс налицо.

Еще на эту тематику из toolkits и публикаций можно прочитать:
Выводы с визитов на 50 промплощадок.
Математика в бизнесе.
Научить команду корректно строить регрессии.
Big Data. 3/5 и 9%.

На прошлой неделе опубликовали: Т: TCO или Total Cost of Ownership.

Все публикации копируются и выкладываются ботом в канал Телеграм.

Позиция в данной статье является частным мнением автора в частном блоге и не является официальным заявлением или публичной рекомендацией от имени компании-работодателя.