Debido al crecimiento exponencial de las capacidades de la computación, descrito en la Ley de Moore [2] , la cantidad de datos no puede ser un criterio preciso para determinar si es grande. Por ejemplo, hoy los macrodatos se miden en terabytes y mañana en petabytes. Por tanto, la principal característica del Big Data es el grado de su estructura y opciones de presentación.
Una ilustración vívida de big data es la información entrante continua de sensores o dispositivos de grabación de audio y video, transmisiones de mensajes de redes sociales, datos meteorológicos, coordenadas de geolocalización de suscriptores celulares, etc. [3] . Por ejemplo, aquí hablamos sobre cómo PJSC Gazpromneft recopiló y analizó más de 200 millones de registros diferentes de controladores de sistemas de control en pozos petroleros, registros de reinicios de voltaje a partir de registros de emergencia, peculiaridades de la operación de la bomba y características de las condiciones del pozo para formar y probar hipótesis. Sobre las causas de fallas e identificación de relaciones previamente desconocidas en la operación de equipos de bombeo.
Por tanto, las fuentes de macrodatos pueden ser:
- Información corporativa: transacciones, archivos, bases de datos y almacenamiento de archivos y conocer Que es la Big Data.
- Lecturas de dispositivos: sensores, sensores, registradores, etc.
ETAPAS DEL TRABAJO CON BIG DATA
Para obtener una hipótesis de trabajo sobre las causas de situaciones específicas, en particular, cómo se relacionan las fallas de los equipos con las condiciones de suministro de voltaje, o para predecir el futuro, por ejemplo, la probabilidad de un reembolso oportuno de un préstamo por parte de un prestatario privado, el análisis de grandes cantidades de información estructurada y no estructurada se realiza en varias etapas:
Limpieza de datos: búsqueda y corrección de errores en el conjunto primario de información, por ejemplo, errores de entrada manual (errores tipográficos), valores incorrectos de los dispositivos de medición debido a fallas a corto plazo, etc.
Generación de predictores (ingeniería de características): variables para construir modelos analíticos, por ejemplo, educación, experiencia laboral, género y edad de un prestatario potencial.
Construir y entrenar un modelo analítico (selección de modelo) para predecir la variable objetivo (objetivo). Así es como se prueban las hipótesis sobre la dependencia del variable objetivo de los predictores. Por ejemplo, ¿cuántos días es una demora en el préstamo para un prestatario con educación secundaria y experiencia laboral de menos de 3 meses?
MÉTODOS Y HERRAMIENTAS PARA TRABAJAR CON BIG DATA
Los principales métodos para recopilar y analizar macrodatos son los siguientes:
Minería de datos: capacitación en reglas asociativas, clasificación, análisis de conglomerados y regresión;
El crowdsourcing es la categorización y el enriquecimiento de datos por las fuerzas populares, es decir con la ayuda voluntaria de terceros;
Mezcla e integración de datos heterogéneos como procesamiento de señales digitales y procesamiento de lenguaje natural:
- Aprendizaje automático (aprendizaje automático), incluidas redes neuronales artificiales, análisis de redes, métodos de optimización y algoritmos genéticos.
- Reconocimiento de patrones.
- Analítica predictiva.
- Modelado de simulación.
- Análisis espacial y estadístico.
- Visualización de datos analíticos: imágenes, gráficos, diagramas, tablas.