#0004 Quail data: ¿data o data?

#0004 Quail data: ¿data o data?

Quail Data 0004 - ¿data o data?

Sergio #1: Faker - Un paquete de Python para crear datos falsos.

  • “Faker es un paquete de Python que genera datos falsos para usted. Ya sea que necesite arrancar su base de datos, crear documentos XML atractivos, completar su persistencia para hacer una prueba de esfuerzo o anonimizar los datos tomados de un servicio de producción, Faker es para usted.”
  • Nombres, códigos de barras, puntos geográficos (lat/long), tarjetas de crédito, nombres de puestos de trabajo, curps, hasta CSVs

Rodo #2: mPyPl - Biblioteca de tuberías monádicas para Python

  • mPyPl es una biblioteca que simplifica todas las tareas de procesamiento de datos en Python, al introducir un concepto de canalización funcional. Utiliza la sintaxis de tubería proporcionada por el paquete Pipe.
  • Se basa en tres ideas principales:
  • Usa técnicas de programación funcional y tuberías “flojas” basadas en el paquete Pipe
  • Utiliza generadores que producen flujos de diccionarios mdict, que “fluyen” a través de la tubería
  • Utiliza una pequeña cantidad de operaciones básicas que operan en esos campos, ocultando la complejidad de la implementación interna
  • Ejemplo:
  • import  mPyPl  as mp
    images = (
    mp.get_files('images',ext='.jpg')
    | mp.as_field('filename')
    | mp.apply('filename','image', lambda x: imread(x))
    | mp.apply('filename','date', get_date)
    | mp.apply(['image','date'],'result',lambda x: imprint(x[0],x[1]))
    | mp.select_field('result')
    | mp.as_list)
    

Sergio #3: Bulwark - Un paquete para hacer tests basados en propiedades para dataframes de pandas

  • Ejemplo
  • import bulwark.decorators as dc
    @dc.IsShape((-1, 10))
    @dc.IsMonotonic(strict=True)
    @dc.HasNoNans()
    def compute(df):
      # complex operations to determine result
      ...
      return result_df
    

Rodo #4: Una guía práctica para la ingeniería de características en Python

  • Una guía práctica que te dice:
  • ¿Qué es la ingeniería de características?
  • Cómo manejar los valores perdidos.
  • Cómo manejar características categóricas.
  • Cómo manejar características numéricas / continuas.
  • Creación de características polinómicas.
  • Normalización de características.
  • Trabajar con características de fecha / hora
  • Trabajando con latitudes y longitudes
  • Jupyter Notebook
  • Utiliza Pandas
  • Utiliza category_encoders en sus ejemplos, una biblioteca que contiene, entre otras cosas:
  • Label Encoding
  • One-Hot Encoding
  • Hash Encoding
  • Target Encoding

Sergio #5: DeOldify para colorizar fotos en blanco y negro

  • Usa GANs y NoGANs para colorizar fotos en blanco y negro Y VIDEO TAMBIEN

Rodo #6: py-roughviz - La implementación en Python de la biblioteca de JavaScript RoughViz para crear gráficos interactivos.

  • Es un wrapper en Python de la biblioteca de JavaScript RoughViz que se puede usar para visualizar gráficos estilo de dibujo a mano.
  • Los gráficos soportados
  • Barras, pastel, línea, dispersión, dona, barras apiladas.
  • Entre lo más cool: ¡Acepta DataFrames de Pandas como input!

Extras:

Rodo:

  • JobFunnel - Herramienta automatizada para “escrapear” publicaciones de trabajo en un archivo .csv.
  • Pregunta de la semana: data o data?

Sergio:

  • tacosdedatos, el boletín está disponible en substack ya - tacosdedatos.substack.com
  • PyCon Perú en PyCon.pe y PyCon Colombia en PyCon.co - ¡vayan!
  • MOOC de analisis de datos para periodistas de Alberto Cairo. https://journalismcourses.org/data-viz-course-material.html