import pandas as pd
import numpy as np

# Crear el objeto de datos
data = {
    'fecha': [
        '2025-11-01', '2025-11-01', '2025-11-01', '2025-11-01', '2025-11-01',
        '2025-11-02', '2025-11-02', '2025-11-02', '2025-11-02', '2025-11-02',
        '2025-11-03', '2025-11-03', '2025-11-03', '2025-11-03', '2025-11-03',
        '2025-11-04', '2025-11-04', '2025-11-04', '2025-11-04', '2025-11-04',
        '2025-11-05', '2025-11-05', '2025-11-05', '2025-11-05', '2025-11-05'
    ],
    'zona': [
        'Centro Ciudad', 'Zona Norte', 'Zona Sur', 'Zona Este', 'Zona Oeste',
        'Centro Ciudad', 'Zona Norte', 'Zona Sur', 'Zona Este', 'Zona Oeste',
        'Centro Ciudad', 'Zona Norte', 'Zona Sur', 'Zona Este', 'Zona Oeste',
        'Centro Ciudad', 'Zona Norte', 'Zona Sur', 'Zona Este', 'Zona Oeste',
        'Centro Ciudad', 'Zona Norte', 'Zona Sur', 'Zona Este', 'Zona Oeste'
    ],
    'cantidad_pedidos': [
        85, 45, 30, 60, 20,
        92, 50, 35, 65, 25,
        150, 60, 40, 70, 30,
        100, 550, 50, 80, 40,
        110, 70, 180, 90, 50
    ],
    'precio_promedio': [
        18.50, 15.20, 22.00, 16.80, 19.10,
        18.90, 15.50, 22.50, 17.00, 19.50,
        18.75, 15.30, 22.10, 16.90, 19.20,
        19.00, 15.70, 22.60, 17.10, 19.60,
        19.15, 15.80, 22.80, 17.20, 19.70
    ],
    'categoría_comida': [
        'Italiana', 'Asiática', 'Saludable', 'Mediterránea', 'Rápida',
        'Mexicana', 'Asiática', 'Saludable', 'Mediterránea', 'Italiana',
        'Italiana', 'Asiática', 'Rápida', 'Mexicana', 'Saludable',
        'Rápida', 'Asiática', 'Italiana', 'Mediterránea', 'Mexicana',
        'Italiana', 'Rápida', 'Saludable', 'Asiática', 'Mediterránea'
    ]
}
#Crear el DataFrame
df = pd.DataFrame(data)

df

# En esta celda usamos un lenguaje exportable a archivo .py para ver la diferencia. 
# El resto de celdas es formato notebook

# Media
media_pedidos = df['cantidad_pedidos'].mean()
print(f"Media de pedidos: {media_pedidos}")
media_precios = df['precio_promedio'].mean()
print(f"Media de precios: {media_precios}")
# Mediana
mediana_pedidos = df['cantidad_pedidos'].median()
print(f"Mediana de pedidos: {mediana_pedidos}")
mediana_precios = df['precio_promedio'].median()
print(f"Mediana de precios: {mediana_precios}")
# Moda
moda_pedidos = df['cantidad_pedidos'].mode().iloc[0]
print(f"Moda de pedidos: {moda_pedidos}")
moda_precios = df['precio_promedio'].mode().iloc[0]
print(f"Moda de precios: {moda_precios}")
moda_comida = df['categoría_comida'].mode().iloc[0]
print(f"Categoría de comida más repetida: {moda_comida}")
# Rango
print(f"Rango (máximo - mínimo) días: {df['fecha'].max()} - {df['fecha'].min()}")
print(f"Rango (máximo - mínimo) pedidos: {df['cantidad_pedidos'].max()} - {df['cantidad_pedidos'].min()}")
print(f"Rango (máximo - mínimo) precios: {df['precio_promedio'].max()} - {df['precio_promedio'].min()}")

Media de pedidos: 87.08
Media de precios: 18.636
Mediana de pedidos: 60.0
Mediana de precios: 18.9
Moda de pedidos: 50
Moda de precios: 15.2
Categoría de comida más repetida: Asiática
Rango (máximo - mínimo) días: 2025-11-05 - 2025-11-01
Rango (máximo - mínimo) pedidos: 550 - 20
Rango (máximo - mínimo) precios: 22.8 - 15.2

# Eliminamos los valores alfanuméricos para los cálculos (se puede hacer así o mediante parametro en las operaciones)
numericos = df[['cantidad_pedidos', 'precio_promedio']]
numericos

# Calcular la desviación estándar
desviacion_e= numericos.std()
print(f"Desviacion estandar:\n{desviacion_e}")

Desviacion estandar:
cantidad_pedidos    103.705480
precio_promedio       2.398373
dtype: float64

varianza= numericos.var()
varianza

cantidad_pedidos    10754.826667
precio_promedio         5.752192
dtype: float64

percentil25= numericos.quantile(0.25)
print(f"Percentil 25 (Q1):\n{percentil25}")
percentil50= numericos.quantile(0.50)
print(f"Percentil 50 (Q2):\n{percentil50}")
percentil75= numericos.quantile(0.75)
print(f"Percentil 75 (Q3):\n{percentil75}")

Percentil 25 (Q1):
cantidad_pedidos    40.0
precio_promedio     16.9
Name: 0.25, dtype: float64
Percentil 50 (Q2):
cantidad_pedidos    60.0
precio_promedio     18.9
Name: 0.5, dtype: float64
Percentil 75 (Q3):
cantidad_pedidos    90.0
precio_promedio     19.6
Name: 0.75, dtype: float64

#Tenemos una función para realizar todos los cálculos iniciales de una vez
df.describe()

q1 = numericos.quantile(0.25)
q3 = numericos.quantile(0.75)
iqr = q3-q1
outliers = numericos[((numericos < (q1-1.5*iqr))|(numericos > (q3+1.5*iqr))).any(axis=1)]
outliers

# Podemos intentar ver estos outliers en el gráfico de un vistazo
import matplotlib.pyplot as plt
plt.boxplot(numericos)

{'whiskers': [<matplotlib.lines.Line2D at 0x224ea7a8190>,
  <matplotlib.lines.Line2D at 0x224eaa08690>,
  <matplotlib.lines.Line2D at 0x224eaa08e10>,
  <matplotlib.lines.Line2D at 0x224eaa08f50>],
 'caps': [<matplotlib.lines.Line2D at 0x224eaa087d0>,
  <matplotlib.lines.Line2D at 0x224eaa08910>,
  <matplotlib.lines.Line2D at 0x224eaa09090>,
  <matplotlib.lines.Line2D at 0x224eaa091d0>],
 'boxes': [<matplotlib.lines.Line2D at 0x224ea886e90>,
  <matplotlib.lines.Line2D at 0x224eaa08cd0>],
 'medians': [<matplotlib.lines.Line2D at 0x224eaa08a50>,
  <matplotlib.lines.Line2D at 0x224eaa09310>],
 'fliers': [<matplotlib.lines.Line2D at 0x224eaa08b90>,
  <matplotlib.lines.Line2D at 0x224eaa09450>],
 'means': []}

# Después de contrastar datos dejamos los outliers por eventos y corregimos el error tipográfico
df.loc[16, 'cantidad_pedidos'] = 55

import seaborn as sns

sns.barplot(data=df,y='cantidad_pedidos', x='zona')

<Axes: xlabel='zona', ylabel='cantidad_pedidos'>

sns.barplot(data=df,y='cantidad_pedidos', x='categoría_comida')

<Axes: xlabel='categoría_comida', ylabel='cantidad_pedidos'>

sns.barplot(data=df,y='cantidad_pedidos', x='zona', hue='categoría_comida')

<Axes: xlabel='zona', ylabel='cantidad_pedidos'>

sns.histplot(
    data=df,
    x='cantidad_pedidos',
    hue='zona',
    multiple='stack',
    bins=10,
    palette='viridis'
)

<Axes: xlabel='cantidad_pedidos', ylabel='Count'>

sns.histplot(
    data=df,
    x='cantidad_pedidos',
    hue='categoría_comida',
    multiple='stack',
    bins=10
)

<Axes: xlabel='cantidad_pedidos', ylabel='Count'>

# Pedidos diarios
sns.lineplot(data=df, x='fecha', y='cantidad_pedidos', hue='zona')

<Axes: xlabel='fecha', ylabel='cantidad_pedidos'>

# Pedidos diarios
sns.lineplot(data=df, x='fecha', y='cantidad_pedidos', hue='categoría_comida')

<Axes: xlabel='fecha', ylabel='cantidad_pedidos'>

df

df['Total_zona'] = df['precio_promedio'] * df['cantidad_pedidos']
beneficio_zona = df.groupby('zona')[['precio_promedio', 'cantidad_pedidos', 'Total_zona']].sum()
beneficio_zona

sns.barplot(
    data=beneficio_zona,
    x='cantidad_pedidos',
    y='Total_zona',
    hue='zona'
)

<Axes: xlabel='cantidad_pedidos', ylabel='Total_zona'>

df.corr(method='pearson', numeric_only=True)

df.corr(method='spearman', numeric_only=True)

sns.scatterplot(data=df, x='precio_promedio', y='cantidad_pedidos')

<Axes: xlabel='precio_promedio', ylabel='cantidad_pedidos'>

beneficio_comida = df.groupby('categoría_comida')[['precio_promedio', 'cantidad_pedidos', 'Total_zona']].sum()
beneficio_comida

sns.scatterplot(data=beneficio_comida, x='Total_zona', y='cantidad_pedidos', hue='categoría_comida')

<Axes: xlabel='Total_zona', ylabel='cantidad_pedidos'>

media_pedidos = df['cantidad_pedidos'].mean()
media_por_categoria = df.groupby('categoría_comida')['cantidad_pedidos'].mean()
diferencial = media_por_categoria - media_pedidos
diferencial

varianza_pedidos = df['cantidad_pedidos'].var()
varianza_por_categoria = df.groupby('categoría_comida')['cantidad_pedidos'].var()
diferencial_v = varianza_por_categoria - varianza_pedidos
diferencial_v

resumen_final = pd.concat([beneficio_comida, diferencial, diferencial_v], axis=1)
resumen_final.columns = [
    'Precio_promedio',
    'Total_Pedidos',
    'Ingresos_Totales',
    'Dif_Media',
    'Riesgo_Variabilidad'
]
resumen_final

	cantidad_pedidos	precio_promedio
count	25.00000	25.000000
mean	87.08000	18.636000
std	103.70548	2.398373
min	20.00000	15.200000
25%	40.00000	16.900000
50%	60.00000	18.900000
75%	90.00000	19.600000
max	550.00000	22.800000

	precio_promedio	cantidad_pedidos	Total_zona
zona
Centro Ciudad	94.3	537	10130.3
Zona Este	85.0	365	6212.0
Zona Norte	77.5	280	4346.5
Zona Oeste	97.1	165	3214.5
Zona Sur	112.0	335	7565.5

	cantidad_pedidos	precio_promedio	Total_zona
cantidad_pedidos	1.000000	0.055939	0.977118
precio_promedio	0.055939	1.000000	0.243655
Total_zona	0.977118	0.243655	1.000000

	cantidad_pedidos	precio_promedio	Total_zona
cantidad_pedidos	1.000000	-0.211479	0.958399
precio_promedio	-0.211479	1.000000	0.016154
Total_zona	0.958399	0.016154	1.000000

	precio_promedio	cantidad_pedidos	Total_zona
categoría_comida
Asiática	78.9	300	4788.5
Italiana	98.5	420	8109.0
Mediterránea	70.6	255	4466.0
Mexicana	55.4	202	3705.8
Rápida	76.0	230	4272.0
Saludable	86.5	275	6127.5

Análisis exploratorio de datos en un caso "real"¶

Resolución de preguntas clave a partir de los datos¶

Preguntas:¶

	fecha	zona	cantidad_pedidos	precio_promedio	categoría_comida
0	2025-11-01	Centro Ciudad	85	18.50	Italiana
1	2025-11-01	Zona Norte	45	15.20	Asiática
2	2025-11-01	Zona Sur	30	22.00	Saludable
3	2025-11-01	Zona Este	60	16.80	Mediterránea
4	2025-11-01	Zona Oeste	20	19.10	Rápida
5	2025-11-02	Centro Ciudad	92	18.90	Mexicana
6	2025-11-02	Zona Norte	50	15.50	Asiática
7	2025-11-02	Zona Sur	35	22.50	Saludable
8	2025-11-02	Zona Este	65	17.00	Mediterránea
9	2025-11-02	Zona Oeste	25	19.50	Italiana
10	2025-11-03	Centro Ciudad	150	18.75	Italiana
11	2025-11-03	Zona Norte	60	15.30	Asiática
12	2025-11-03	Zona Sur	40	22.10	Rápida
13	2025-11-03	Zona Este	70	16.90	Mexicana
14	2025-11-03	Zona Oeste	30	19.20	Saludable
15	2025-11-04	Centro Ciudad	100	19.00	Rápida
16	2025-11-04	Zona Norte	550	15.70	Asiática
17	2025-11-04	Zona Sur	50	22.60	Italiana
18	2025-11-04	Zona Este	80	17.10	Mediterránea
19	2025-11-04	Zona Oeste	40	19.60	Mexicana
20	2025-11-05	Centro Ciudad	110	19.15	Italiana
21	2025-11-05	Zona Norte	70	15.80	Rápida
22	2025-11-05	Zona Sur	180	22.80	Saludable
23	2025-11-05	Zona Este	90	17.20	Asiática
24	2025-11-05	Zona Oeste	50	19.70	Mediterránea

	cantidad_pedidos
categoría_comida
Asiática	-7.280000
Italiana	16.720000
Mediterránea	-3.530000
Mexicana	0.053333
Rápida	-9.780000
Saludable	1.470000

	cantidad_pedidos
categoría_comida
Asiática	-1147.876667
Italiana	957.123333
Mediterránea	-1304.126667
Mexicana	-779.043333
Rápida	-235.376667
Saludable	4045.873333