import numpy as np
import pandas as pd

df = pd.read_csv('content/encuesta.csv')
df.head(10)

df.isnull().sum()

edad                    1
genero                  1
horas_movil_dia         2
satisfaccion            3
red_social_principal    1
dtype: int64

df['genero'].value_counts(dropna=False)

genero
Femenino     45
Masculino    38
Otro         16
NaN           1
Name: count, dtype: int64

df['genero'] = df['genero'].fillna('Otro')
df['genero'].value_counts(dropna=False)

genero
Femenino     45
Masculino    38
Otro         17
Name: count, dtype: int64

df['red_social_principal'].value_counts(dropna=False)

red_social_principal
Instagram    27
TikTok       21
Facebook     19
Twitter      16
LinkedIn     16
NaN           1
Name: count, dtype: int64

moda_red_social = df['red_social_principal'].mode()[0]
df['red_social_principal'] = df['red_social_principal'].fillna(moda_red_social)
print(df[['genero', 'red_social_principal']].isnull().sum())

genero                  0
red_social_principal    0
dtype: int64

(df == 0).sum()

edad                    0
genero                  0
horas_movil_dia         0
satisfaccion            0
red_social_principal    0
dtype: int64

df.duplicated().sum()

np.int64(8)

# Como no sabemos si podemos borrar o no, pintamos todas las filas y buscamos patrones
df[df.duplicated(keep=False)]

# Podemos ver que la repetición va en bloque ( los 8 primeros son los mismos que los 8 últimos) borramos los últimos
df = df.drop_duplicates(keep='first')
df.duplicated().sum()

np.int64(0)

print(df['genero'].value_counts())
print(df['red_social_principal'].value_counts())

genero
Femenino     41
Masculino    35
Otro         16
Name: count, dtype: int64
red_social_principal
Instagram    25
TikTok       20
Facebook     18
Twitter      15
LinkedIn     14
Name: count, dtype: int64

columnas_numericas = ['edad', 'satisfaccion', 'horas_movil_dia']
# Usamos un df auxiliar porque el coerce nos va a borrar los valores no numéricos (pone NaN)
df_numerico = df[columnas_numericas].apply(pd.to_numeric, errors='coerce')
# Ahora comparamos los NaN del df auxiliar para ver que había en el df original, así podemos modificar lo que nos interese
df[df_numerico.isna().any(axis=1)]

df.loc[df['edad'] == 'Veinte', 'edad'] = 20
df.loc[df['satisfaccion'] == 'Baja', 'satisfaccion'] = 3
# Nos aseguramos de que nuestras columnas corregidas sean reconocidas como numéricas
df[columnas_numericas] = df[columnas_numericas].apply(pd.to_numeric)
df[columnas_numericas].dtypes
# Seguimos sin tocar valores faltantes de momento, pero ya los tenemos localizados

edad               float64
satisfaccion       float64
horas_movil_dia    float64
dtype: object

import matplotlib.pyplot as plt
import seaborn as sns

fig, ax = plt.subplots(1,3)
sns.boxplot(data=df[columnas_numericas[0]], ax=ax[0])
sns.boxplot(data=df[columnas_numericas[1]], ax=ax[1])
sns.boxplot(data=df[columnas_numericas[2]], ax=ax[2])
plt.tight_layout()

# Menores de 13 no deben usar RRSS
valores_extremos1 = df.loc[(df['edad'] < 13) | (df['edad'] > 120), 'edad']
# Un día tiene 24 horas (podríamos discutir si alguien puede estar 24 horas con el móvil...)
valores_extremos2 = df.loc[(df['horas_movil_dia'] < 0) | (df['horas_movil_dia'] > 24), 'horas_movil_dia']
# La satisfacción se medía en una escala de 0 a 10
valores_extremos3 = df.loc[(df['satisfaccion'] < 0) | (df['satisfaccion'] > 10), 'satisfaccion']
pd.concat([valores_extremos1, valores_extremos2, valores_extremos3], axis=1)

grafico = df['edad'].nlargest(3)
inferiores = df['edad'].nsmallest(2)
pd.concat([grafico, inferiores])

54    200.0
42    120.0
49     99.0
58     -5.0
59      5.0
Name: edad, dtype: float64

df.loc[[49]]

# Eliminamos la fila 49
df = df.drop([49])

# Inspeccionamos las filas completas de los outliers extremos
df.loc[[54, 42, 58, 59]]

df = df.drop([54, 42, 58, 59])

# 2. SATISFACCIÓN:
pd.concat([df['satisfaccion'].nlargest(2)])

57    15.0
44    12.0
Name: satisfaccion, dtype: float64

df['satisfaccion'] = df['satisfaccion'].clip(upper=10)

# 3. HORAS MÓVIL
df['horas_movil_dia'].nlargest(2)

55    30.0
43    25.0
Name: horas_movil_dia, dtype: float64

print(df[df['horas_movil_dia'].isna()])
df.loc[df['horas_movil_dia'] > 24, 'horas_movil_dia'] = np.nan
print(df[df['horas_movil_dia'].isna()])

    edad     genero  horas_movil_dia  satisfaccion red_social_principal
31  28.0  Masculino              NaN           8.0              Twitter
91  61.0   Femenino              NaN           8.0             Facebook
    edad     genero  horas_movil_dia  satisfaccion red_social_principal
31  28.0  Masculino              NaN           8.0              Twitter
43  19.0       Otro              NaN           7.0               TikTok
55  25.0       Otro              NaN           6.0               TikTok
91  61.0   Femenino              NaN           8.0             Facebook

fig, ax = plt.subplots(1,3)
sns.boxplot(data=df[columnas_numericas[0]], ax=ax[0])
sns.boxplot(data=df[columnas_numericas[1]], ax=ax[1])
sns.boxplot(data=df[columnas_numericas[2]], ax=ax[2])
plt.tight_layout()

df[df.isna().any(axis=1)]

for col in columnas_numericas:
    media = df[col].mean().round()
    df[col] = df[col].fillna(media)
    print(f"Columna {col} rellenada con: {media}")

Columna edad rellenada con: 35.0
Columna satisfaccion rellenada con: 7.0
Columna horas_movil_dia rellenada con: 4.0

df['dependencia_movil'] = df['horas_movil_dia'] * (11 - df['satisfaccion'])
df

display(df.describe(include='all').round(2))

df.corr(numeric_only=True).round(2)

df.groupby('genero')['dependencia_movil'].agg(['mean', 'count'])

tabla = df.groupby('red_social_principal')['dependencia_movil'].agg(['mean', 'count'])
tabla.sort_values(by='mean', ascending=False).round(2)

# Debemos categorizar las edades para poder relacionar con variable categórica
df['rango_edad'] = pd.cut(df['edad'], bins=[0, 30, 45, 100], labels =['Joven', 'Adulto', 'Mayor'])
print(df['rango_edad'].value_counts())
df

rango_edad
Joven     39
Adulto    28
Mayor     20
Name: count, dtype: int64

media_por_rango = df.groupby('rango_edad')['dependencia_movil'].mean()
moda_red_social = df.groupby('rango_edad')['red_social_principal'].apply(lambda x: x.mode()[0])
pd.concat([media_por_rango, moda_red_social], axis=1)

import pingouin as pg

# 1. Convertimos la red social a números (necesario para la función)
df['red_social_num'] = df['red_social_principal'].astype('category').cat.codes

# 2. Lanzamos la correlación parcial eliminando el factor red_social
resultado_edad = pg.partial_corr(data=df,
                                 x='dependencia_movil',
                                 y='edad',
                                 covar='red_social_num')

display(resultado_edad)

# 3. Lanzamos la correlación parcial eliminado el factor edad
resultado_red = pg.partial_corr(data=df,
                                 x='dependencia_movil',
                                 y='red_social_num',
                                 covar='edad')

display(resultado_red)

df.to_csv('tarea.csv', index=False)

	edad	genero	horas_movil_dia	satisfaccion	red_social_principal	dependencia_movil
count	87.00	87	87.00	87.00	87	87.00
unique	NaN	3	NaN	NaN	5	NaN
top	NaN	Femenino	NaN	NaN	Instagram	NaN
freq	NaN	38	NaN	NaN	24	NaN
mean	35.17	NaN	3.55	7.08	NaN	14.08
std	12.57	NaN	1.52	1.39	NaN	7.75
min	18.00	NaN	1.00	3.00	NaN	2.00
25%	25.00	NaN	2.35	6.00	NaN	8.00
50%	33.00	NaN	3.50	7.00	NaN	12.80
75%	44.50	NaN	4.50	8.00	NaN	20.00
max	65.00	NaN	7.00	10.00	NaN	36.00

	edad	horas_movil_dia	satisfaccion	dependencia_movil
edad	1.00	-0.84	0.16	-0.68
horas_movil_dia	-0.84	1.00	-0.07	0.74
satisfaccion	0.16	-0.07	1.00	-0.69
dependencia_movil	-0.68	0.74	-0.69	1.00

	edad	genero	horas_movil_dia	satisfaccion	red_social_principal
0	24	Femenino	3.5	8	Instagram
1	30	Masculino	2.0	7	Twitter
2	18	Femenino	5.5	9	TikTok
3	45	Masculino	1.5	6	LinkedIn
4	29	Otro	4.0	5	Instagram
5	55	Femenino	2.0	8	Facebook
6	22	Masculino	6.0	7	Instagram
7	33	Femenino	3.0	6	Instagram
8	41	Masculino	1.0	9	LinkedIn
9	19	Otro	7.0	8	Instagram

	edad	horas_movil_dia	satisfaccion
54	200.0	NaN	NaN
58	-5.0	NaN	NaN
59	5.0	NaN	NaN
43	NaN	25.0	NaN
55	NaN	30.0	NaN
44	NaN	NaN	12.0
57	NaN	NaN	15.0

	edad	genero	horas_movil_dia	satisfaccion	red_social_principal
31	28.0	Masculino	NaN	8.0	Twitter
33	NaN	Masculino	4.0	5.0	TikTok
35	32.0	Otro	3.0	NaN	LinkedIn
43	19.0	Otro	NaN	7.0	TikTok
55	25.0	Otro	NaN	6.0	TikTok
85	33.0	Otro	3.5	NaN	Instagram
91	61.0	Femenino	NaN	8.0	Facebook
94	30.0	Masculino	4.0	NaN	Twitter

	edad	genero	horas_movil_dia	satisfaccion	red_social_principal	dependencia_movil
0	24.0	Femenino	3.5	8.0	Instagram	10.5
1	30.0	Masculino	2.0	7.0	Twitter	8.0
2	18.0	Femenino	5.5	9.0	TikTok	11.0
3	45.0	Masculino	1.5	6.0	LinkedIn	7.5
4	29.0	Otro	4.0	5.0	Instagram	24.0
...	...	...	...	...	...	...
95	20.0	Femenino	6.0	8.0	TikTok	18.0
96	55.0	Otro	1.5	9.0	Facebook	3.0
97	34.0	Masculino	3.0	6.0	Instagram	15.0
98	48.0	Femenino	2.0	7.0	LinkedIn	8.0
99	25.0	Masculino	5.0	5.0	TikTok	30.0

	mean	count
genero
Femenino	10.613158	38
Masculino	15.500000	34
Otro	19.633333	15

	mean	count
red_social_principal
TikTok	21.40	20
Twitter	15.53	15
Instagram	14.31	24
LinkedIn	9.21	12
Facebook	6.87	16

	dependencia_movil	red_social_principal
rango_edad
Joven	19.284615	TikTok
Adulto	12.378571	Instagram
Mayor	6.305000	Facebook

1.- Análisis y limpieza de un conjunto de datos¶