Fuentes de datos
#1
Hola datadictos. Estoy preparando unas prácticas para un máster y necesito datos sobre salarios, porque la práctica va -por aquello de innovar- sobre comprobar si existe brecha salarial entre hombres y hombras. ¿Sabemos de alguna fuente open-source de la que me pueda bajar datasets sobre el tema? Mil gracias (aproximadamente mil, con un nivel de confianza del 95%).
Reply
#2
(17-11-2017, 11:35 AM)Jaime Wrote: holi datadictos. Estoy preparando unas prácticas para un máster y necesito datos sobre salarios, porque la práctica va -por aquello de innovar- sobre comprobar si existe brecha salarial entre hombres y hombras. ¿Sabemos de alguna fuente open-source de la que me pueda bajar datasets sobre el tema? Mil gracias (aproximadamente mil, con un nivel de confianza del 95%).

EPA y Encuesta de Estructura Salarial, ambas con microdatos. Buena suerte formateandolos, y mírate los códigos porque es un guirigay. También es importante ver cómo hacen la encuesta, pero vas a tener que preguntarle al INE porque no viene todo en la web.
Reply
#3
Eso, en el INE.
Reply
#4
Se me olvidaba, en estas encuestas hay datos que se solapan, tienes que tener cuidado segmentádolos o vas a tener movidas con colinialidad que no vas a entender. Por ejemplo, en la EES si no recuerdo mal, te vienen segmentaciones de empresas por tamaños, y luego un segmento que incluye todos los tamaños, pero viene todo en el mismo dataset. Pasa con un par de cosas más si no recuerdo mal.

En la de 2014 también pasa por ejemplo que, aunque tiene muchos casos, si luego quieres comparar manzanas con manzanas y peras con peras, te vas a dar cuenta de que al final te van a quedar muy pocos casos para poder trabajar.

La Seguridad Social también tiene datos, pero no publica microdatos, sólo resúmenes y tablas de cosillas. Yo intenté obtenerlos varias veces pero al no ser una operación estadística que pase por el ine, sólo una DB, no te los pasan, supongo porque los fulanos que lo llevan pasan de movidas por temas legales, quizá si les insistes mucho te los den a tí, a saber. Tendrían que anonimizarlos y toda la movida, e igual son un par de sysadmin y pasan.
Reply
#5
No quiero sacar grandes conclusiones, la práctica trata de simulación de Monte-Carlo y la idea es tomar estos datos porque, por un lado, sus distribuciones no son normales y, por otro (o quizás debido a ello), la media no es un buen estimador de las tendencias, por lo que hay que tomar la mediana. Los alumnos tendrán que usar simulación para testear la hipótesis nula que la diferencia de medianas es cero.

Así las cosas, creo que me las podré arreglar para limpiar los datos sin grandes aspavientos y aún así que la práctica tire. De todos modos, mil gracias por las explicaciones.
Reply
#6
(17-11-2017, 12:37 PM)Jaime Wrote: No quiero sacar grandes conclusiones, la práctica trata de simulación de Monte-Carlo y la idea es tomar estos datos porque, por un lado, sus distribuciones no son normales y, por otro (o quizás debido a ello), la media no es un buen estimador de las tendencias, por lo que hay que tomar la mediana. Los alumnos tendrán que usar simulación para testear la hipótesis nula que la diferencia de medianas es cero.

Así las cosas, creo que me las podré arreglar para limpiar los datos sin grandes aspavientos y aún así que la práctica tire. De todos modos, mil gracias por las explicaciones.

No te olvides de volver a pasar por aquí para contarnos lo bien que te lo pasaste con la sintaxis.
Reply
#7
Vale, veo lo que me quieres decir, pero ese no es para mí el gran problema (los he visto peores). La cosa es que me dan los datos en % del SMI, con las marcas de clase enteras (es decir, entre 0 y 100% no hay mayor granulado) y por años. A mí me interesaría algo separado por sectores profesionales, me da un poco igual el año. Probablemente tal cosa no exista, ¿verdad?
Reply
#8
(17-11-2017, 02:31 PM)Jaime Wrote: Vale, veo lo que me quieres decir, pero ese no es para mí el gran problema (los he visto peores). La cosa es que me dan los datos en % del SMI, con las marcas de clase enteras (es decir, entre 0 y 100% no hay mayor granulado) y por años. A mí me interesaría algo separado por sectores profesionales, me da un poco igual el año. Probablemente tal cosa no exista, ¿verdad?

En el archivo algo tiene que haber con códigos CNAE, yo cuando lo hice creo recordar que lo había, me parecería extraño si no lo hubiese. Sino envíale un correo al INE.
Reply


Forum Jump:


Users browsing this thread: 1 Guest(s)