Colecciones de datos para múltiples aplicaciones Christian Ariza, marzo 8, 2015junio 28, 2018 Una pequeña lista de data sets y colecciones de data sets de diferentes dominios y para diversos propósitos. La mayoría son de uso libre, sin embargo vale la pena consultar la licencia de cada uno. Es una lista en construcción, se aceptan sugerencias 🙂 Colecciones NombreDescripciónEjemplosObservaciones AWS Public Data SetsData sets alojados en Amazon AWS (en S3 o instantaneas EBS)Google Books NgramsMillion Song Dataset Para descargar los datasets almacenados como instantáneas es necesario tener una cuenta AWS Data.govData sets de las diferentes entidades de Estados UnidosDatos de precipitación, por hora, en Estados UnidosFormatos diversos Linked Open Data CloudUna imagen svg con enlaces a datasets que han sido publicados en formato RDF (y cumplen las condiciones para ser considerados Linked Data)DBPedia GeoNames DBLPUn buen punto de partida para ver el potencial de Linked Data UCI Machine Learning RepositoryUn repositorio de datasets para aprendizaje de máquinaBag of words Arrhythmia Data Set Iris DatasetDiferentes formatos y dominios, preparados para tareas de aprendizaje de máquina. Se encuentran los ejemplos clásicos y otros datasets que pueden ser útiles para múltiples aplicaciones. Yahoo! WebscopeDatos liberados por Yahoo! para investigaciones académicas. Datasets de imágenesAlgunos de los datasets requieren aprobación para usarlos. Alguna vez realicé el proceso y tomó poco más de una semana. Existe un límite de 5 datasets por semestre. Algunos datasets están almacenados en AWS. Stanford Large Network Dataset CollectionDatasets de redesOrkut Amazon product co-purchasing networkLa mayoría de los datos están en el formato de tabla de enlaces. World BankDatasets del Banco Mundial.World Development Indicators Europa Open-DataSitio web mantenido por la comisión europea para la publicación de datos abiertosErasmus mobility statistics 2011-12Tiene disponible un endpoint de sparkql en "https://open-data.europa.eu/sparqlep" Public datasets Una iniciativa de Cole Knaflic, para el #SWDChallenge del 2018. Awesome Json DatasetsLista conjuntos de datos variados, es un buen punto de inicio cuando se busca inspiración. Datasets NombreFormatoObservaciones DBPediaOntología en formato owl Tripletas RDF en formato N-Triples, N-Quads y TurttleLos dumps son generados periodicamente. Para acceder a información actualizada es mejor usar el endpoind de sparql Wikipedia DumpDumps de la base de datos: XML. Otros datasets están disponible en formato HTML, OpenZim y CSV StackExchange Data DumpsXMLDumps de todos los sitios de Stack Exchange (entre los que se encuentran, por ejemplo, StackOverflow y ServerFault) Si se quiere realizar una consulta puntual es mejor usar StackExchange Data Explorer FreeBaseData Dumps: N-Triples APIs (Json): Búsqueda, MQL, por tema.Freebase se volverá de solo lectura el 30 de marzo de 2015 y el API será retirada en junio 30. La idea es soportar el proyecto WikiData. WikidataRDF/XML N-Triples JSON HTMLTiene una interfaz Linked Data, que permite seleccionar el formato de la respuesta usando negociación de contenido. Como alternativa se pueden usar extensiones para seleccionar el formato. Se puede acceder a los dumps de la base de datos en formato JSON y RDF/XML Comparte esto:PocketTwitterFacebookLinkedInMásCorreo electrónicoImprimir Publicaciones relacionadas: TechStuff BigDataData ScienceDatasets