Michal Kašpárek

Datový katalog

Rychlý rozcestník po tabulkách, které jsem při své práci vygeneroval, a které by se mohly hodit ostatním. S výjimkou průběžně sbíraných dat (jako jsou ceny jízdenek nebo hodnocení knih na čtenářských platformách) lze většinu datasetů aktualizovat prostým spuštěním skriptů a jupyterů v abecedním/numerickém pořadí.

V poslední době ukládám tabulky s daty do formátu Parquet: oproti CSV nebo JSONu jsou soubory výrazně menší a navíc lze spolehlivěji uchovat datové typy (ISBN knih se nenačte jako 1.324*10^13 a nerozbije tím celou pajplajnu). V tuto chvíli (květen 2025) tento formát nepodporuje Excel ani LibreOffice a funkčnost online konvertorů je mrzutá, takže reálně jde data načíst jen v klasických datařských nástrojích jako pandas, Polars, DuckDB nebo R; pokud hodně toužíte po nějakých datech v CSV, napište mi.

Seznam papežů

Tabulka s oficiálně uznanými papeži a jejich životopisnými údaji doplněná o pár dalších tabulek: antipapežové, velikost životopisných hesel na Wikipedii, stav kanonizace.

  • celý repozitář: github.com/DataRozhlas/papezstvo
  • podstatný soubor: papezstvo.parquet
  • zdroje: vatican.va, Wikidata
  • háčky: v prvním tisíciletí mlhavá data zvolení i další životopisné údaje, ve sloupcích s daty z vatican.va leckde chybí data úplně
  • poslední aktualizace: květen 2025, po zvolení Lea XIV.

Česká národní bibliografie

Původně jsem scrapoval informace o nových českých knihách z Martinus.cz a průběžně zaznamenával jejich hodnocení na Goodreads, pak jsem se pustil do zpracování obřích datasetů České národní bibiliografie. Projekt je proto těžší na orientaci, ale odměnou jsou data o milionu plus knih a statisících lidí.

Překlopení excelů od Unie filmových distributorů do přehledných CSV.

Ceny vlakových jízdenek

Průběžně scrapované nabídky na vnitrostátní i mezistátní vlaky od ČD, RJ, LE a Arrivy.

Evropské fotbalové poháry

Oscrapování jednotlivých utkání Ligy mistrů a dalších pohárů z Wikipedie.

Hitparády a playlisty ČRo

Pestrá data o hudbě, kterou posloucháme / kterou nám pouští veřejnoprávní dramaturgové.

  • celý repozitář: github.com/DataRozhlas/hitparady
  • podstatné soubory: vše ve složce data, zvláště cro.parquet
  • zdroj: Česká národní skupina Mezinárodní federace hudebního průmyslu, Wikidata, Český rozhlas
  • háčky: především obtížné slučování jmen a názvů napříč tabulkami, BEATLES / The Beatles / Beatles atd.
  • poslední aktualizace: hitparády podzim 2023, playlisty ČRo jaro 2025

Filmový přehled

První velký scrapovací projekt: postahování dat o českých filmech z Filmového přehledu provozovaného Národním filmovým archivem. Podle toho to taky vypadá.

  • celý repozitář: github.com/DataRozhlas/filmovy-prehled
  • podstatné soubory:
  • zdroj: Filmový přehled / Národní filmový archiv
  • háčky: mnoho, řada už v původních datech: vyplněnost sloupců se liší napříč léty, chybí část animované nebo dokumentární produkce
  • poslední aktualizace: jaro 2024