Datový katalog

Rychlý rozcestník po tabulkách, které jsem při své práci vygeneroval, a které by se mohly hodit ostatním. S výjimkou průběžně sbíraných dat (jako jsou ceny jízdenek nebo hodnocení knih na čtenářských platformách) lze většinu datasetů aktualizovat prostým spuštěním skriptů a jupyterů v abecedním/numerickém pořadí.

V poslední době ukládám tabulky s daty do formátu Parquet: oproti CSV nebo JSONu jsou soubory výrazně menší a navíc lze spolehlivěji uchovat datové typy (ISBN knih se nenačte jako 1.324*10^13 a nerozbije tím celou pajplajnu). V tuto chvíli (květen 2025) tento formát nepodporuje Excel ani LibreOffice a funkčnost online konvertorů je mrzutá, takže reálně jde data načíst jen v klasických datařských nástrojích jako pandas, Polars, DuckDB nebo R; pokud hodně toužíte po nějakých datech v CSV, napište mi.

Seznam papežů

Tabulka s oficiálně uznanými papeži a jejich životopisnými údaji doplněná o pár dalších tabulek: antipapežové, velikost životopisných hesel na Wikipedii, stav kanonizace.

celý repozitář: github.com/DataRozhlas/papezstvo
podstatný soubor: papezstvo.parquet
zdroje: vatican.va, Wikidata
háčky: v prvním tisíciletí mlhavá data zvolení i další životopisné údaje, ve sloupcích s daty z vatican.va leckde chybí data úplně
poslední aktualizace: květen 2025, po zvolení Lea XIV.

Česká národní bibliografie

Původně jsem scrapoval informace o nových českých knihách z Martinus.cz a průběžně zaznamenával jejich hodnocení na Goodreads, pak jsem se pustil do zpracování obřích datasetů České národní bibiliografie. Projekt je proto těžší na orientaci, ale odměnou jsou data o milionu plus knih a statisících lidí.

celý repozitář: github.com/DataRozhlas/knizni-peoplemetr
podstatné soubory:
- Samotná data o knihách jsou bohužel příliš velká na nahrání na GitHub; je nutné je stáhnout a zpracovat dle instrukcí v readme.md.
- goodreads-hodnoceni.csv
- databazeknih-hodnoceni.csv
zdroje: Národní knihovna, Databáze knih, Goodreads, Martinus, Wikidata
háčky: knihovnická XML se nepřeklápí do čistých JSONů 1:1, detaily popsány v readme.md
poslední aktualizace: jaro 2025

Návštěvnost českých kin

Překlopení excelů od Unie filmových distributorů do přehledných CSV.

celý repozitář: github.com/DataRozhlas/navstevnost-kin
podstatné soubory:
zdroj: Unie filmových distributorů
háčky: o žádném nevím
poslední aktualizace: duben 2025

Ceny vlakových jízdenek

Průběžně scrapované nabídky na vnitrostátní i mezistátní vlaky od ČD, RJ, LE a Arrivy.

celý repozitář: github.com/DataRozhlas/ceny-jizdenek
podstatný soubor: jizdenky.parquet
zdroj: e-shopy dopravců
háčky: nemusí být zcela fér ceny přímo srovnávat, viz readme.md
poslední aktualizace: květen 2025

Evropské fotbalové poháry

Oscrapování jednotlivých utkání Ligy mistrů a dalších pohárů z Wikipedie.

celý repozitář: github.com/DataRozhlas/evropske-pohary
podstatný soubor: matches.csv
zdroj: Wikipedia
háčky: víc než kde jinde nemůžu zaručit úplnost / správnost
poslední aktualizace: léto 2024

Hitparády a playlisty ČRo

Pestrá data o hudbě, kterou posloucháme / kterou nám pouští veřejnoprávní dramaturgové.

celý repozitář: github.com/DataRozhlas/hitparady
podstatné soubory: vše ve složce data, zvláště cro.parquet
zdroj: Česká národní skupina Mezinárodní federace hudebního průmyslu, Wikidata, Český rozhlas
háčky: především obtížné slučování jmen a názvů napříč tabulkami, BEATLES / The Beatles / Beatles atd.
poslední aktualizace: hitparády podzim 2023, playlisty ČRo jaro 2025

Filmový přehled

První velký scrapovací projekt: postahování dat o českých filmech z Filmového přehledu provozovaného Národním filmovým archivem. Podle toho to taky vypadá.

celý repozitář: github.com/DataRozhlas/filmovy-prehled
podstatné soubory:
- filmy.zip
- herectvo.zip
zdroj: Filmový přehled / Národní filmový archiv
háčky: mnoho, řada už v původních datech: vyplněnost sloupců se liší napříč léty, chybí část animované nebo dokumentární produkce
poslední aktualizace: jaro 2024