Datový katalog
Rychlý rozcestník po tabulkách, které jsem při své práci vygeneroval, a které by se mohly hodit ostatním. S výjimkou průběžně sbíraných dat (jako jsou ceny jízdenek nebo hodnocení knih na čtenářských platformách) lze většinu datasetů aktualizovat prostým spuštěním skriptů a jupyterů v abecedním/numerickém pořadí.
V poslední době ukládám tabulky s daty do formátu Parquet: oproti CSV nebo JSONu jsou soubory výrazně menší a navíc lze spolehlivěji uchovat datové typy (ISBN knih se nenačte jako 1.324*10^13 a nerozbije tím celou pajplajnu). V tuto chvíli (květen 2025) tento formát nepodporuje Excel ani LibreOffice a funkčnost online konvertorů je mrzutá, takže reálně jde data načíst jen v klasických datařských nástrojích jako pandas, Polars, DuckDB nebo R; pokud hodně toužíte po nějakých datech v CSV, napište mi.
Seznam papežů
Tabulka s oficiálně uznanými papeži a jejich životopisnými údaji doplněná o pár dalších tabulek: antipapežové, velikost životopisných hesel na Wikipedii, stav kanonizace.
- celý repozitář: github.com/DataRozhlas/papezstvo
- podstatný soubor: papezstvo.parquet
- zdroje: vatican.va, Wikidata
- háčky: v prvním tisíciletí mlhavá data zvolení i další životopisné údaje, ve sloupcích s daty z vatican.va leckde chybí data úplně
- poslední aktualizace: květen 2025, po zvolení Lea XIV.
Česká národní bibliografie
Původně jsem scrapoval informace o nových českých knihách z Martinus.cz a průběžně zaznamenával jejich hodnocení na Goodreads, pak jsem se pustil do zpracování obřích datasetů České národní bibiliografie. Projekt je proto těžší na orientaci, ale odměnou jsou data o milionu plus knih a statisících lidí.
- celý repozitář: github.com/DataRozhlas/knizni-peoplemetr
- podstatné soubory:
- Samotná data o knihách jsou bohužel příliš velká na nahrání na GitHub; je nutné je stáhnout a zpracovat dle instrukcí v readme.md.
- goodreads-hodnoceni.csv
- databazeknih-hodnoceni.csv
- zdroje: Národní knihovna, Databáze knih, Goodreads, Martinus, Wikidata
- háčky: knihovnická XML se nepřeklápí do čistých JSONů 1:1, detaily popsány v readme.md
- poslední aktualizace: jaro 2025
Návštěvnost českých kin
Překlopení excelů od Unie filmových distributorů do přehledných CSV.
- celý repozitář: github.com/DataRozhlas/navstevnost-kin
- podstatné soubory:
- zdroj: Unie filmových distributorů
- háčky: o žádném nevím
- poslední aktualizace: duben 2025
Ceny vlakových jízdenek
Průběžně scrapované nabídky na vnitrostátní i mezistátní vlaky od ČD, RJ, LE a Arrivy.
- celý repozitář: github.com/DataRozhlas/ceny-jizdenek
- podstatný soubor: jizdenky.parquet
- zdroj: e-shopy dopravců
- háčky: nemusí být zcela fér ceny přímo srovnávat, viz readme.md
- poslední aktualizace: květen 2025
Evropské fotbalové poháry
Oscrapování jednotlivých utkání Ligy mistrů a dalších pohárů z Wikipedie.
- celý repozitář: github.com/DataRozhlas/evropske-pohary
- podstatný soubor: matches.csv
- zdroj: Wikipedia
- háčky: víc než kde jinde nemůžu zaručit úplnost / správnost
- poslední aktualizace: léto 2024
Hitparády a playlisty ČRo
Pestrá data o hudbě, kterou posloucháme / kterou nám pouští veřejnoprávní dramaturgové.
- celý repozitář: github.com/DataRozhlas/hitparady
- podstatné soubory: vše ve složce data, zvláště cro.parquet
- zdroj: Česká národní skupina Mezinárodní federace hudebního průmyslu, Wikidata, Český rozhlas
- háčky: především obtížné slučování jmen a názvů napříč tabulkami, BEATLES / The Beatles / Beatles atd.
- poslední aktualizace: hitparády podzim 2023, playlisty ČRo jaro 2025
Filmový přehled
První velký scrapovací projekt: postahování dat o českých filmech z Filmového přehledu provozovaného Národním filmovým archivem. Podle toho to taky vypadá.
- celý repozitář: github.com/DataRozhlas/filmovy-prehled
- podstatné soubory:
- zdroj: Filmový přehled / Národní filmový archiv
- háčky: mnoho, řada už v původních datech: vyplněnost sloupců se liší napříč léty, chybí část animované nebo dokumentární produkce
- poslední aktualizace: jaro 2024