так YELP - у них есть открытая бд.
Скачиваешь, парсишь себе как надо.
Ну а так - open dataset "кейворд" в гугле - дофига открытых датасетов.
один из вариантов это CC (Common Crawl)
Дофига данных - зато можешь сам найти что надо
https://www.yelp.com/dataset