Week 2: Cleaning data extracted from a pdf