Describir: Verbal and visual semantics