Los sonidos producidos por el aparato fonador se dividen en dos tipos esenciales: las vocales y las consonantes. Esta división la hicieron, una vez más, los griegos; posteriormente, los romanos las calcaron, y desde entonces los dos nombres con que los conocemos en las lenguas modernas son calcos semánticos de los términos y conceptos que aquellos primeros filólogos manejaron.
Los griegos dieron a las vocales el nombre de φωνήεντα, adjetivo que literalmente significaba "sonoro", ya que deriva de φωνή "sonido", especialmente el articulado por el ser humano, es decir, "voz", sobre todo clara y fuerte, lo que en latín se decía vox (genitivo vocis), sentido originario y antiguo que aún se aprecia en la expresión castellana dar una voz a alguien, es decir, "llamarlo en voz alta desde lejos". Las vocales, son, por tanto, los sonidos que articulamos con voz sonora, alta y clara: a, e, i, o, u. Esto se debe a que el aire procedente de los pulmones sale por la boca con toda su energía, sin haber encontrado obstáculo ni en la faringe, ni en los dientes, ni en los labios, ni en la cavidad nasal, aunque sí las más débiles, la i y la u, parcialmente en la lengua. Si la úvula (campanilla), que es el extremo posterior del velo (cielo de la boca) se despega de la pared faríngea, entonces el aire procedente de los pulmones sale en parte por la boca, en parte por la nariz, produciéndose una vocal nasal que suena más débil que las orales, precisamente porque la fuerza del aire se disipa entre dos salidas, una de ellas, la nariz, muy pequeña (realmente doble, las narinas). Además, las vocales ofrecen otras dos particularidades que derivan de la primera: se pueden articular por sí solas, sin ayuda de otros sonidos, y su articulación puede mantenerse ininterrumpida por largo tiempo (durante varios segundos, los que cada persona sea capaz de aguantar hasta quedarse sin aire, antes de la siguiente inspiración).
En cambio, las consonantes se producen más débiles, debido a que el aire procedente de los pulmones, antes de salir al exterior, pierde fuerza al quedar obstruido, durante unas centésimas de segundo, con la lengua, la úvula, el velo, el paladar anterior, los alvéolos, los dientes, los labios; o bien al rozar con ellos. La consonante, al salir con menor fuerza, es menos audible, y al disponer de menos aire, se articula durante muy poco tiempo, de ahí que necesite el apoyo de una vocal para sonar clara y fuerte, aunque en realidad es la sílaba entera, y su centro silábico, la vocal, las que suenan fuerte. Dicho con otras palabras, no se puede gritar con una p, pero sí con una pa, por ejemplo. Al sonar con la ayuda de una vocal, los griegos dieron a estos sonidos el nombre de consonantes, σύμφωνα, adjetivo que significa "que suena (φων-) con (συν-)". Los romanos lo tradujeron como consonantes (litterae) "(letras) que suenan (sonare) con (con-)". Por cierto, el hecho de que los griegos no hablaran de sonidos sino de lo que veían, letras (en latín litterae, femenino, calcando el griego στοιχεῖα, neutro), explica que actualmente digamos las vocales y las consonantes, en femenino, en lugar de los (sonidos) vocales y los (sonidos) consonantes.
Las lenguas europeas mantuvieron estas denominaciones grecolatinas: gr. mod. φωνήεντα / σύμφωνα, it. vocali / consonanti, ing. vowels / consonants, fr. voyelles / consonnes, al. Vokale y (calco semántico) Selbslaute ("que suenan por sí mismas") / Konsonanten y (calco semántico) Mitlaute ("que suenan con").