Hierarchical Softmax bildet einen Baum über das gesamte Vokabular, und die Blattknoten, die seltene Wörter darstellen, erben unweigerlich die Vektordarstellungen ihrer Vorfahren im Baum, die durch andere häufige Wörter im Korpus beeinflusst werden können. Dies kommt dem inkrementellen Training für neue Korpus zugute.
Die negative Abtastung basiert auf einer kontrastiven Rauschschätzung und tastet die Wörter, die nicht im Zusammenhang stehen, zufällig ab, um die beobachteten Daten von dem künstlich erzeugten zufälligen Rauschen zu unterscheiden.