Ich schreibe einen Crawler in Ruby (1.9), der viel HTML von vielen zufälligen Sites verbraucht. Beim Versuch, Links zu extrahieren, habe ich mich entschieden, .scan(/href="(.*?)"/i)anstelle von nokogiri / hpricot (größere Beschleunigung) zu verwenden. Das Problem ist, dass ich jetzt viele "...