Wir wissen, dass (siehe z. B. Theoreme 1 und 3 von [1]) unter geeigneten Bedingungen Funktionen, die von Turing-Maschinen in polynomieller Zeit effizient berechnet werden können ("effizient berechenbar"), durch polynomielle neuronale Netze ausgedrückt werden können mit vernünftigen Größen und kann somit mit polynomieller Abtastkomplexität ("lernbar") unter beliebigen Eingangsverteilungen gelernt werden.
Hier betrifft "lernbar" nur die Komplexität der Stichprobe, unabhängig von der Komplexität der Berechnung.
Ich wundere mich über ein sehr eng verwandtes Problem: Gibt es eine Funktion, die von Turing-Maschinen in Polynomzeit nicht effizient berechnet werden kann ("nicht effizient berechenbar"), die jedoch in der Zwischenzeit mit der Komplexität von Polynomproben gelernt werden kann ("lernbar")? unter irgendwelchen Eingabeverteilungen?
- [1] Roi Livni, Shai Shalev-Shwartz, Ohad Shamir, " Über die rechnerische Effizienz des Trainings neuronaler Netze ", 2014
Antworten:
Ich werde eine Variante dieser Frage formalisieren, bei der "Effizienz" durch "Berechenbarkeit" ersetzt wird.
Lassen C nCn sein der Begriff Klasse aller Sprachen L ⊆ & Sgr; *L⊆Σ∗
erkennbar Turing - Maschinen auf nn Zuständen oder weniger. Im allgemeinen wird für x ∈ & Sigma; *x∈Σ∗ und f ∈ C nf∈Cn , das Problem der Auswertung
f ( x )f(x) ist unentscheidbare.
Nehmen wir jedoch an, wir haben Zugang zu einem (richtigen, realisierbaren) PAC-Lernorakel AA
für C nCn . Das heißt, für jedes ϵ , δ > 0ϵ,δ>0 fordert das Orakel eine markierte Stichprobe der Größe
m 0 ( n , ϵ , δ ) an,m0(n,ϵ,δ)
so dass das Orakel A eine Hypothese ausgibt , wenn eine solche Stichprobe aus einer unbekannten Verteilung D gezogenD wurde f ∈ C N
, die mit einer Wahrscheinlichkeit von mindestens 1 - δ hat DA f^∈Cn 1−δ D -Allgemeinerungsfehler nicht mehr als ϵϵ . Wir werden zeigen, dass dieses Orakel nicht nach Turing berechenbar ist.
Tatsächlich werden wir zeigen, dass ein einfacheres Problem nicht zu entscheiden ist: Bei einer markierten Stichprobe S wird bestimmtS , ob es ein mit S konsistentes f ∈ C n gibtf∈Cn . Nehmen wir an (um einen Widerspruch zu bekommen), dass K eine Turing-Maschine ist, die das Konsistenzproblem entscheidet.S K
Wir machen die folgenden Darstellungskonventionen. Identifizieren Σ *Σ∗ mit N = { 0 , 1 , 2 , ... } über die übliche lexikographische Ordnung. Für x ∈ { 0 , 1 } * , sagen wir , dass ein TM M "S-prints"
x wenn es alle Saiten in nimmt Σ *
zu den Indices i st x i = 1
und übernimmt keine (möglicherweise durch nicht Anhalten) einer der Zeichenfolgen, die den Indizes x entsprecheni = 0 . Da (unter der Annahme) K entscheidbar ist, folgt daraus, dass die Funktion ˜ K : x ↦ k , die als das kleinste k definiert ist,so dass ein Teil von TM in C k
S x druckt, Turing-berechenbar ist. Daraus folgt weiterdaß die Funktion
g : k ↦ x , das ordnet ein k ∈ N
an das mindestens (lexikographisch) string x ∈ { 0 , 1 } *
derartdass ~ K ( x) > k ist ebenfalls berechenbar.
Nun den TM definieren M wie folgt: M S-prints g ( | ⟨ M ⟩ | ) , wobei ⟨ M ⟩ ist die Kodierung von M , | x | bezeichnet die Länge einer Zeichenkette, und der Rekursionssatz wird aufgerufen, um die Existenz eines solchen M zu behaupten . Dann hat M eine Kodierungslänge, ℓ = | ⟨ M ⟩ | und es druckt eine Zeichenkette, x M ∈ { 0 , 1 } ∗. Konstruktionsbedingt ist ˜ K ( x M ) > ℓ , und daher kann x M von keinem TM mit der Beschreibungslänge ℓ oder kürzer S-gedruckt werden . Dabei ist es definiert als die S-Print-Ausgabe eines TM mit der Beschreibungslänge ℓ --- ein Widerspruch.
quelle