Ich möchte, dass meine Daten und Modelle in separaten Google Cloud-Buckets gespeichert werden. Die Idee ist, dass ich die Daten mit anderen teilen möchte, ohne die Modelle zu teilen.
Eine Idee, die ich mir vorstellen kann, ist die Verwendung separater Git-Submodule für Daten und Modelle. Dies fühlt sich jedoch umständlich an und stellt einige zusätzliche Anforderungen an den Endbenutzer (z. B. müssen git submodule update
).
Kann ich das also ohne Git-Submodule tun?
Ja, Sie können mehrere Fernbedienungen ohne Git-Submodule verwenden.
Es gibt einen separaten Befehl zum Verwenden von Datenartefakten aus externen Repositorys:
dvc import http://your-repo datadir
Der Befehl bringt Daten in Ihr Repo und behält die Verbindung zum ursprünglichen Repo bei (um Datenverdopplungen in verschiedenen Fernbedienungen zu vermeiden).In Ihrem Fall kann ein Repository für ein Dataset mit einer eigenen Datenfernbedienung verwendet werden. Ein zweites Repo kann für den Code und die Modelle verwendet werden, die das Dataset-Projekt importieren, während alle Modelle und Ausgaben an eine andere Datenfernbedienung gesendet werden.
Mit
import
werden keinedvc push -r myremote
benötigt. Standardmäßig werdendvc push
Daten auf einer geeigneten Fernbedienung synchronisiert.BEARBEITET: Verwenden Sie einfach ein Git-Repo für ein Dataset mit seinem Ordner data-remote / S3 und importieren Sie es aus einem anderen Repo mit Code, Modell und einem anderen Ordner data-remote / S3.
quelle