Posted on

80 millionen herunterladen

Diese Seite enthält Links zum Herunterladen des Tiny Images-Datasets, das aus 79.302.017 Bildern besteht, von denen jedes ein 32×32-Farbbild ist. Diese Daten werden in Form von großen Binärdateien gespeichert, die von einer Matlab Toolbox, die wir geschrieben haben, aufgenommen werden können. Sie benötigen rund 400 GB freien Speicherplatz, um alle Dateien zu speichern. Insgesamt gibt es 5 Dateien, die heruntergeladen werden müssen, von denen 3 große Binärdateien sind, die aus (i) den Bildern selbst bestehen; ii) die zugehörigen Metadaten (Dateiname, verwendete Suchmaschine, Ranking usw.); iii) Gist-Deskriptoren für jedes Bild. Die anderen beiden Dateien sind die Matlab-Toolbox und die Indexdatendatei, mit der Sie zusammen problemlos Daten aus den Binärdateien laden können. Downloads Beachten Sie, dass diese Dateien sehr groß sind und eine beträchtliche Zeit zum Herunterladen in Anspruch nehmen. Bitte stellen Sie sicher, dass Sie über ausreichend Speicherplatz verfügen, bevor Sie mit dem Download starten. &nbsp 1. Bild binär (227Gb) &nbsp Download &nbsp 2. Metadaten binär (57Gb)&nbsp Download &nbsp 3. Gist binär (114Gb)&nbsp Download &nbsp 4. Indexdaten (7Mb)&nbsp Download &nbsp 5.

Matlab Tiny Images Toolbox (150Kb)&nbsp Download Anleitung Übersicht ——– Die 79 Millionen Bilder werden in einer riesigen Binärdatei gespeichert, 227Gb groß. Die Metadaten, die jedes Bild begleiten, befinden sich ebenfalls in einer einzigen riesigen Datei mit einer Größe von 57 GB. Um Bilder/Metadaten aus diesen Dateien zu lesen, haben wir einige Matlab-Wrapper-Funktionen bereitgestellt. Es gibt zwei Versionen der Funktionen zum Lesen von Bilddaten: (i) loadTinyImages.m – einfache Matlab-Funktion (keine MEX), läuft unter 32/64bit. Lädt Bilder nach Bildnummer. Verwenden Sie dies standardmäßig. ii) read_tiny_big_binary.m – Matlab Wrapper für 64-Bit MEX-Funktion. Etwas schneller und flexibler als (i), erfordert aber eine 64-Bit-Maschine.

Es gibt zwei Arten von Anmerkungsdaten: (i) Manuelle Anmerkungsdaten, sortiert in annotations.txt, die die Beschriftung von Bildern manuell überprüft hält, um zu sehen, ob Bildinhalt mit einem Substantiv übereinstimmt, der zum Sammeln verwendet wird. Einige andere Informationen, wie Suchmaschine, wird auch gespeichert. Diese Daten sind nur für einen sehr kleinen Teil der Bilder verfügbar. (ii) Automatische Anmerkungsdaten, die in tiny_metadata.bin gespeichert sind und aus Informationen über die Sammlung des Bildes bestehen, z. B. Suchmaschine, welche Seite, URL zu Thumbnail usw. Diese Daten sind für alle 79 Millionen Bilder verfügbar. Anforderungen ———— 1. Rund 300 GB Speicherplatz.

2. Wenn Sie die MEX-Versionen des Codes zum Lesen in den Daten verwenden möchten, benötigen Sie einen 64-Bit-Computer. Aber für die meisten Zwecke funktioniert die Matlab-Implementierung (loadTinyImages.m), die entweder 32 oder 64Bit verwenden kann, perfekt.