Die Antworten auf diese Frage zu SO ergaben einen Satz von ungefähr 125 Namen mit ein bis zwei Buchstaben: /programming/6979630/what-1-2-letter-object-names-conflict-with-existing -r-Objekte
[1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C"
[14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv"
[27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E"
[40] "el" "ES" "F" "FF" "fn" "gc" "gl" "go" "H" "Hi" "hm" "I" "ic"
[53] "id" "ID" "if" "IJ" "Im" "In" "ip" "is" "J" "lh" "ll" "lm" "lo"
[66] "Lo" "ls" "lu" "m" "MH" "mn" "ms" "N" "nc" "nd" "nn" "ns" "on"
[79] "Op" "P" "pa" "pf" "pi" "Pi" "pm" "pp" "ps" "pt" "q" "qf" "qq"
[92] "qr" "qt" "r" "Re" "rf" "rk" "rl" "rm" "rt" "s" "sc" "sd" "SJ"
[105] "sn" "sp" "ss" "t" "T" "te" "tr" "ts" "tt" "tz" "ug" "UG" "UN"
[118] "V" "VA" "Vd" "vi" "Vo" "w" "W" "y"
Und R Importcode:
nms <- c("Ad","am","ar","as","bc","bd","bp","br","BR","bs","by","c","C","cc","cd","ch","ci","CJ","ck","Cl","cm","cn","cq","cs","Cs","cv","d","D","dc","dd","de","df","dg","dn","do","ds","dt","e","E","el","ES","F","FF","fn","gc","gl","go","H","Hi","hm","I","ic","id","ID","if","IJ","Im","In","ip","is","J","lh","ll","lm","lo","Lo","ls","lu","m","MH","mn","ms","N","nc","nd","nn","ns","on","Op","P","pa","pf","pi","Pi","pm","pp","ps","pt","q","qf","qq","qr","qt","r","Re","rf","rk","rl","rm","rt","s","sc","sd","SJ","sn","sp","ss","t","T","te","tr","ts","tt","tz","ug","UG","UN","V","VA","Vd","vi","Vo","w","W","y")
Da der Punkt der Frage darin bestand, eine einprägsame Liste von Objektnamen zu erstellen, die vermieden werden sollten, und die meisten Menschen nicht so gut darin sind, aus einem soliden Textblock einen Sinn zu machen, möchte ich dies visualisieren.
Leider bin ich mir nicht ganz sicher, wie ich das am besten machen kann. Ich hatte an so etwas wie eine Stamm-Blatt-Darstellung gedacht, nur da es keine wiederholten Werte gibt, wurde jedes "Blatt" in die entsprechende Spalte gestellt, anstatt gerechtfertigt zu bleiben. Oder eine Anpassung im Stil einer Wortwolke, bei der die Größe der Buchstaben entsprechend ihrer Verbreitung erfolgt.
Wie kann dies am klarsten und effizientesten visualisiert werden?
Visualisierungen, die eine der folgenden Möglichkeiten erfüllen, passen zum Geist dieser Frage:
Primäres Ziel: Verbessern Sie die Einprägsamkeit des Namenssatzes, indem Sie Muster in den Daten anzeigen
Alternatives Ziel: Markieren Sie interessante Funktionen des Namenssatzes (z. B. zur Visualisierung der Verteilung, der häufigsten Buchstaben usw.).
Antworten in R werden bevorzugt, aber alle interessanten Ideen sind willkommen.
Das Ignorieren der Einzelbuchstaben ist zulässig, da diese einfacher als separate Liste anzugeben sind.
quelle
Ok, hier ist meine sehr schnelle Darstellung einer "Periodensystem" -ähnlichen Visualisierung, basierend auf der SO-Frage und den Kommentaren der anderen. Das Hauptproblem ist der große Unterschied in der Anzahl der Variablen zwischen den Paketen, der die Visualisierung behindert ... Mir ist klar, dass dies sehr rau ist. Sie können es also jederzeit ändern.
Hier ist die aktuelle Ausgabe (aus meiner Paketliste)
Und der Code
Jetzt haben wir einen Datenrahmen wie diesen:
Wir können jetzt die Daten nach Paket aufteilen
Wir können sehen , dass die meisten Variablen stammen aus der Basis und Statistik - Paket
Zum Schluss die Zeichenroutine
quelle
Hier ist ein buchstabenbasiertes Histogramm. Betrachtet die Größe der ersten Buchstaben nach Zahlen, entscheidet sich jedoch dagegen, da dies bereits in der vertikalen Komponente codiert ist.
quelle
Periodensystem für 100, Alex. Ich habe jedoch keinen Code dafür. :(
Man könnte meinen, dass in CRAN bereits ein "Periodensystem" -Paket vorhanden ist. Die Idee eines Farbschemas und des Layouts solcher Daten könnte interessant und nützlich sein.
Diese können nach Paket gefärbt und vertikal nach Häufigkeit sortiert werden, z. B. in einem Codebeispiel auf CRAN oder wie sie in der lokalen Codebasis angezeigt werden.
quelle
Die ersten beiden Seiten in Kapitel 2 von MacKays ITILA enthalten schöne Diagramme, die die bedingten Wahrscheinlichkeiten aller Zeichenpaarungen in englischer Sprache zeigen. Sie können es von Nutzen finden.
Es ist mir peinlich zu sagen, dass ich mich nicht erinnere, mit welchem Programm sie produziert wurden.
quelle