Was passiert, wenn Sie mit "OldMacDonaldAndMrO'TooleWentToMcDonalds" zu tun haben?
Grant Wagner
2
Es wird nur eine begrenzte Verwendung geben. Ich werde es hauptsächlich nur verwenden, um Variablennamen wie ThisIsMySpecialVariable,
Matias Nino
Das hat bei mir funktioniert : Regex.Replace(s, "([A-Z0-9]+)", " $1").Trim(). Und wenn Sie jeden Großbuchstaben aufteilen möchten, entfernen Sie einfach das Pluszeichen.
Mladen B.
Antworten:
173
Ich habe das vor einiger Zeit gemacht. Es entspricht jeder Komponente eines CamelCase-Namens.
Tatsächlich hat camelCase einen führenden Kleinbuchstaben. Was Sie hier meinen, ist PascalCase.
Drew Noakes
12
... und wenn Sie sich auf etwas beziehen, das "Kamelfall" oder "Pascalfall" sein kann, heißt es "intercapped"
Chris
Teilt nicht "Take5", was meinen Anwendungsfall nicht erfüllen würde
PandaWood
1
@PandaWood Digits war nicht in der Frage, daher berücksichtigte meine Antwort sie nicht. Ich habe eine Variante der Muster hinzugefügt, die Ziffern berücksichtigt.
Dies ist die bisher beste Lösung, aber Sie müssen \\ B zum Kompilieren verwenden. Andernfalls versucht der Compiler, \ B als Escape-Sequenz zu behandeln.
Ferruccio
Schöne Lösung. Kann sich jemand einen Grund vorstellen, warum dies nicht die akzeptierte Antwort sein sollte? Ist es weniger fähig oder weniger performant?
Drew Noakes
8
In diesem Fall werden aufeinanderfolgende Großbuchstaben als separate Wörter behandelt (z. B. ANZAC besteht aus 5 Wörtern), während die Antwort von MizardX sie (meiner Meinung nach korrekt) als ein Wort behandelt.
Ray
2
@ Ray, ich würde argumentieren, dass "ANZAC" als "Anzac" geschrieben werden sollte, um als Pascal-Fallwort betrachtet zu werden, da es kein englischer Fall ist.
Sam
1
@Neaox, auf Englisch sollte es sein, aber dies ist kein Akronym-Fall oder normaler-Englisch-Fall; Es ist durch Großbuchstaben getrennt. Wenn der Quelltext genauso groß geschrieben werden soll wie im normalen Englisch, sollten auch andere Buchstaben nicht groß geschrieben werden. Warum sollte beispielsweise das "i" in "is" großgeschrieben werden, um dem durch Großbuchstaben getrennten Format zu entsprechen, nicht jedoch das "NZAC" in "ANZAC"? Wenn Sie "ANZAC" als durch Großbuchstaben getrennt interpretieren, sind es genau genommen 5 Wörter, eines für jeden Buchstaben.
Sam
19
Tolle Antwort, MizardX! Ich habe es leicht angepasst, um Ziffern als separate Wörter zu behandeln, sodass "AddressLine1" zu "Address Line 1" anstelle von "Address Line1" wird:
Tolle Ergänzung! Ich vermute, nicht wenige Leute werden von dem Umgang der akzeptierten Antwort mit Zahlen in Strings überrascht sein. :)
Jordan Gray
Ich weiß, es ist fast 8 Jahre her, seit du das gepostet hast, aber es hat auch perfekt für mich funktioniert. :) Die Zahlen haben mich zuerst gestolpert.
Michael Armes
Die einzige Antwort, die meine 2 Ausreißertests besteht: "Take5" -> "Take 5", "PublisherID" -> "Publisher ID". Ich möchte dies zweimal
positiv
18
Nur für ein bisschen Abwechslung ... Hier ist eine Erweiterungsmethode, die keinen regulären Ausdruck verwendet.
publicstaticclassCamelSpaceExtensions{publicstaticstringSpaceCamelCase(thisString input){returnnewstring(Enumerable.Concat(
input.Take(1),// No space before initial capInsertSpacesBeforeCaps(input.Skip(1))).ToArray());}privatestaticIEnumerable<char>InsertSpacesBeforeCaps(IEnumerable<char> input){foreach(char c in input){if(char.IsUpper(c)){yieldreturn' ';}yieldreturn c;}}}
Um die Verwendung von Trim () zu vermeiden, habe ich vor dem foreach Folgendes gesetzt: int counter = -1. innen Zähler hinzufügen ++. Ändern Sie die Prüfung in: if (char.IsUpper (c) && counter> 0)
Außerhalb der Box Entwickler
Dies fügt ein Leerzeichen vor dem 1. Zeichen ein.
Zar Shardan
Ich habe mir erlaubt, das von @ZarShardan aufgezeigte Problem zu beheben. Wenn Sie die Änderung nicht mögen, können Sie sie jederzeit zurücksetzen oder bearbeiten.
jpmc26
Kann dies verbessert werden, um Abkürzungen zu verarbeiten, indem beispielsweise ein Leerzeichen vor dem letzten Großbuchstaben in einer Reihe von Großbuchstaben eingefügt wird, z. B. BOEForecast => BOE Forecast
Nepaluz
11
Grant Wagners ausgezeichneter Kommentar beiseite:
Dim s AsString=RegularExpressions.Regex.Replace("ThisIsMyCapsDelimitedString","([A-Z])"," $1")
Guter Punkt ... Bitte fügen Sie die Zeichenfolge .substring (), .trimstart (), .trim (), .remove () usw. Ihrer Wahl ein. :)
Pseudo Masochist
9
Ich brauchte eine Lösung, die Akronyme und Zahlen unterstützt. Diese Regex-basierte Lösung behandelt die folgenden Muster als einzelne "Wörter":
Ein Großbuchstabe gefolgt von Kleinbuchstaben
Eine Folge von fortlaufenden Nummern
Aufeinanderfolgende Großbuchstaben (als Akronyme interpretiert) - Ein neues Wort kann mit dem letzten Großbuchstaben beginnen, z. B. HTMLGuide => "HTML Guide", "TheATeam" => "The A Team".
usingSystem.Text.RegularExpressions;namespaceDemo{publicclassIntercappedStringHelper{privatestaticreadonlyRegexSeparatorRegex;staticIntercappedStringHelper(){conststring pattern =@"
(?<!^) # Not start
(
# Digit, not preceded by another digit
(?<!\d)\d
|
# Upper-case letter, followed by lower-case letter if
# preceded by another upper-case letter, e.g. 'G' in HTMLGuide
(?(?<=[A-Z])[A-Z](?=[a-z])|[A-Z])
)";var options =RegexOptions.IgnorePatternWhitespace|RegexOptions.Compiled;SeparatorRegex=newRegex(pattern, options);}publicstaticstringSeparateWords(stringvalue,string separator =" "){returnSeparatorRegex.Replace(value, separator +"$1");}}}
+ 1, um den regulären Ausdruck zu erklären und lesbar zu machen. Und ich habe etwas Neues gelernt. In .NET Regex gibt es einen Freiraummodus und Kommentare. Danke dir!
Felix Keil
4
Für mehr Abwechslung mit einfachen alten C # -Objekten wird im Folgenden die gleiche Ausgabe wie für den hervorragenden regulären Ausdruck von @ MizardX erzeugt.
publicstringFromCamelCase(string camel){// omitted checking camel for nullStringBuilder sb =newStringBuilder();int upperCaseRun =0;foreach(char c in camel){// append a space only if we're not at the start// and we're not already in an all caps string.if(char.IsUpper(c)){if(upperCaseRun ==0&& sb.Length!=0){
sb.Append(' ');}
upperCaseRun++;}elseif(char.IsLower(c)){if(upperCaseRun >1)//The first new word will also be capitalized.{
sb.Insert(sb.Length-1,' ');}
upperCaseRun =0;}else{
upperCaseRun =0;}
sb.Append(c);}return sb.ToString();}
Ich wusste, dass es einen einfachen RegEx-Weg geben würde ... Ich muss mehr damit anfangen.
Max Schmeling
1
Kein Regex-Guru, aber was passiert mit "HeresAWTFString"?
Nick
1
Sie erhalten "Heres AWTF String", aber genau darum hat Matias Nino in der Frage gebeten.
Max Schmeling
Ja, er muss hinzufügen, dass "mehrere benachbarte Hauptstädte in Ruhe gelassen werden". Was in vielen Fällen ziemlich offensichtlich erforderlich ist, zB "PublisherID" geht hier zu "Publisher I D", was schrecklich ist
PandaWood
2
Regex ist ungefähr 10-12 mal langsamer als eine einfache Schleife:
publicstaticstringCamelCaseToSpaceSeparated(thisstring str){if(string.IsNullOrEmpty(str)){return str;}var res =newStringBuilder();
res.Append(str[0]);for(var i =1; i < str.Length; i++){if(char.IsUpper(str[i])){
res.Append(' ');}
res.Append(str[i]);}return res.ToString();}
Ich habe dich modifiziert, aber die Leute nehmen einen Smackdown besser, wenn es nicht mit "naiv" beginnt.
MusiGenesis
Ich denke nicht, dass das ein Knaller war. In diesem Zusammenhang bedeutet naiv normalerweise offensichtlich oder einfach (dh nicht unbedingt die beste Lösung). Es besteht keine Absicht der Beleidigung.
Ferruccio
0
Es gibt wahrscheinlich eine elegantere Lösung, aber das habe ich mir auf den ersten Blick ausgedacht:
string myString ="ThisIsMyCapsDelimitedString";for(int i =1; i < myString.Length; i++){if(myString[i].ToString().ToUpper()== myString[i].ToString()){
myString = myString.Insert(i," ");
i++;}}
privatestaticStringBuilder camelCaseToRegular(string i_String){StringBuilder output =newStringBuilder();int i =0;foreach(char character in i_String){if(character <='Z'&& character >='A'&& i >0){
output.Append(" ");}
output.Append(character);
i++;}return output;}
/// <summary>/// Get the words in a code <paramref name="identifier"/>./// </summary>/// <param name="identifier">The code <paramref name="identifier"/></param> to extract words from.publicstaticstring[]GetWords(thisstring identifier){Contract.Ensures(Contract.Result<string[]>()!=null,"returned array of string is not null but can be empty");if(identifier ==null){returnnewstring[0];}if(identifier.Length==0){returnnewstring[0];}constint MIN_WORD_LENGTH =2;// Ignore one letter or one digit wordsvar length = identifier.Length;var list =newList<string>(1+ length/2);// Set capacity, not possible more words since we discard one char wordsvar sb =newStringBuilder();CharKind cKindCurrent =GetCharKind(identifier[0]);// length is not zero hereCharKind cKindNext = length ==1?CharKind.End:GetCharKind(identifier[1]);for(var i =0; i < length; i++){var c = identifier[i];CharKind cKindNextNext =(i >= length -2)?CharKind.End:GetCharKind(identifier[i +2]);// Process cKindCurrentswitch(cKindCurrent){caseCharKind.Digit:caseCharKind.LowerCaseLetter:
sb.Append(c);// Append digit or lowerCaseLetter to sbif(cKindNext ==CharKind.UpperCaseLetter){goto TURN_SB_INTO_WORD;// Finish word if next char is upper}goto CHAR_PROCESSED;caseCharKind.Other:goto TURN_SB_INTO_WORD;default:// charCurrent is never Start or EndDebug.Assert(cKindCurrent ==CharKind.UpperCaseLetter);break;}// Here cKindCurrent is UpperCaseLetter// Append UpperCaseLetter to sb anyway
sb.Append(c);switch(cKindNext){default:goto CHAR_PROCESSED;caseCharKind.UpperCaseLetter:// "SimpleHTTPServer" when we are at 'P' we need to see that NextNext is 'e' to get the word!if(cKindNextNext ==CharKind.LowerCaseLetter){goto TURN_SB_INTO_WORD;}goto CHAR_PROCESSED;caseCharKind.End:caseCharKind.Other:break;// goto TURN_SB_INTO_WORD;}//------------------------------------------------
TURN_SB_INTO_WORD:string word = sb.ToString();
sb.Length=0;if(word.Length>= MIN_WORD_LENGTH){
list.Add(word);}
CHAR_PROCESSED:// Shift left for next iteration!
cKindCurrent = cKindNext;
cKindNext = cKindNextNext;}string lastWord = sb.ToString();if(lastWord.Length>= MIN_WORD_LENGTH){
list.Add(lastWord);}return list.ToArray();}privatestaticCharKindGetCharKind(char c){if(char.IsDigit(c)){returnCharKind.Digit;}if(char.IsLetter(c)){if(char.IsUpper(c)){returnCharKind.UpperCaseLetter;}Debug.Assert(char.IsLower(c));returnCharKind.LowerCaseLetter;}returnCharKind.Other;}enumCharKind{End,// For end of stringDigit,UpperCaseLetter,LowerCaseLetter,Other}
Tests:
[TestCase((string)null,"")][TestCase("","")]// Ignore one letter or one digit words[TestCase("A","")][TestCase("4","")][TestCase("_","")][TestCase("Word_m_Field","Word Field")][TestCase("Word_4_Field","Word Field")][TestCase("a4","a4")][TestCase("ABC","ABC")][TestCase("abc","abc")][TestCase("AbCd","Ab Cd")][TestCase("AbcCde","Abc Cde")][TestCase("ABCCde","ABC Cde")][TestCase("Abc42Cde","Abc42 Cde")][TestCase("Abc42cde","Abc42cde")][TestCase("ABC42Cde","ABC42 Cde")][TestCase("42ABC","42 ABC")][TestCase("42abc","42abc")][TestCase("abc_cde","abc cde")][TestCase("Abc_Cde","Abc Cde")][TestCase("_Abc__Cde_","Abc Cde")][TestCase("ABC_CDE_FGH","ABC CDE FGH")][TestCase("ABC CDE FGH","ABC CDE FGH")]// Should not happend (white char) anything that is not a letter/digit/'_' is considered as a separator[TestCase("ABC,CDE;FGH","ABC CDE FGH")]// Should not happend (,;) anything that is not a letter/digit/'_' is considered as a separator[TestCase("abc<cde","abc cde")][TestCase("abc<>cde","abc cde")][TestCase("abc<D>cde","abc cde")]// Ignore one letter or one digit words[TestCase("abc<Da>cde","abc Da cde")][TestCase("abc<cde>","abc cde")][TestCase("SimpleHTTPServer","Simple HTTP Server")][TestCase("SimpleHTTPS2erver","Simple HTTPS2erver")][TestCase("camelCase","camel Case")][TestCase("m_Field","Field")][TestCase("mm_Field","mm Field")]publicvoidTest_GetWords(string identifier,string expectedWordsStr){var expectedWords = expectedWordsStr.Split(' ');if(identifier ==null|| identifier.Length<=1){
expectedWords =newstring[0];}var words = identifier.GetWords();Assert.IsTrue(words.SequenceEqual(expectedWords));}
Eine einfache Lösung, die um Größenordnungen schneller sein sollte als eine Regex-Lösung (basierend auf den Tests, die ich mit den Top-Lösungen in diesem Thread durchgeführt habe), insbesondere wenn die Größe der Eingabezeichenfolge zunimmt:
string s1 ="ThisIsATestStringAbcDefGhiJklMnoPqrStuVwxYz";string s2;StringBuilder sb =newStringBuilder();foreach(char c in s1)
sb.Append(char.IsUpper(c)?" "+ c.ToString(): c.ToString());
s2 = sb.ToString();
Regex.Replace(s, "([A-Z0-9]+)", " $1").Trim()
. Und wenn Sie jeden Großbuchstaben aufteilen möchten, entfernen Sie einfach das Pluszeichen.Antworten:
Ich habe das vor einiger Zeit gemacht. Es entspricht jeder Komponente eines CamelCase-Namens.
Beispielsweise:
So konvertieren Sie das, indem Sie einfach Leerzeichen zwischen die Wörter einfügen:
Wenn Sie mit Ziffern umgehen müssen:
quelle
quelle
Tolle Antwort, MizardX! Ich habe es leicht angepasst, um Ziffern als separate Wörter zu behandeln, sodass "AddressLine1" zu "Address Line 1" anstelle von "Address Line1" wird:
quelle
Nur für ein bisschen Abwechslung ... Hier ist eine Erweiterungsmethode, die keinen regulären Ausdruck verwendet.
quelle
Grant Wagners ausgezeichneter Kommentar beiseite:
quelle
Ich brauchte eine Lösung, die Akronyme und Zahlen unterstützt. Diese Regex-basierte Lösung behandelt die folgenden Muster als einzelne "Wörter":
Sie könnten es als Einzeiler tun:
Ein besser lesbarer Ansatz könnte besser sein:
Hier ist ein Auszug aus den (XUnit) -Tests:
quelle
Für mehr Abwechslung mit einfachen alten C # -Objekten wird im Folgenden die gleiche Ausgabe wie für den hervorragenden regulären Ausdruck von @ MizardX erzeugt.
quelle
Unten sehen Sie einen Prototyp, der Folgendes in Title Case konvertiert:
Natürlich würden Sie nur die "ToTitleCase" -Methode selbst benötigen.
Die Konsole wäre wie folgt:
Blog Post referenziert
quelle
quelle
Regex ist ungefähr 10-12 mal langsamer als eine einfache Schleife:
quelle
Naive Regex-Lösung. Behandelt O'Conner nicht und fügt am Anfang der Zeichenfolge ein Leerzeichen hinzu.
quelle
Es gibt wahrscheinlich eine elegantere Lösung, aber das habe ich mir auf den ersten Blick ausgedacht:
quelle
Versuchen zu benutzen
Das Ergebnis passt zum Alphabet-Mix mit Zahlen
quelle
Implementieren des Psudo-Codes von: https://stackoverflow.com/a/5796394/4279201
quelle
So stimmen Sie mit der Unicode-Kategorie für Nicht-Groß- und Großbuchstaben überein :
(?<=\P{Lu})(?=\p{Lu})
quelle
Prozedurale und schnelle Implikation:
Tests:
quelle
Eine einfache Lösung, die um Größenordnungen schneller sein sollte als eine Regex-Lösung (basierend auf den Tests, die ich mit den Top-Lösungen in diesem Thread durchgeführt habe), insbesondere wenn die Größe der Eingabezeichenfolge zunimmt:
quelle