Follow Me

Twitter



Misc

Please Donate To Bitcoin Address: [[address]]

Donation of [[value]] BTC Received. Thank You.
[[error]]


GeekBlogs Logo

Deutsche Stopwords

Viele Blogs nutzen so genannte "Tagclouds" / "Schlagwort Wolken" diese sind spätestens im aufblühendem SEO (Search Engine Optimization) Wahn modern geworden. Neben dem Seitenbesucher möglicherweise interessante Schlagwörter zu präsentieren leiten Sie so Besucher und Suchmaschinen in Bereiche der Seite in die sonst vielleicht kaum jemand surft. Das Problem dieser Tagclouds ist nun jedoch auch die verwendete Sprache, Wörter wie z.B. "jene, welche, sein, seine, ihre, unser, jedes, wessen" sind als Schlagwörter unbeliebt. Meist versucht man sämtliche Präpositionen, Adverben und Determinative auszugliedern da diese schlichtweg überall vorkommen können ohne eine relevante Aussage an sich treffen zu müssen. Um dies zu unterbinden nutzt man nun o.g. "Stopword Lists"; Dies sind also nichts weiter als Aufzählungen von unerwünschten Tags. Ich habe auf Frage eines Seitenbesuchers meine Liste mal zum Download verfügbar gemacht. Die meisten Addons & Plugins für aktuelle CMS oder Blogsysteme wie Wordpress, Joomla, Drupal u.v.m. unterstützen die Verwendung von Stopwords.  

Als Hinweis sei angemerkt das diese Liste in Hinblick auf Verwendung in Blog / News-systemen erstellt wurde. D.h. es sind auch jene Wörter enthalten die als Web "Keywords" unerwünscht sind aber im herkömmlichen Sinne kein "Stopword" darstellen. Für Rücksendungen aktualisierter Versionen bin ich dankbar. 

Creative Commons Lizenzvertrag"German Stopwords List" von Marco Götze steht unter einer Creative Commons Namensnennung 3.0 Unported Lizenz.

Download and Thank you

DOWNLOAD

German Enhanced Stopwords
[download] (215 Downloads)

If you use the list for your project feel free to give me a little donation via Bitcoins, THANK YOU in Advance!

Please Donate To Bitcoin Address: [[address]]

Donation of [[value]] BTC Received. Thank You.
[[error]]
Veröffentlicht

Kommentare

Formate: | Größe: Mb
Punkte: 0
google_plus
Fynn Capelle

Vielen Dank für diese Stoppwortliste. Diese kam im Laufe der Jahre bei mir im privaten Rahmen immer mal wieder zum Einsatz. Auf der Suche nach weiteren internationalen Stoppwortlisten bin ich hier fündig geworden: de.webpageanalyse.com/stoppwortlisten...

Vielleicht kann damit ja jemdan was anfangen!
Punkte: 0
Include

Vielen Dank, vor allem für die Stopword-Liste. Gerne gebe ich etwas zurück.
Ich habe nämlich nen kleinen Vorschlag, wie du einen Teil deines Codes wesentlich performanter machen könntest.

        //--Aussortieren vorbereiten--//
        $stop = array_flip($stopwords);  // stopwords ist ein array.
            // durch das flippen wird anschliessen die sehr effizient
            // prüfung mit isset ermöglicht.
        $keywords_array = explode(';', $source);
       
        //--Vergleich der Wörter der Datei mit der Liste der unerwünschten Ausdrücke--//
        // und entferne gleichzeitig die kurzen wörter
        foreach($keywords_array as $key=>$val) {
            if (strlen($val)<$minWordLength || isset($stop[$val]))
                unset($keywords_array[$key]);
        };
        $cleaned = implode(';',$keywords_array);
Punkte: 0
Steffen Hartlieb

Vielen Dank! Ohne Leute wie Sie, die sich die Zeit nehmen und Mühe machen, so etwas der Allgemeinheit zur Verfügung zu stellen, wäre das Leben wirklich schwierig! Danke!
Punkte: 0
Steffen Hartlieb

Vielen Dank! Ohne Leute wie Sie, die sich die Zeit nehmen und Mühe machen, so etwas der Allgemeinheit zur Verfügung zu stellen, wäre das Leben wirklich schwierig! Danke!
Punkte: 0
Punkte: 0
Gregor

Diese Liste kann ich auch gleich brauchen. Danke
Punkte: 0
Sombra

Super!! Danke viel mal für die Liste :)
Punkte: 0
Sigmund

Very useful ... vielen Dank
Punkte: 0
Dr. B

superb idea... thanks