KI-Plagiat: Plagiatserkennung mit Elasticsearch

Hier erfahren Sie, wie Sie mithilfe von Elasticsearch auf KI-Plagiate prüfen können. Der Schwerpunkt liegt dabei auf Anwendungsfällen mit NLP-Modellen und Vektorsuche.

Von der Vektorsuche bis hin zu leistungsstarken REST-APIs bietet Elasticsearch Entwicklern das umfangreichste Such-Toolkit. Sehen Sie sich die Beispiel-Notebooks auf GitHub an, um etwas Neues testen. Sie können auch noch heute Ihre kostenlose Testversion starten oder Elasticsearch lokal ausführen.

Plagiat kann direkt sein, indem Teile oder der gesamte Inhalt kopiert werden, oder paraphrasiert, wobei das Werk des Autors durch die Änderung einiger Wörter oder Formulierungen umformuliert wird.

Es besteht ein Unterschied zwischen Inspiration und Paraphrasierung. Es ist möglich, einen Inhalt zu lesen, sich davon inspirieren zu lassen und die Idee dann mit eigenen Worten weiterzuentwickeln, selbst wenn man zu einem ähnlichen Schluss kommt.

Obwohl Plagiat schon seit langer Zeit ein Diskussionsthema ist, hat die beschleunigte Produktion und Veröffentlichung von Inhalten dazu geführt, dass es weiterhin relevant ist und eine ständige Herausforderung darstellt.

Diese Herausforderung beschränkt sich nicht auf Bücher, wissenschaftliche Forschung oder Gerichtsdokumente, wo häufig Plagiatsprüfungen durchgeführt werden. Dies kann sich auch auf Zeitungen und sogar soziale Medien erstrecken.

Wie kann Plagiat angesichts der Informationsfülle und des einfachen Zugangs zu Veröffentlichungen effektiv und in großem Umfang bekämpft werden?

Universitäten, Regierungsstellen und Unternehmen nutzen verschiedene Instrumente, aber während eine einfache lexikalische Suche direkte Plagiate effektiv aufdecken kann, liegt die größte Herausforderung in der Identifizierung paraphrasierter Inhalte.

Plagiatserkennung mit generativer KI

Mit generativer KI entsteht eine neue Herausforderung. Gilt von KI generierter Inhalt als Plagiat, wenn er kopiert wird?

In den Nutzungsbedingungen von OpenAI ist beispielsweise festgelegt, dass OpenAI keine Urheberrechte an Inhalten beansprucht, die von der API für Benutzer generiert werden. In diesem Fall können die Nutzer ihrer generativen KI die generierten Inhalte nach Belieben ohne Quellenangabe verwenden.

Die Akzeptanz des Einsatzes von generativer KI zur Effizienzsteigerung ist jedoch weiterhin Gegenstand von Diskussionen.

In dem Bestreben, einen Beitrag zur Plagiatserkennung zu leisten, entwickelte OpenAI ein Erkennungsmodell , räumte aber später ein, dass dessen Genauigkeit nicht ausreichend hoch sei.

„Wir glauben, dass diese Genauigkeit für eine eigenständige Erkennung nicht ausreicht und mit metadatenbasierten Ansätzen, menschlichem Urteilsvermögen und Aufklärung der Öffentlichkeit kombiniert werden muss, um effektiver zu sein.“

Die Herausforderung besteht weiterhin; allerdings stehen mit der Verfügbarkeit von mehr Werkzeugen nun auch mehr Möglichkeiten zur Erkennung von Plagiaten zur Verfügung, selbst bei paraphrasierten und KI-generierten Inhalten.

Plagiatserkennung mit Elasticsearch

In Anbetracht dessen untersuchen wir in diesem Blog einen weiteren Anwendungsfall von Natural Language Processing (NLP)-Modellen und Vector Search, nämlich die Plagiatserkennung, die über die Metadatensuche hinausgeht.

Dies wird anhand von Python-Beispielen demonstriert, wobei wir einen Datensatz von SentenceTransformers verwenden, der Artikel zum Thema NLP enthält. Wir prüfen die Abstracts auf Plagiat, indem wir eine „semantische Textähnlichkeit“ durchführen und dabei „Abstract“-Einbettungen berücksichtigen, die mit einem zuvor in Elasticsearch importierten Text-Einbettungsmodell generiert wurden. Um zudem KI-generierte Inhalte – also KI-Plagiate – zu identifizieren, wurde ein von OpenAI entwickeltes NLP-Modell in Elasticsearch importiert.

Die folgende Abbildung veranschaulicht den Datenfluss:

Während der Ingest-Pipeline mit einem Inferenzprozessor wird der Absatz „abstract“ einem 768-dimensionalen Vektor, dem „abstract_vector.predicted_value“, zugeordnet.

Abbildung:

Die Ähnlichkeit zwischen Vektordarstellungen wird mithilfe einer Vektorähnlichkeitsmetrik gemessen, die über den Parameter „Ähnlichkeit“ definiert ist.

Der Kosinus ist das Standardähnlichkeitsmaß und wird wie folgt berechnet: '(1 + cosine(query, vector)) / 2'. Sofern Sie die ursprünglichen Vektoren nicht erhalten müssen und sie nicht im Voraus normalisieren können, ist die effizienteste Methode zur Durchführung der Kosinusähnlichkeit die Normalisierung aller Vektoren auf Einheitslänge. Dadurch wird vermieden, dass während der Suche zusätzliche Vektorlängenberechnungen durchgeführt werden, stattdessen wird 'dot_product' verwendet.

In derselben Pipeline erkennt ein weiterer Inferenzprozessor, der das Textklassifizierungsmodell enthält, ob der Inhalt „Real“ (wahrscheinlich von Menschen geschrieben) oder „Fake“ (wahrscheinlich von einer KI geschrieben) ist, und fügt jedem Dokument den Wert „openai-detector.predicted_value“ hinzu.

Ingest-Pipeline:

Zum Zeitpunkt der Abfrage wird dasselbe Text-Embedding-Modell auch verwendet, um die Vektordarstellung der Abfrage 'model_text' in einem 'query_vector_builder'-Objekt zu generieren.

Bei einer k-Nächste-Nachbarn-Suche (kNN) werden die k nächsten Vektoren zum Anfragevektor anhand der Ähnlichkeitsmetrik ermittelt.

Der _Score jedes Dokuments wird aus der Ähnlichkeit abgeleitet, wobei ein höherer Score einer höheren Platzierung entspricht. Das bedeutet, dass das Dokument semantisch ähnlicher ist. Als Ergebnis geben wir drei Möglichkeiten aus: Bei einem Wert > 0,9 gehen wir von „hoher Ähnlichkeit“ aus; bei einem Wert < 0,7 von „geringer Ähnlichkeit“; andernfalls von „mittlerer Ähnlichkeit“. Je nach Anwendungsfall haben Sie die Möglichkeit, unterschiedliche Schwellenwerte festzulegen, um zu bestimmen, ab welchem _score-Wert ein Plagiat vorliegt oder nicht.

Zusätzlich wird eine Textklassifizierung durchgeführt, um auch KI-generierte Elemente in der Textanfrage zu erkennen.

Abfrage:

Ausgabe:

In diesem Beispiel wurde ein Plagiat festgestellt, nachdem einer der „abstract“-Werte aus unserem Datensatz als Textabfrage „model_text“ verwendet wurde. Der Ähnlichkeitswert beträgt 1,0, was auf eine hohe Ähnlichkeit hinweist – direktes Plagiat. Die vektorisierte Anfrage und das Dokument wurden erwartungsgemäß nicht als KI-generierter Inhalt erkannt.

Abfrage:

Ausgabe:

Durch die Aktualisierung der Textabfrage 'model_text' mit einem KI-generierten Text, der die gleiche Botschaft vermittelt und gleichzeitig die Wiederholung ähnlicher Wörter minimiert, war die festgestellte Ähnlichkeit immer noch hoch, aber der Wert betrug 0,9302529 statt 1,0 — Paraphrasierungsplagiat. Es wurde auch erwartet, dass diese von einer KI generierte Anfrage erkannt werden würde.

Schließlich ergab die Betrachtung der Textanfrage 'model_text' als Text über Elasticsearch, der kein Abstract eines dieser Dokumente ist, eine festgestellte Ähnlichkeit von 0,68991005, was gemäß den betrachteten Schwellenwerten auf eine geringe Ähnlichkeit hinweist.

Abfrage:

Ausgabe:

Obwohl Plagiate in der von der KI generierten Textanfrage sowie in Fällen von Paraphrasierung und direkt kopierten Inhalten korrekt identifiziert wurden, erfordert die Navigation durch das Feld der Plagiatserkennung die Berücksichtigung verschiedener Aspekte.

Im Kontext der Erkennung von KI-generierten Inhalten haben wir ein Modell untersucht, das einen wertvollen Beitrag leistet. Es ist jedoch entscheidend, die systembedingten Einschränkungen der eigenständigen Erkennung zu erkennen, weshalb andere Methoden zur Steigerung der Genauigkeit einbezogen werden müssen.

Die durch die Wahl der Text-Embedding-Modelle bedingte Variabilität ist ein weiterer zu berücksichtigender Aspekt. Unterschiedliche Modelle, die mit verschiedenen Datensätzen trainiert wurden, führen zu unterschiedlichen Ähnlichkeitsgraden, was die Bedeutung der generierten Text-Embeddings unterstreicht.

Schließlich haben wir in diesen Beispielen die Zusammenfassung des Dokuments verwendet. Die Plagiatserkennung betrifft jedoch häufig große Dokumente, weshalb es unerlässlich ist, die Herausforderung der Textlänge anzugehen. Häufig überschreitet der Text das Token-Limit eines Modells, sodass er vor dem Erstellen der Einbettungen in Abschnitte unterteilt werden muss. Ein praktischer Ansatz zur Bewältigung dieses Problems besteht in der Verwendung verschachtelter Strukturen mit dense_vector.

Fazit

In diesem Blog haben wir die Herausforderungen bei der Erkennung von Plagiaten, insbesondere bei paraphrasierten und KI-generierten Inhalten, erörtert und gezeigt, wie semantische Textähnlichkeit und Textklassifizierung zu diesem Zweck eingesetzt werden können.

Durch die Kombination dieser Methoden haben wir ein Beispiel für die Plagiatserkennung geliefert, bei dem wir erfolgreich KI-generierte Inhalte, direkte und paraphrasierte Plagiate identifiziert haben.

Das Hauptziel war die Einrichtung eines Filtersystems, das die Erkennung vereinfacht, die menschliche Beurteilung bleibt jedoch für die Validierung unerlässlich.

Wenn Sie mehr über semantische Textähnlichkeit und NLP erfahren möchten, empfehlen wir Ihnen, auch diese Links zu besuchen:

Zugehörige Inhalte

Sind Sie bereit, hochmoderne Sucherlebnisse zu schaffen?

Eine ausreichend fortgeschrittene Suche kann nicht durch die Bemühungen einer einzelnen Person erreicht werden. Elasticsearch wird von Datenwissenschaftlern, ML-Ops-Experten, Ingenieuren und vielen anderen unterstützt, die genauso leidenschaftlich an der Suche interessiert sind wie Sie. Lasst uns in Kontakt treten und zusammenarbeiten, um das magische Sucherlebnis zu schaffen, das Ihnen die gewünschten Ergebnisse liefert.

Probieren Sie es selbst aus