Class PPJoinPlusPlus
- java.lang.Object
-
- org.aksw.limes.core.measures.mapper.AMapper
-
- org.aksw.limes.core.measures.mapper.string.PPJoinPlusPlus
-
- All Implemented Interfaces:
IMapper
public class PPJoinPlusPlus extends AMapper
Die Implementierung von PPJoin+ Algorithmus. Der Algorithmus bestimmt alle Paare von Objekten, deren Ähnlichkeit aufgrund des verwendeten Ähnlichkeitsmaßes über einem angegebenen Schwellwert (threshold) liegt. Der Prozess der Duplikaterkennung mit PPJoin+ kann in drei Phasen gegliedert werden. Das sind: die Tokenisierung der Eingabe (tokenizer), die Generierung von Kandidatenpaaren und ihre Verifikation. Um nicht alle Objekte miteinander vergleichen zu müssen, werden bei der Kandidatengenerierung drei Filterstrategien eingesetzt: Präfix-Filterung (prefix filtering), positionelle Filterung (positional filtering) und Suffix-Filterung (suffix filtering). Sie reduzieren die Anzahl der Kandidaten, die schließlich miteinander verglichen werden müssen. Diese Implementierung des Algorithmus unterstützt drei Ähnlichkeitsmaße: Jaccard-, Cosine- und Trigram-Ähnlichkeit. Siehe detaillierte Beschreibung von PPJoin+.- Version:
- 1.0
- Author:
- Dawid Kotlarz
-
-
Nested Class Summary
-
Nested classes/interfaces inherited from interface org.aksw.limes.core.measures.mapper.IMapper
IMapper.Language
-
-
Constructor Summary
Constructors Constructor Description PPJoinPlusPlus()
-
Method Summary
All Methods Static Methods Instance Methods Concrete Methods Modifier and Type Method Description AMappinggetMapping(ACache source, ACache target, String sourceVar, String targetVar, String expression, double threshold)Computes a mapping between a source and a target.doublegetMappingSizeApproximation(int sourceSize, int targetSize, double threshold, IMapper.Language language)Returns the estimated mapping size of the mapping computed by the mapper.StringgetName()Returns the name of the mapper.doublegetRuntimeApproximation(int sourceSize, int targetSize, double threshold, IMapper.Language language)Returns the estimated time needed to obtain the mapping computed by the mapper.static intoverlap(algorithms.ppjoinplus.Record x, int beginnX, algorithms.ppjoinplus.Record y, int beginnY)Berechnet die Überlappung zwischen zwei Datensätzen mithilfe ihrer Tokens-
Methods inherited from class org.aksw.limes.core.measures.mapper.AMapper
getUriToUriMapping, getUriToUriMapping, getValueToUriMap, setNo
-
-
-
-
Method Detail
-
overlap
public static int overlap(algorithms.ppjoinplus.Record x, int beginnX, algorithms.ppjoinplus.Record y, int beginnY)Berechnet die Überlappung zwischen zwei Datensätzen mithilfe ihrer Tokens- Parameters:
x- erster DatensatzbeginnX- Position des Anfangstokens vom ersten Datensatzy- zweiter DatensatzbeginnY- Position des Anfangstokens vom zweiten Datensatz- Returns:
- Überlappung von x und y
-
getName
public String getName()
Description copied from interface:IMapperReturns the name of the mapper.- Returns:
- Mapper name as a string
-
getMapping
public AMapping getMapping(ACache source, ACache target, String sourceVar, String targetVar, String expression, double threshold)
Computes a mapping between a source and a target.- Parameters:
source- Source cachetarget- Target cachesourceVar- Variable for the source datasettargetVar- Variable for the target datasetexpression- Expression to process.threshold- Similarity threshold- Returns:
- A mapping which contains links between the source instances and the target instances
-
getRuntimeApproximation
public double getRuntimeApproximation(int sourceSize, int targetSize, double threshold, IMapper.Language language)Description copied from interface:IMapperReturns the estimated time needed to obtain the mapping computed by the mapper.- Parameters:
sourceSize- source sizetargetSize- target sizethreshold- atomic specification thresholdlanguage- language of source and target variables- Returns:
- estimated runtime, as double
-
getMappingSizeApproximation
public double getMappingSizeApproximation(int sourceSize, int targetSize, double threshold, IMapper.Language language)Description copied from interface:IMapperReturns the estimated mapping size of the mapping computed by the mapper.- Parameters:
sourceSize- source sizetargetSize- target sizethreshold- atomic specification thresholdlanguage- language of source and target variables- Returns:
- estimated execution time, as double
-
-