代码之家  ›  专栏  ›  技术社区  ›  mvbl fst

比较来自不同网络的数据源(关联营销)

  •  2
  • mvbl fst  · 技术社区  · 15 年前

    我正致力于将分公司销售整合到现有的几个网站上。我们正在使用一些通过不同网络(CJ、Shareasale、Linkshare、Avantlink)工作的商家。

    现在我的观察是,所有这些网络都以不同的格式提供数据源。但这不是什么大问题。我主要关心的是商人在相同的产品上使用不同的名称。我不想遇到这样的情况:

    a)来自n个商家的同一产品的两个列表(如果标题稍有不同)

    b)一份来自商家的n种不同产品的清单(如果我们不使用严格的比较算法)

    我们希望尽可能自动化所有事情,希望避免运营商一直扫描有问题的列表。

    这个问题通常是如何处理的?

    4 回复  |  直到 6 年前
        1
  •  4
  •   tpunder    15 年前

    我们有一个类似的问题,试图从多个商家的饲料崩溃产品。我们要做的是根据他们的品牌(或制造商)+sku组合来折叠产品。

    我们的数据相当混乱,所以我们必须做一些工作来规范化品牌和SKU,这样产品就会很好地崩溃。我们有一个我们关心的品牌列表,并做了一些工作将品牌从商家反馈映射到我们的品牌中。例如,如果我们的系统中有一个“Acme”品牌,我们可以将以下内容映射到该品牌:

    A.C.M.E => ACME
    ACME Inc. => ACME
    Acme Incorporated => ACME
    

    对于sku,我们通常只是为了匹配而除去任何非字母数字字符。例如,所有以下内容将映射到同一个SKU:

    abc-123 => abc123
    abc.123 => abc123
    abc 123 => abc123
    ab.c1.23 => abc123
    

    因此,如果我们在一个feed中看到品牌“a c m e in c.”和sku“abc-123”,它将与另一个feed中的品牌“a.c.m.e”和sku“abc 123”一起崩溃。

    作为崩溃过程的一部分,我们最终得到了多个名称/图像/描述/类别等…对于每个折叠的部分,需要选择在网站上显示的“最佳”部分。

    这是我们如何处理它的一个非常高层次的概述。

        2
  •  0
  •   Max    15 年前

    寻找那些在订阅源中提供UPC代码的商家。它们是普遍存在的。此外,在先锋链接,你可以定制自己的饲料输出,这样很好。

        3
  •  0
  •   mvbl fst    15 年前

    一分钟前,我在看来自先锋的两个样本数据源。以下是他们提供的字段列表(未筛选,因此我假设它是所有内容):

    SKU 
    Manufacturer 
    Id  
    Brand Name  
    Product Name    
    Long Description    
    Short Description   
    Category    
    SubCategory 
    Product Group   
    Thumb URL   
    Image URL   
    Buy Link    
    Keywords    
    Reviews 
    Retail Price    
    Sale Price  
    Brand 
    Page Link   
    Brand Logo Image    
    Product Page View Tracking  
    Product Content Widget
    

    我在想是的,普及初等教育( 几乎 )很理想,但我看到的两个商店(其中一个是REI)都不提供UPC。

    检查了佣金结和sshareasale,一些大商人,他们也不包括upc的。

        4
  •  -1
  •   Robert    15 年前

    这个问题通常是如何处理的?

    这些场景通常由Oracle、HP、Microsoft、IBM、Netezza或Teradata提供的数据仓库系统覆盖。