Hoje em dia, a web tornou-se a fonte de dados mais ampliada no setor de marketing. Os proprietários de sites de comércio eletrônico e os comerciantes on-line contam com dados estruturados para tomar decisões comerciais confiáveis e sustentáveis. É aqui que a extração de conteúdo da página da Web vem. Para obter dados da web, você precisa de abordagens e técnicas abrangentes que possam interagir facilmente com sua fonte de dados.
Atualmente, a maioria das técnicas de raspagem na web são composta por recursos pré-embalados que permitem que os raspadores da Web usem abordagens de agrupamento e classificação para raspar páginas da web. Por exemplo, para obter dados úteis de páginas web HTML, você terá que pré-processar os dados extraídos e converter os dados obtidos nos formatos legíveis.
Problemas que ocorrem ao extrair um conteúdo central de uma página da web
A maioria dos sistemas de raspagem da Web usam wrappers para extrair dados úteis de páginas da web. Os wrappers funcionam envolvendo fonte de informações usando sistemas integrados e acessando a fonte alvo sem alterar o mecanismo do núcleo. No entanto, essas ferramentas são comumente usadas para uma única fonte.
Para raspar páginas da web usando invólucros, você terá que incorrer em seus custos de manutenção, o que torna o processo de extração bastante caro. Note que você pode desenvolver o mecanismo de indução do invólucro se o seu projeto atual de raspagem na web for em grande escala.
Abordagens de extração de conteúdo da página da Web para considerar
O CoreEx é uma técnica heurística que usa a árvore DOM para extrair artigos de plataformas de notícias on-line automaticamente. Esta abordagem funciona analisando o número total de links e textos em um conjunto de nós. Com o CoreEx, você pode usar o analisador HTML Java para obter um Objeto de Documento Árvore de modelo (DOM), que indica o número de links e textos em um nó.
O V-Wrapper é um técnica de extração de conteúdo independente de modelo de qualidade amplamente utilizada por scrappers web para identificar um artigo principal do artigo de notícias. O V-Wrapper usa a biblioteca MSHTML para analisar HTML-source para obter uma árvore visual. Com esta abordagem, você pode acessar facilmente dados de qualquer Nodos do Document Object Model.
O V-Wrapper usa a relação pai-filho entre blocos de dois alvos, que posteriormente define o conjunto de recursos estendidos entre um filho e um bloco pai. O pproach é projetado para estudar usuários on-line e identificar seus comportamentos de navegação usando páginas web selecionadas manualmente. Com o V-Wrapper, você pode localizar recursos visuais, como banners e propagandas.
Hoje em dia, esta abordagem é amplamente utilizada por raspadores de web para identificar recursos em uma página da web, olhando para o bloco principal e determinando o corpo de notícias e o título. O V-Wrapper usa algoritmo de extração para extrair conteúdo de páginas da web que implica identificar e rotular o bloco de candidatos.
Yan Guo projetou a abordagem ECON com o objetivo principal de recuperar automaticamente conteúdo de páginas de notícias da web. Este método usa o analisador HTML para converter páginas da web em uma árvore DOM completamente e utiliza os recursos abrangentes da árvore DOM para obter dados úteis.
O Mapeamento Abaixo-Abrigado Restrito é um algoritmo de edição de árvore baseado em percurso de árvores onde as operações desta abordagem são restritas a as folhas do alvo-árvore. Note-se que o RTDM é comumente usado na rotulagem de dados, classificação de página baseada em estrutura e geração de extração.
Post a comment