Määrä Web-sovellukset, jotka on indeksoi Web-muodossa tai toisessa on niin valtava, ja se on yhä suurempi jokapäiväistä, että olen joko Stupidest henkilön Earth ja Google ei pysty kunnolla tai siellä kukaan myy Web-indeksoinnin palveluja.

Ihmiset, jonkun täytyy tehdä tämän. Mitatusta palvelu (esimerkiksi S3), jossa makuun löytyy kyselyn voit app. indeksoinnin tuloksia.

Aion antaa teille kaksi syytä, miksi minun pitäisi tehdä tämän itse.

Syy numero yksi:
Se on halvempi eikä jonkun muun ydinosaamista. Miten Friendfeed hakemisto kaikkia näitä sivuja? Who cares? Niitä ei pitäisi tehdä tätä. Kirjoittaminen hyvä web crawler on kova. He tarvitsevat * tietoja * kun se on * uusi *.

Syy numero kaksi:
Minulla on niin paljon ideoita, mutta haluan keskittyä prototyyppien niitä sen sijaan kirjoittaa indeksoijan. Se todella auttaa devs ympäri maailmaa, jos he voisivat vain käyttää joitakin API indeksoida sivuja.

Sanoin API? Yes, that's the point. Jonkun on kirjoittaa indeksoijalle API:

POST / api / i = http://www.example.com/file.html
user = name
pass = sana
kun = 00 00,12 * * 1-5
expires = 2592000

Joo, se on crontab syntaksia. "Kun" myös hyväksyä "kun" ja "OnChange".

"Vanhenee" on määrä sekunnissa (sillä hetkellä), että indeksointi ei enää tarvita.

Tämä pyyntö palauttaa "id", jota käytetään myöhemmin, kun asiakastuki on valmis ladata verkkosivun meiltä.

Tietysti on olemassa myös:

POST / api / i = regex
format = rss
content_regex = some_string (.*) sucks?

Joten tiedät, kun joku sanoo tuotteen sucks. Ja:

POST / api / i = regex
name = (jpg, gif)
width = LT200
height = LT200
type = kuva

LT alle, että olisi myös GT ja EQ.

Niin, / api / i = on lisätä indeksoinnin pyynnöstä. Voit pyynnöstä verkkosivuja / api / g =

POST / api / g = http://www.example.com/file.html
vain = # some_node_id. some_node_class

XPath on "vain".

Koska asiakastuki maksaisi siirretyistä mennessä, se imee saada asiakastuki kysely / api / g = aina, hän tarvitsee jotain. Ja se ei ole kovin erilainen kuin kirjallisesti oman indeksoijasta ei ole? Oikeastaan se johtuu robots.txt-, html parsing, palvelimen kuormaa, ja paljon muuta. Mutta monet ihmiset ajattelevat, että kirjoittaminen on helppoa indeksoijat ja skaalautuva.

Silti! Taika tapahtuu, kun indeksoida verkkosivun, ja se vastaa noin sääntöä, jonka joku puvuista. Nyt sinun tarvitsee vain kertoa heille luettelon aiemmin lähettänyt tunnukset / api / i =, jotka ovat valmiita. Ne yhteyden palvelimeen ja ladata tiedostoja.

Ja jos sinulla on tunnukset:

POST / api / g = 111112113
pienennys = True

Joka tuotto lisätä pyynnöt tunnukset 111 ja 112 ja 113 ja zip-tiedosto.

Vielä yksi hyvä asia: mittakaavaetuja. Jokaisella on uusin RSS-syötteet. Voi olla kymmeniä puvuista pyytää samaa rehua, mutta sinun tarvitsee vain napata sen jälkeen.

Tämä palvelu ei ole mitään tekemistä sen kanssa, etsiä, Google, deep web, semanttinen web riippumatta. Varmista vain, että ihmiset tietävät, kun verkkosivu on päivitetty.

    blogin kommentit powered by Disqus

    Português flagItaliano flagCoreano flagChinês (simplificado) flagEnglish flagAlemâo flagFrancês flagEspanhol flag
    Japonês flagÁrabe flagRusso flagHolandês flagBúlgaro flagTcheco flagCroata flagDinamarquês flag
    Finlandês flagHindu flagPolonês flagRomeno flagSueco flagGrego flagNorueguês flag 
    By N2H
    Dolet 96 alennus hosting Dreamhost!
    Käytä "PROMO CODE" hitautta. LAMP kanssa 20GB tilaa ja 1 Tt: n siirtoa.

    Kattavuus

    • Ei aiheeseen liittyviä virkoja

    Kategoriat