Web-indeksoinnin palvelut

Kommentit

Määrä verkkosovelluksia, jotka on indeksoida Web jossain muodossa tai toisessa on niin valtava, ja se on tulossa suurempi päivittäin, että joko olen tyhmin ihminen maan päällä, ja Google voi tai siellä mitään enquiry.c myy Web-indeksoinnin palvelut.

Folks, joku tarpeisiin tämän. Mitattu palvelu (kuten S3) Jos kysely puvuista Voitko app on indeksoinnin tulokset.

Aion antaa teille kaksi syytä, miksi minun pitäisi tämän itse.

Syy numero yksi:
Se on halvempaa eikä jonkun muun ydinosaamista. Miten Friendfeed indeksi Kaikki näiden sivujen? Ketä kiinnostaa? Niiden ei pitäisi b näin. Kirjoittaminen hyvä Web crawler on kova. Ne tarvitsevat tiedot * * When It's * uusi *.

Syy numero kaksi:
Olen niin paljon ideoita, mutta haluan keskittyä prototyyppien Them kirjoittamisen sijaan indeksoija. Se todella auttaisi devs maailmalla jos he vain saisivat käyttää joitakin API indeksoida sivuja.

Sanoinko API? Niin, kohta. Joku tarvitsee kirjoittaa indeksoijalle API:

POST / api / i = http://www.example.com/file.html
user = nimi
siirrä = sana
Kun = 00 00,12 * * 1-5
päättyy = 2592000

Joo, crontab syntaksi. "Kun" myös hyväksyvänsä "kerran" ja "onchange".

"Vanhene" on monta sekuntia (koska nyt), että tämä ei indeksoi enää tarvita.

Tämä pyyntö palauttaa "id", jota käytetään myöhemmin, kun asiakastuki on valmis ladata verkkosivun meiltä.

Tietenkin on olemassa myös:

POST / api / i = regex
format = rss
content_regex some_string = (.*) perseestä?

Joten tiedät Kun joku sanoo, tuotteen perseestä. Ja:

POST / api / i = regex
nimi = (jpg, gif)
leveys = LT200
height = LT200
type = image

LT alle, siellä olisi myös GT ja EQ.

Joten, / api / i = s pyytää lisää indeksoida. Voit pyytää vuoteen kotisivut / api / g =

POST / api / g = http://www.example.com/file.html
vain = # some_node_id. some_node_class

XPath on "vain".

Koska costumer maksaisi siirtää päivämäärää, se imee saada costumer kysely / api / g = kerta hän tarvitsee jotain. Ja se ei ole kovin erilainen kuin kirjallisesti oman crawler, ei? Oikeastaan se johtuu robots.txt jäsentämiseen html, palvelimen kuormitus, ja paljon enemmän. Mutta monet ihmiset ajattelevat, että indeksoijat kirjoittaminen on helppoa ja skaalautuva.

Ainakin! Magic tapahtuu, kun indeksoida sivun ja lisää se vastaa sääntöä, jonka joku puvuista. Nyt sinun tarvitsee vain kertoa heille luettelo tunnukset aiemmin istua / api / i = jotka ovat valmiita. Ne ottavat yhteyttä palvelimeen ja ladata tiedostoja.

Ja jos sinulla on tunnukset:

POST / api / g = 111112113
puristaa = True

Joka palauttaa lisätä pyyntöjä tunnukset 111 ja 112 ja 113 zip-tiedosto.

Vielä yksi hyvä asia: mittakaavaetuja. Jokainen tarvitsee uusin RSS-syötteet. Sinulla voi olla kymmeniä puvuista pyynnön samaa rehua, mutta sinun täytyy vain napata se kerran.

Tämä palvelu ei olisi mitään tekemistä etsiä, Google, syvä web, semanttinen web riippumatta. Varmista vain ihmiset tietävät, milloin verkkosivu päivitetään.

    blogin kommentit powered by Disqus

    Português flagItaliano flagCoreano flagChinês (simplificado) flagEnglish flagAlemâo flagFrancês flagEspanhol flag
    Japonês flagÁrabe flagRusso flagHolandês flagBúlgaro flagTcheco flagCroata flagDinamarquês flag
    Finlandês flagHindu flagPolonês flagRomeno flagSueco flagGrego flagNorueguês flag 
    By N2H
    Dolet 96 alennus hosting Dreamhost!
    Käytä "PROMO CODE" hitautta. LAMP kanssa 20GB tilaa ja 1TB siirtohetkellä.

    Aiheeseen liittyviä artikkeleita

    • Ei aiheeseen liittyviä virkoja

    Kategoriat