Εμφάνιση 1-12 από 12
  1. #1
    Εγγραφή
    22-09-2003
    Μηνύματα
    81.767
    Downloads
    218
    Uploads
    48
    Άρθρα
    6
    Τύπος
    VDSL2
    Ταχύτητα
    204800/20480
    ISP
    Wind
    Router
    Technicolor DGA4130
    SNR / Attn
    6(dB) / 2.8(dB)
    Path Level
    Interleaved
    Το Internet Archive ανακοίνωσε πως πλέον θα αγνοεί τα αρχεία robots.txt όταν αποθηκεύει ένα αντίγραφο ενός site. Τα αρχεία robots.txt έχουν σαν κύρια λειτουργία την ενημέρωση των μηχανών αναζήτησης, για το ποιά μέρη ενός ιστότοπου θα ταξινομηθούν από αυτές.

    Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση. 

Όνομα:  internet-archive-server-640x0.jpg 
Εμφανίσεις:  230 
Μέγεθος:  139,6 KB 
ID: 182618
    “Over time we have observed that the robots.txt files that are geared toward search engine crawlers do not necessarily serve our archival purposes,” stated a blog post that the organization published last week. “Internet Archive’s goal is to create complete ‘snapshots’ of web pages, including the duplicate content and the large versions of files.”

    Robots.txt files are increasingly being used to remove entire domains from search engines following their transition from a live, accessible site to a parked domain. If a site goes out of business, and is rendered inaccessible in this way, it also becomes unavailable for viewing via the Internet Archive’s Wayback Machine. The organization apparently receives queries about these sites on a daily basis.
    Αυτή η τακτική ακολουθείται ήδη στις σελίδες της κυβέρνησης και του στρατού των ΗΠΑ, από το Internet Archive, χωρίς να έχουν εμφανιστεί προβλήματα.

    Πηγή: Digital Trends

  2. #2
    Εγγραφή
    11-03-2005
    Μηνύματα
    7.449
    Downloads
    24
    Uploads
    0
    Τύπος
    ADSL OTE
    Ταχύτητα
    24576/1024
    ISP
    OTEnet
    DSLAM
    ΟΤΕ - ΚΕΡΑΜΕΙΚΟΣ
    Router
    CISCO Systems K9 SMB
    Ναι ε...?
    Με το έτσι θέλω θα αποθηκεύει μια σελίδα.... BAN BAN BAN

  3. #3
    Το avatar του μέλους eyw
    eyw Guest
    Αμα είναι free η σελίδα γιατί όχι?

  4. #4
    Εγγραφή
    30-03-2008
    Περιοχή
    Munich
    Μηνύματα
    309
    Downloads
    5
    Uploads
    0
    Τύπος
    Cable
    Ταχύτητα
    100Mbps / 6Mbps
    ISP
    Kabel Deutschland
    Router
    Hitron CVE-30360
    Ειμαι της προσωπικής γνώμης ότι οποιος δεν θέλει να του κάνουν οι μηχανές αναζήτησης index απλώς βάζει ένα αρχείο htpasswd και την αντίστοιχη οδηγία στο htaccess για να ζητάει όνομα χρήστη και κωδικό για την πρόσβαση στο site.

  5. #5
    Το avatar του μέλους turboirc
    turboirc Guest
    Δεν νομίζω κανένας να μην έχει καταλάβει ότι το robots.txt είναι ψιλοάχρηστο.

  6. #6
    Εγγραφή
    11-03-2005
    Μηνύματα
    7.449
    Downloads
    24
    Uploads
    0
    Τύπος
    ADSL OTE
    Ταχύτητα
    24576/1024
    ISP
    OTEnet
    DSLAM
    ΟΤΕ - ΚΕΡΑΜΕΙΚΟΣ
    Router
    CISCO Systems K9 SMB
    Παράθεση Αρχικό μήνυμα από turboirc Εμφάνιση μηνυμάτων
    Δεν νομίζω κανένας να μην έχει καταλάβει ότι το robots.txt είναι ψιλοάχρηστο.
    Η Google πάντως το διαβάζει ..Από όσο ξέρω...........

  7. #7
    Το avatar του μέλους turboirc
    turboirc Guest
    Και για ποιο λογο να θες να κρυψεις κατι απο την google (και την καθε google) και να μην εχεις απλα access control.

  8. #8
    Εγγραφή
    30-03-2008
    Περιοχή
    Munich
    Μηνύματα
    309
    Downloads
    5
    Uploads
    0
    Τύπος
    Cable
    Ταχύτητα
    100Mbps / 6Mbps
    ISP
    Kabel Deutschland
    Router
    Hitron CVE-30360
    Αν και βγαίνουμε ελαφρώς εκτός θέματος το robots.txt έχει να κάνει με το crawling μιας Ιστοσελίδας όχι με το Index της. Μπορεί κάλιστα να γίνει indexed μια Ιστοσελίδα ακόμη και αν έχει το robots.txt. Επίσης το robots.txt είναι απλώς μια οδηγία προς τις μηχανές αναζήτησης. Είναι στην ευχέρεια μιας υπηρεσίας αν θα το σεβαστεί. Απο Google Webmaster Tools

    Υπάρχουν τα meta tags NOINDEX και NOFOLLOW για να μην γίνεται Index μιας ιστοσελίδας ή σελίδων αλλά και πάλι πολλές μηχανές αναζήτησης το αγνοούν.

  9. #9
    Εγγραφή
    11-03-2005
    Μηνύματα
    7.449
    Downloads
    24
    Uploads
    0
    Τύπος
    ADSL OTE
    Ταχύτητα
    24576/1024
    ISP
    OTEnet
    DSLAM
    ΟΤΕ - ΚΕΡΑΜΕΙΚΟΣ
    Router
    CISCO Systems K9 SMB
    Παράθεση Αρχικό μήνυμα από pgge3 Εμφάνιση μηνυμάτων
    Αν και βγαίνουμε ελαφρώς εκτός θέματος το robots.txt έχει να κάνει με το crawling μιας Ιστοσελίδας όχι με το Index της. Μπορεί κάλιστα να γίνει indexed μια Ιστοσελίδα ακόμη και αν έχει το robots.txt. Επίσης το robots.txt είναι απλώς μια οδηγία προς τις μηχανές αναζήτησης. Είναι στην ευχέρεια μιας υπηρεσίας αν θα το σεβαστεί. Απο Google Webmaster Tools

    Υπάρχουν τα meta tags NOINDEX και NOFOLLOW για να μην γίνεται Index μιας ιστοσελίδας ή σελίδων αλλά και πάλι πολλές μηχανές αναζήτησης το αγνοούν.
    Θα συμφωνήσω 100% με ότι λές !

    - - - Updated - - -

    Παράθεση Αρχικό μήνυμα από turboirc Εμφάνιση μηνυμάτων
    Και για ποιο λογο να θες να κρυψεις κατι απο την google (και την καθε google) και να μην εχεις απλα access control.
    Δεν είναι θέμα να κρύψω... Σε ένα site μπορέι να θέλω να επιτρέπω το crawling στις σελίδες του επισκέπτη αλλά να μην θέλω να γίνουν crawl οι σελίδες του admin ή να μην επιτρέπω την πρόσβαση σε φακέλους που περιέχουν κώδικα που καλείται από σελίδες...
    htaccess ναι στον admin μπορώ να βάλω αλλά αν βάλω σε φακέλους που περιέχουν classes που καλούνται από σελίδες του επισκέπτη θα του βγάζει για user/pass ... Ακόμα και αν υπάρχει λύση με το htaccess γενικά η φιλοσοφία πέραν για security δεν είναι σωστή για την συγκεκριμένη χρήση !

    Το σωστό είναι το robots.txt και ένα Disallow εκεί που που θέλεις και τέλος ...αλλά δυστυχώς δεν το ακούν όλες οι μηχανές και κακώς για μένα !



    Όπως και να έχει είναι πονεμένη ιστορία αυτό ... Πάντως για την ιστορία εκτός από google και συναφή ... όταν έχω να κάνω με κακόβουλα robots τραβάω ban στο firewall και τέλος ...και ας μην ακούνε .... τίποτα...

    Κακό του κεφαλιού τους..

  10. #10
    Εγγραφή
    30-09-2005
    Ηλικία
    47
    Μηνύματα
    6.974
    Downloads
    6
    Uploads
    0
    To robots.txt είναι κάτι σαν το do not track. Δεν το επιβάλει κανείς, είναι απλά μια προτίμηση.

  11. #11
    Το avatar του μέλους turboirc
    turboirc Guest
    Παράθεση Αρχικό μήνυμα από DVader Εμφάνιση μηνυμάτων
    Θα συμφωνήσω 100% με ότι λές !

    - - - Updated - - -



    Δεν είναι θέμα να κρύψω... Σε ένα site μπορέι να θέλω να επιτρέπω το crawling στις σελίδες του επισκέπτη αλλά να μην θέλω να γίνουν crawl οι σελίδες του admin ή να μην επιτρέπω την πρόσβαση σε φακέλους που περιέχουν κώδικα που καλείται από σελίδες...
    htaccess ναι στον admin μπορώ να βάλω αλλά αν βάλω σε φακέλους που περιέχουν classes που καλούνται από σελίδες του επισκέπτη θα του βγάζει για user/pass ... Ακόμα και αν υπάρχει λύση με το htaccess γενικά η φιλοσοφία πέραν για security δεν είναι σωστή για την συγκεκριμένη χρήση !

    Το σωστό είναι το robots.txt και ένα Disallow εκεί που που θέλεις και τέλος ...αλλά δυστυχώς δεν το ακούν όλες οι μηχανές και κακώς για μένα !



    Όπως και να έχει είναι πονεμένη ιστορία αυτό ... Πάντως για την ιστορία εκτός από google και συναφή ... όταν έχω να κάνω με κακόβουλα robots τραβάω ban στο firewall και τέλος ...και ας μην ακούνε .... τίποτα...

    Κακό του κεφαλιού τους..
    Οτιδηποτε σχετικο με ασφαλεια ειναι 100% λαθος να χρησιμοποιειται το robots.txt.
    Αν εχεις κανει τετοιο σχεδιασμο ειναι περα για περα μη ασφαλης.
    Οι admin pages πρεπει να προστατευονται με access control και οχι φυσικα με ban στην ip.
    Οσο για το htaccess ειναι ξεπερασμενη μεθοδος.

  12. #12
    Εγγραφή
    10-06-2006
    Μηνύματα
    3.963
    Downloads
    3
    Uploads
    0
    Τύπος
    ADSL
    Ταχύτητα
    2048/256
    ISP
    OTEnet
    SNR / Attn
    31(dB) / 30(dB)
    Ψιλοβλακεία τους. Έχω μεγάλα αρχεία και δεν θέλω να μου τρώνε latency ή bandwidth. Θα πρέπει να τους βάλω throttle.

    Έχω ένα php με '404 not found' και το κάνω link ως index.php, αλλά δεν βοηθάει για τα μεγάλα αρχεία όπως ανέφερα.
    Κώδικας:
    <?php
    header('HTTP/1.0 404 Not Found');
    echo "<h1>404 Not Found</h1>";
    echo "<p>The page that you have requested could not be found. Try my <a href=\"/index.php\">homepage</a></p>";
    exit();
    ?>
    Από το «Ο πελάτης έχει πάντα δίκιο», στο «Η εταιρία έχει πάντα δίκιο».
    Επιλογή linux διανομής.
    Αγγλικά <- Απορίες για το Slack; Διάβασε -> Ελληνικά. Οδηγίες εγκατάστασης από imitheos
    Θησαυρός πληροφοριών ΑΝΕΞΑΡΤΗΤΑ διανομής GNU/Linux.

Παρόμοια Θέματα

  1. γενικό πρόβλημα με το internet?
    Από akisgr στο φόρουμ Vodafone
    Μηνύματα: 4699
    Τελευταίο Μήνυμα: 10-04-24, 10:54
  2. Μηνύματα: 2
    Τελευταίο Μήνυμα: 14-12-16, 13:11
  3. Πρόβλημα στην ταχύτητα του internet
    Από D3LTA στο φόρουμ Vodafone
    Μηνύματα: 1
    Τελευταίο Μήνυμα: 30-11-16, 01:44
  4. Μηνύματα: 76
    Τελευταίο Μήνυμα: 18-11-16, 13:46
  5. Μηνύματα: 22
    Τελευταίο Μήνυμα: 05-09-16, 15:22

Tags για αυτό το Θέμα

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές

  • Δεν μπορείτε να δημοσιεύσετε νέα θέματα
  • Δεν μπορείτε να δημοσιεύσετε νέα μηνύματα
  • Δεν μπορείτε να αναρτήσετε συνημμένα
  • Δεν μπορείτε να επεξεργαστείτε τα μηνύματα σας
  •  
  • Τα BB code είναι σε λειτουργία
  • Τα Smilies είναι σε λειτουργία
  • Το [IMG] είναι σε λειτουργία
  • Το [VIDEO] είναι σε λειτουργία
  • Το HTML είναι εκτός λειτουργίας